时间:2023-05-19 11:17:43
引言:寻求写作上的突破?我们特意为您精选了12篇数据分析的方法范文,希望这些范文能够成为您写作时的参考,帮助您的文章更加丰富和深入。
· 数据分析的目的是什么?
· 数据分析的一般过程是怎样的?
· 有哪些数据分析方法?
· 在服务性行业里,数据分析方法有哪些需要特别注意的地方?
· 在国内最容易犯哪些数据分析的错误?
因笔者能力和精力有限,文章中存在错误或没有详尽之处,还望各位读者见谅并恳请及时指正,大家相互学习。
(一)数据分析的核心作用
根据国际标准的定义,“数据分析是有组织、有目的地收集并分析数据,通过将数据信息化、可视化,使之成为信息的过程,其目的在于把隐藏在看似杂乱无章的数据背后的信息集中和提炼出来,从而总结研究对象的内在规律。”在实际工作中,数据分析能够帮助管理者进行判断和决策,以便采取适当策略与行动。
这里需引起关注的是任何没有目的或结果的分析报告都是“忽悠”,都仅仅是没有灵魂的躯壳!我们经常看到国内的同事们忙于各种所谓的“数据分析报告”,堆砌了大量的图表和文字,显得“专业”、“美观”,但认真研读后却发现缺乏最关键的“分析”过程,更别说什么分析结果了。显然大家只是把对事实的原始描述当成了数据分析,而实际上描述原始事实只是数据分析过程的一项内容而非全部。数据分析不能仅有报表没有分析,因为“有报表不等于有分析,有分析不代表有效执行”,报表只是数据的展现形式;数据分析也不能仅有分析没有结论,没有结论的分析无疑“差了一口气”,对实际业务工作无法产生价值,唯有通过分析得出结论并提出解决方案才能体现数据分析协助管理者辅助决策的核心作用。因此数据分析来源于业务,也必须反馈到业务中去,没有前者就不存在数据分析的基础,没有后者也就没有数据分析的价值了。
(二)数据分析的分类
最常见也是最标准的数据分析可分为三大类:描述性数据分析、探索性数据分析以及验证性数据分析。
所谓描述性分析是对一组数据的各种特征进行分析,以便于描述测量样本的各种特征及其所代表的总体特征。这种分析要对调查总体所有变量的有关数据做统计性描述,主要包括数据的频数分析、数据的集中趋势分析、数据离散程度分析、数据的分布以及一些基本的统计图形,比如上个月的平均通话时长是多少,员工离职率是多少等等。
探索性数据分析是指对已有数据(特别是调查或观察得来的原始数据)在尽量少的先验假定下进行探索,通过作图、制表、方程拟合、计算特征量等手段探索数据的结构和规律的一种数据分析方法,侧重于在数据之中发现新的特征,比如呼叫中心的一次解决率和哪些因素相关?他们背后的驱动因素又有哪些?哪些因素是“因”、哪些又是“果”等等。
而验证性分析是依据一定的理论对潜在变量与观察变量间关系做出合理的假设,并对这种假设进行统计检验的现代统计方法,侧重于验证已有假设的真伪性。验证性分析是在对研究问题有所了解的基础上进行的,这种了解可建立在理论研究、实验研究或两者结合的基础上,比如从调研的结果来看本月的客户满意度比上个月高出2%,是否真是如此;男性客户的满意度是否高于女性客户等等。
(三)数据分析的一般过程
通常来讲完整的数据分析过程可分为以下几步:明确数据分析的目的、采集并处理数据、分析及展现数据、撰写分析报告。
现实情况中人们往往在做数据分析时陷入一大堆杂乱无章的数据中而忘记了分析数据的目的,数据分析第一步就是要明确数据分析的目的,然后根据目的选择需要分析的数据,明确数据分析的产出物,做到有的放矢、一击即中!
其次,在做数据分析时要根据特定需求采集数据,有目的地采集数据是确保数据分析过程有效的基础,采集后的数据(包括数值的和非数值的)要对其进行整理、分析、计算、编辑等一系列的加工和处理,即数据处理,数据处理的目的是从大量的、可能是难以理解的数据中抽取并推导出对于某些特定人群来说是有价值、有意义的数据。
接着是对处理完毕的数据进行分析和展现,分析数据是将收集的数据通过加工、整理和分析、使其转化为信息,数据展现的方式有两类:列表方式、图形方式。
最后,整个数据分析过程要以“分析报告”的形式呈现出来,分析报告应充分展现数据分析的起因、过程、结果及相关建议,需要有分析框架、明确的结论以及解决方案。数据分析报告一定要有明确的结论,没有明确结论的分析称不上分析,同时也失去了报告的意义,因为整个数据分析过程就是为寻找或者求证一个结论才进行的。最后,分析报告要有建议或解决方案,以供管理者在决策时作参考。
(四)客户中心常用的数据分析工具及简介1 Excel
Excel是微软办公套装软件的一个重要组成部分,它可以进行各种数据的处理、统计分析和辅助决策操作,广泛地应用于管理、统计财经、金融等众多领域。Excel提供了强大的数据分析处理功能,利用它们可以实现对数据的排序、分类汇总、筛选及数据透视等操作。
2 SPC
SPC(Statistical Process Control)即统计过程控制,是一种借助数理统计方法的过程控制工具。实施SPC的过程一般分为两大步骤:首先用SPC工具对过程进行分析,如绘制分析用控制图等;根据分析结果采取必要措施:可能需要消除过程中的系统性因素,也可能需要管理层的介入来减小过程的随机波动以满足过程能力的需求。第二步则是用控制图对过程进行监控。
3 SAS
SAS是用于决策支持的大型集成信息系统,但该软件系统最早的功能限于统计分析,时至今日,统计分析功能仍是它的重要组成部分和核心功能。在数据处理和统计分析领域,SAS系统被誉为国际上的标准软件系统,SAS提供多个统计过程,用户可以通过对数据集的一连串加工实现更为复杂的统计分析,此外 SAS还提供了各类概率分析函数、分位数函数、样本统计函数和随机数生成函数,使用户能方便地实现特殊统计要求。
4 JMP
JMP是SAS(全球最大的统计学软件公司)推出的一种交互式可视化统计发现软件系列,包括JMP,JMP Pro,JMP Clinical,JMP Genomics,SAS Simulation Studio for JMP等强大的产品线,主要用于实现统计分析。其算法源于SAS,特别强调以统计方法的实际应用为导向,交互性、可视化能力强,使用方便。JMP的应用非常广泛,业务领域包括探索性数据分析、六西格玛及持续改善(可视化六西格玛、质量管理、流程优化)、试验设计、统计分析与建模、交互式数据挖掘、分析程序开发等。 SPSS(Statistical Product and Service Solutions)“统计产品与服务解决方案”软件,是世界上最早的统计分析软件,基本功能包括数据管理、统计分析、图表分析、输出管理等等。SPSS统计分析过程包括描述性统计、均值比较、一般线性模型、相关分析、回归分析、对数线性模型、聚类分析、数据简化、生存分析、时间序列分析、多重响应等几大类,每类中又分好几个统计过程,比如回归分析中又分线性回归分析、曲线估计、Logistic回归、Probit回归、加权估计、两阶段最小二乘法、非线性回归等多个统计过程,而且每个过程中又允许用户选择不同的方法及参数,SPSS也有专门的绘图系统,可以根据数据绘制各种图形。
6 Minitab
中图分类号:TP18 文献标识码:A文章编号:1009-3044(2007)06-11651-01
1 引言
粗糙集(Rough Set)理论[1]是波兰数学家Z.Pawlak于1982年提出的,它建立在完善的数学基础之上,是一种新的处理含糊性和不确定性问题的数学工具。其主要思想是在保持分类能力不变的前提下,通过知识约简,导出问题的决策或分类规则[2]。由于粗糙集理论不需要任何预备或额外的有关数据信息,使得粗糙集理论成为研究热点之一,被广泛应用与知识发现、机器学习、决策分析、模式识别、专家系统和数据挖掘等领域。
属性约简是粗糙集理论中核心研究内容之一[3]。在众多的属性约简算法中,大致可以分为两类:一类是基于信息熵的启发式算法[4],这类算法往往不能得到系统的所有约简.另一类是基于区分矩阵和区分函数构造的算法[5],这种算法直观,易于理解,能够计算出所有约简。但在区分矩阵中会出现大量的重复元素,造成时间和空间的浪费,从而降低了属性约简算法的效率。
本文基于数据分析方法[6]的属性简约算法是在保持分类能力不变的前提下,逐个约去冗余的属性,直到不再有冗余的属性,此时得到的属性集是最小属性集,即为约简。该算法简单,能够求出所有约简,不会出现区分矩阵中大
量的重复元素,从而提高了属性约简的效率。
2 粗糙集概念
定义2.1设U为所讨论对象的非空有限集合,称为论域;R为建立在U上的一个等价关系族,称二元有序组S=(U,R)为近似空间。
定义2.2令R为等价关系族,设P?哿R,且P≠?I,则P中所有等价关系的交集称为P上的不可分辨关系,记作IND(P),即有:[x] IND(P)= ∩ [x]R,显然IND(P)也是等价关系。
定义2.3称4元有序组K=(U,A,V,f)为信息系统,其中U为所考虑对象的非空有限集合,称为论域;A为属性的非空有限集合;V=∪Va,Va为属性a的值域;f:U×AV是一个信息函数,?坌x∈U,a∈A,f(x,a)∈Va。对于给定对象x,f(x,a)赋予对象x在属性a下的属性值。信息系统也可简记为K=(U,A)。若A=C∪D且C∩D=?I,则S称,为决策表,其中C为条件属性集,D为决策属性集。
显然,信息系统中的属性与近似空间中的等价关系相对应。
定义2.4设K=(U,A,V,f)为信息系统,P?哿A且P≠?I,定义由属性子集P导出的二元关系如下:
IND(P)={(x,y)|(x,y)∈U×U且?坌a∈P有f(x,a)=f(y,a)}
则IND(P)也是等价关系,称其为由属性集P导出的不可分辨关系。
定义2.5称决策表是一致的当且仅当D依赖于C,即IND(C)?哿IND(D),否则决策表是不一致的。一致决策表说明:在不同个体的条件属性值相同时,他们的决策属性值也相同。
定义2.6设K=(U,A)为一个信息系统。若P?哿A是满足IND(P)=IND(A)的极小属性子集,则称P为A的一个约简,或称为信息系统的一个约简。
定义2.7设K=(U,CUD)为一个决策表,其中C为条件属性集,D为决策属性,若P?哿C为满足POSC(D)=POSP(D)的极小属性子集,则称P为决策表K的一个约简。其中POSC(D)表示决策D关于属性集C的正域。
定义2.8数据分析方法对于信息系统K=(U,A),逐个移去A中的属性,每移去一个属性即刻检查新得到的属性子集的不可分辨关系,如果等于IND(A),则该属性可被约去,否则该属性不可被约去;对于决策表K=(U,CUD),逐个移去C中的属性,每移去一个属性即刻检其决策表,如果不出现新的不一致,则该属性可被约去,否则该属性不可被约去。
3 基于数据分析方法的属性简约算法
3.1 算法思路
利用函数的递归调用,逐个判定信息系K=(U,A)中属性a(a∈A),若IND(A)=ND(A-{a}),则a可以约去,A‘=A-{a},否则a不可以约去,继续检查A‘中的每个属性是否能被约去,此过程一直进行下去,直到出现某一属性子集中的每个属性都不可约去为止,此时该属性子集即为所求的属性简约。对于决策表,每次检查是否增加了不一致的决策规则,作为是否约去属性的依据。
算法如下:
输入:信息系统K=(U,A)。
输出:K的属性约简。
Match(A') // A’=A-{a}//
begin
for i=1to|U|-1 //|U|表示U的基数//
for j=i+1to|U|
begin
r=|R|//|R|表示属性个数//
if((f(ui,a1)= f(uj,a1))∧(f(ui,a2)= f(uj,a2))∧….∧(f(ui,ar)= f(uj,ar)))
then a不可被约去,return0
end
a可以被约去return1
end
Reduce (A)
begin
flag=1
for i=1 to |R|//|R|表示属性个数//
begin
a=ai
A'=A-{ai}
if match(A')thenflag =0 , reduce (A’)
if (flag且A未被输出)then
输出A中所有元素//flag≠0,说明A中所有元素不可移去,且不会被重复输出//
End
end
以上给出的函数是求解信息系统的属性约简算法;对于决策表,只要将Match(A’)函数中的if语句的条件换成(f(ui,a1)= f(uj,a1))∧(f(ui,a2)= f(uj,a2))∧….∧(f(ui,ar)= f(uj,ar))∧(f(ui,ag)≠f(uj,ag)),r=|C|是条件属性个数,ag是决策属性。Reduce (A)函数中|R|换成|C|即可。该算法适用于一致决策表,对非一致决策表,算法类似,也就是逐个移去属性并检查决策表是否出现新的不一致,作为约去此属性的依据。
4 举例
文献[7]中决策表1,a,b,c,d,e是条件属性,g是决策属性,求出的约简是{a,b,d}
应用本算法,求得的属性约简为{a,e}和{a,b,d},得到决策简化表2和表3。
表1 决策表表2简化表表3简化表
如果将决策表表1看作一信息系统,运用本算法,求得的属性约简有{c,d,e,g}, {b,e,g}, {a,c,d,g}, {a,c,d,e}, {a,b,g}, {a,b,e}h和{a,b,d}
5 结束语
本文通过数据分析方法讨论了属性约简问题。该算法是基于不可分辨关系的,具有直观、易于理解和完备性的特点。当属性和对象都较少时,效率较高,但当属性和对象较多时,计算的复杂度较高。实例表明,该算法是有效的。
参考文献:
[1]PAWLAK z.Rough set[J].International jom:ua ofcomputer and information science,1982,(11):341―356.
[2]张文修,吴伟志,梁吉业等.粗糙集理论与方法[M].北京:科学出版社,2001.
[3]Pawlak Z.Slowinski R.Rough set approach to muhiattribute decision analysis.Ivited Review[J].European Journal of Operational Research.1994,72:443-459
[4]王国胤,于洪,杨大春.基于条件信息熵的决策表约简[J].计算机学报,2002(7):760―765.
[5]Skowron A,Rauszer C.The Discernibility Matrices and Functions in Information Systems[A].I Slowinsk R.ntelligent Decision Support― Handbook of Applications and Advances of the Rough Sets Theory[c].1991,331-362.
物理实验中,验证型实验和研究型实验都是非常重要的两类实验。验证型实验是对已建立的物理规律的验证,研究型实验是通过实验得到物理规律,这两类实验虽然实验目的不同,但从数学处理方法上来看,具有相似性,都是通过实验数据分析确证物理规律或得到物理规律,所以对实验数据的分析处理方法是否得当就显得十分重要。下面以一个典型的验证型实验的数据处理为例进行相应探讨,以期望得出相对合理和妥当的实验数据处理方法。
以大学物理实验来说,验证型实验较多,诸如牛顿第二定律的验证、弹性碰撞实验等等都属于此类实验,其中牛顿第二定律的验证实验为该类实验的典型实验。牛顿第二定律的数学表达式是,力与加速度的大小关系可以表达成,要验证这个规律,就是给物体加一个大小为F的力,对应产生一个大小为的加速度,得到一个测量点,通过改变力,得到n个测量点后,即可通过适当的数学方法验证这个关系的成立。
类似这种线性物理规律,其数学模型都可以归结为的形式。要得到这个线性关系,就是要得出和。通过测量n组和的值,即、、……、、……、,在X―Y平面中得到n个测量点。若不考虑实验测量的系统误差,则测量误差应当服从高斯分布,反应在X―Y平面中,既是这n个测量点应当均匀地分布在所求表达式两侧,对第i个测量点,误差为,n个测量点导致的总体误差是最小的。若任意给一个直线,则一是测得到的这n个点不再均匀地分布在直线两侧,二是这n个测量点产生的总体误差水平将增大,甚至可以达到无穷大。由此可知,所求直线即是使得n个测量点的总体误差最小的那条直线。总体误差可以写成,但由于误差服从高斯分布,导致理论上而无法通过此求和值衡量总体误差水平。为使其不因为正负抵消而无法衡量总体误差水平,只要使得所有误差均为正再求和即可,故可用残差来衡量总体误差水平,虽然残差不再是总体误差。使得残差取最小值的和,即为所求直线的和。此即最小二乘法的数学思想。据最小二乘法处理,所求和即是使得取最小值的和,即有,解此式,得
将测量值供稿,即可得到所求和。通常大学物理实验中的处理方法,得到和,即是验证了[1]。但其实这是不太恰当的。
验证型或者研究型实验,特别是验证型实验,最关键的是需要解决两个问题,一是找出所要验证的关系,第二是要验证得出的关系的确成立,而第二点才是最重要的关键点。即使得出关系,但如果确证关系不成立,则第一步的工作就变得毫无意义。实际上,任意给出一组、、……、、……、,都可以根据最小二乘法得到和,即得出,但并不意味着此式的确成立,不能确证物理量和的确存在这样的数量关系,并没有检验此物理规律存在。因此,验证型实验做到这一步并不算已经验证被验证的物理规律成立,还需要研究和的相关性,通过计算相关系数,据的大小来检验和是否的确相关。
概念的内涵就是反映在概念中的事物的本质属性,这是概念的内容。概念的外延就是具有概念所反映的本质属性的对象,这是概念的适用范围。学生对于概念的掌握程度可以通过各种判断题、选择题的综合检测得到体现,概念的正确掌握能从根本上解决计算题、实验题及综合题等。只有学好的基本概念,深刻理解概念的内涵和外延,把握概念的本质属性,才能扎实地掌握相关的知识内容,正确而有效地学好化学知识。
一、运用数据分析,把握化学概念的内涵
高中化学选修四《化学反应原理》一书中的一些化学基本概念比较抽象,教师应在教学中依据教材提供的数据材料或通过实验所得数据及推理演算,引导学生在探索中得出相关概念,并进一步理解概念的本质。通过数据分析的教学,让学生自己收集数据,应用数据分析,从而感受数据分析的实际价值,深刻理解概念的内涵。
例如,弱电解质电离平衡常数用Ki表示。弱电解质通常为弱酸或弱碱,所以在化学上,可以用Ka、Kb分别表示弱酸和弱碱的电离平衡常数。用HA表示弱酸,则其电离方程式为HA H++A-,则电离常数Ka=[H]*[A]/[HA],电离平衡常数描述了一定温度下弱电解质的电离能力。在相同温度和浓度时,电离度的大小也可以表示弱电解质的相对强弱。用电离度比较几种电解质的相对强弱时,应当注意所给条件,即浓度和温度,如不注明温度通常指25℃。
在教学过程中,我们发现这些概念抽象难以用启发式教学法让学生去学习,因为学生对于课本上弱酸的电离平衡常数的理解总是基于表面,没能真正理解化学概念的内涵。
教师在教学中应充分利用课本中的数据,分析Ka与电离度α的关系,比较Ka与电离度α的相同点与不同点。电离常数K与电离度α的关系可近似地表示为K=cα2,其中c为弱电解质溶液的浓度。教师通过设计一组具体数据,让学生从电离常数可以算出不同浓度、不同温度时弱电解质的电离度,比较电离常数与电离度的区别,可看出Ka是常数而α不是常数。Ka随温度而变化,α随Ka而变化,因此α也随温度而变化,Ka不因浓度改变而变化,但α却随浓度而变化,Ka不因溶液中其他电解质的存在而变化,但α却因溶液中其他电解质离子的存在而变化。
例如,在醋酸溶液中加入醋酸钠(CH3COONa),则因同离子效应而使平衡向左移动,α将减小。在室内温度下,醋酸的电离常数是1.8×10-5,学生对这一数据并没有什么印象,但通过计算可以得出它的电离度α=1.3%,学生得出每1000个醋酸分子室温条件下只有13个醋酸分子发生电离,987个醋酸分子的形式存在溶液中。通过数据的分析转换,学生容易理解弱电解质的电离程度的大小,有利于把握化学概念的内涵。
二、运用数据分析,准确化学概念的外延
化学课本中有许多数据,教学中并不要求具体记忆这些数值,但对这些数据的统计分析,既能帮助学生理解概念本质,形成学科观念,又有利于培养学生严谨的科学态度,全面提升科学素养。对这些数据的统计分析,有利于学生建立准确的数据观念,可以发展学生的数据意识,学生从中提取相关信息,从而充分体现化学基本概念对元素化合物性质学习的指导作用。例如,关于Ka概念外延的教学,我们应该清楚该概念的适用范围。
(1)根据Ka判断弱酸的酸性强弱。通过Ka的学习达到指导元素化合物性质的学习。相同条件下,Ka越大,酸性越强。通过比较Ka,我们可以得出常见弱酸的酸性:CH3COOH>H2CO3>
H2SiO3;H2CO3>HClO;H2CO3>Al(OH)3。这样,学生就很容易理解醋酸溶液与碳酸钙的反应,还有漂白粉放置在空气中失效、水玻璃溶液中通入二氧化碳气体、偏铝酸钠溶液中通入二氧化碳气体等一系列反应,这些反应都是高一化学课本中的重要反应,都符合“酸性强的制取酸性弱”的基本原理。
(2)以Ka来判断盐类物质的水解相对大小。根据盐类水解规律“越弱越水解”,我们可以判断出相同条件下醋酸铵溶液、氯化铵溶液、次氯酸铵溶液水解的相对大小,从而判断出溶液的酸碱性。分析利用醋酸Ka和氨水Kb数据的特殊性可知:醋酸铵溶液接近中性,进而可以探究Mg(OH)2沉淀溶于浓铵盐的反应原理。
(3)根据Ka1、Ka2判断酸式盐溶液的酸碱性。在25℃时,碳酸的电离平衡常数分别为:碳酸Ka1=4.30×10-7,Ka2=5.61×10-11;亚硫酸的电离平衡常数Ka1=1.54×10-2 ,Ka2=1.02×10-7。对于酸式盐NaHA的水溶液, NaHA 中 HA-既可电离:HA- H++A2-,也可水解:HA-+ H2O H2A + OH-。酸式盐溶液由于NaHCO3溶液的Ka1Kh1而显酸性。
(4)根据Ka1、Ka2的相对大小判断物|的性质、理解离子反应的实质。碳酸Ka1=4.30×10-7 ,Ka2=5.61×10-11 ;苯酚C6H5OH ,Ka=1.0×10-10; 氢氧化铝的酸式电离Ka= 6.3×10-13 。通过对这些数据的分析,我们容易得出酸性:H2CO3>HCO3->Al(OH)3-;H2CO3>
C6H5OH>HCO3-。这样就容易理解以下四个反应:
A.往苯酚钠水溶液中通入少量或足量CO2 : C6H5O-+H2O+CO2 C6H5OH+
HCO3-
B.往偏铝酸钠水溶液中通入少量CO2 :AlO2-+H2O+CO2Al(OH)3+CO32-
C.往偏铝酸钠水溶液中通入足量CO2:AlO2-+H2O+CO2Al(OH)3+
HCO3-
D. 偏铝酸钠水溶液与碳酸氢钠水溶液混合: AlO2-+HCO3-+H2O
Al(OH)3+CO32-
三、运用数据分析,拓展提高学生综合应用概念的水平
化学计算是中学化学教学的重要内容,也是中学生必须掌握的一个基本技能,学会数据分析是提高计算能力的关键。化学计算题中,往往题目数据多、综合性强,但学生们因综合分析能力差,不善于对知识准确迁移,因而觉得十分棘手。分析化学过程、融会贯通理解化学概念的内涵是正确解决化学计算题的基础。
在学习《溶液中的离子反应》专题后,许多教师会引导学生对化学平衡常数K、酸碱电离平衡常数Ka、Kb、水的离子积Kw、难溶电解质的溶度积Ksp等一些概念进行比较归纳,分析他们的异同,但是若能进一步拓展到酸电离平衡常数Ka与盐的水解常数Kh、与难溶电解质的溶度积Ksp、配合物的稳定系数Kw之间的联系,就能进一步提高学生的综合能力。
例如,在25℃下,于0.010mol・L-1
FeSO4溶液中通入H2S(g), 使其成为饱和溶液 (C(H2S)= 0.10mol・L-1) 。
一、SOM算法介绍
由Kohonen提出的自组织映射(SOM)的神经网络是神经网络中适合用于对数据进行分类的有效方法。SOM神经网络包含一个输入层和一个输出层,组织成一个二维的网格结构(图1.1)。该网络能够从任意一个随机选择输入的结点开始最终形成一个拓扑结构的映射,这个映射反映了输入模式的内在的关系。但是运用SOM有一些参数的限制,首先需要指定类别数目,对映射空间结点进行权值的初始化等。如(图1.1)所示,SOM网络是一个的映射,如果这个神经元被安排在一个平面网格上面的话,这个神经网络就称为二维神经网络,因为这个网络将一个高维的输入向量映射到一个二维的平面上面。给定一个网络,输入向量是一个维的向量,相应的第个突触向量的第个元素与输入向量的第个元素相连,这样,一个维的突触向量就和第个神经元实行连接。
图1.1 SOM网络的基本结构
SOM算法描述如下:
(1)令网络学习次数,赋予初始化权值向量一个小的随机向量值,对拓扑邻域()、学习率()进行初始化,设置网络总的学习次数()。
(2)当学习次数()小于总的学习次数()时,重复步骤3至步骤6。
(3)随机选一个输入向量进入网络进行训练。
(4)确定获胜神经元,相应的权值向量为与输入向量距离最短的向量,成为获胜神经元,输入向量与获胜神经元的最短距离为,定义如下:
(1.1)
(5)按照下式更新获胜神经元及其邻域内神经元权值向量:
(1.2)
与函数定义如下:(1.3)
(6)令,如果,回到第(3)步继续训练,否则结束训练。
二、数值模拟计算
本文以HUGEindex数据库中人7000多条基因在19个正常组织中的表达情况这19个组织中表达的基因为样本对其进行分析。不同组织下的全基因表达数据构成了一个7070x59的数据矩阵,其中每一个元素表示第个基因在第个组织中的表达水平值,行向量代表基因在19个人组织中的表达水平,成为基因的表达谱,列向量代表某一组织的各基因的表达水平。
(1.4)
本文运用SOM方法对人基因19个组织的59个样本进行聚类,SOM网络的拓扑结构见(图1.2)及参数选择见表(表1.1)。
图1.2 样本聚类SOM网络结构图
上图中,根据Genechip得到的人体19个组织的59个微阵列数据所得到的信息,我们采用4x5的二维拓扑结构的SOM网络对人体组织样本进行分类(其中第(4,5)个结点为空),图中每个结点的位置(结点位置用与输入模式维数相同的向权值向量表示,初始权值由系统自动产生)为各个结点权值尺度化之后所得到的位置。
三、结论
通过分类可以将芯片实验的59个样本按照人体组织类别分为19个类别,并且与采用层次聚类法所得结果进行比较,可以看出自组织映射的聚类方法与层次聚类方法比较,可以看出采用SOM网络聚类方法比层次聚类得到的结果更为明确,其分类正确率达到了92.2%,证明了SOM方法是有效的。
参考文献:
[1]孙啸,陆祖宏,谢建明.生物信息学基础[M].北京:清华大学出版社,2005:282-285.
[2]许东,吴铮.基于matlab6.x的神经网络系统分析与设计[M].西安电了科技大学出版社,2002.
[3]阎凡平,张长水.人工神经网络与模拟进化计算[M].北京:清华大学出版社,2005.:11-34,360-395.
我们先来看一下传统的数据分析流程:解读业务战略目标-->确定目标分解的量化KPI-->确定KPI的计算公式和所需字段-->确定所需字段来自于哪些数据库的哪些表-->数据建模-->预先汇总成二次表和Cube-->结果展示。由于需要建模和打CUBE,这一流程通常需数月才能完成。
现在,取代传统数据分析流程的,是快速迭代式分析。敏捷数据分析不必在开始时花很长的时间构思大而全的分析指标体系,而是低成本快速迭代,几分钟就做好一个当前想要分析的结果,通过敏捷数据分析工具实现动态切换视角,灵活展示数据,日积月累,指标自然越来越丰富,计算公式也越来越符合业务逻辑,这时再体系化。下面的演示视频将帮助大家了解如何通过敏捷数据分析工具在几分钟时间内实现自己的分析需求。
视频链接:v.youku.com/v_show/id_XODcxNTgxMTQ4.html
为什么传统数据分析无法实现快速迭代分析的高效?因为在过去这么多年以来,我们对于大数据海量数据的计算能力达不到比较理想的要求,所以我们才需要IT人员用通过建模等方式提前把数据计算汇总好,随着现在大数据的技术相对来讲都日趋成熟和完善,分布式计算,内存计算、列存储等比较成熟的技术架构,采用这种新的办法去处理数据的性能,已经比以前提升了几十倍甚至更高。
符合迭代思维
快速迭代式的敏捷数据分析有什么好处?首先,这种分析方法十分符合互联网思维中的迭代思维。企业的分析指标不可能一开始想得非常全面,本身就是迭代逐步形成的。以电商行业为例,电子商务的数据可分为两类:前端行为数据和后端商业数据。前端行为数据指访问量、浏览量、点击流及站内搜索等反应用户行为的数据;而后端数据更侧重商业数据,比如交易量、投资回报率,以及全生命周期管理等。
在最初期,电商行业最关注的是那些核心指标:UV、转化率、客单价、毛利率、推广ROI、重复购买率,人们在核心指标的基础上逐步对媒体、用户、商品、营销等对象做详细分析;同时在客服、商品、仓储物流等内部运营绩效方面进行监控。这些数据现在又可以被归纳发展为4个方面,基础访问数据、商品销售数据、营销推广数据、用户数据,其中基础数据中包括网站的访问数据、网页链接点击、来源跳出等等。商品销售数据关系到品类、销售多少、影响因素等。营销数据包括投入产出的投资回报率,更多地是跟其他几方面的数据进行混合分析。用户数据包括分析用户区域、购买频率、客户构成、忠诚度、偏好等等。
中图分类号:F27 文献标识码:A 文章编号:1674-098X(2013)02(b)-0014-01
随着医药制造业在我国整个制造业中的地位逐步提高,如何有效提升企业管理决策水平是我国医药制造业企业正面临的关键问题。目前,众多信息融合、数据分析和决策分析方法正为企业现代化发展做出重要贡献。文提出一种医药制造企业的数据分析和决策支持设计方案,实现多维数据仓库基础上的高效分析,继而进行分级决策支持。数据分析和决策支持系统主要是对存储于数据仓库中的各级粒度数据进行处理,并返回用户所需的分析和决策信息。系统主要任务是定制固定和自由统计报表、多维数据分析以及决策支持。
1.医药制造企业数据分析方法
系统多维数据分析的主要关键技术包括如下。
(1)多维数据分析的核心是将一条或多条多维查询指令输入进平台接口中;接口调用查询解析器对多维查询指令进行解析和分解;接着查询优化器接收经过解析后的多维查询指令,并对指令进行一系列的优化;最后查询处理器执行优化后的多维查询指令,获取数据、加工数据以及返回查询结果,为了能够提高多维数据分析的效率,文需要对以下内容进行考虑。
①对于新出现的一些多维数据分析应用,系统将这些多维数据分析作为一个特殊的关系操作符(称为多维操作符),考虑它与传统关系操作符间执行顺序变换的等价规则。从而,基于这些等价变换规则和附加条件,通过改变多维操作符与传统关系操作符之间的执行顺序来有效提高数据分析的效率。同时,给出充分的理论证明以及代价模型来论证所给等价变换规则的正确性和有效性。
②当用户提出的多维数据分析应用在查询优化器中没有对应的操作函数表示时,系统采用如下方案:确定多维数据分析的精确代价模型;基于代价的方式扩展传统的查询优化树(主要是扩展注释连接树);将这些多维数据分析作为一个特殊的关系操作符(称为多维操作符),考虑它与基本关系操作,聚集操作以及rank操作之间组合的等价关系的约束条件和正确性判定;在扩展的查询优化树上使用等价规则,通过操作的上移,下移,增加操作符,变换操作符等机制生成代价最小的查询操作执行序列;多维操作符的物理层面上的实施;将多维操作符集成进传统的查询优化器之后将如何影响执行计划的搜索空间;扩展传统查询优化器的搜索执行计划的算法,权衡执行计划的有效性和生成执行计划的时间开销。
③当存在多个数据分析应用时,采用的技术是:从祖先数据立方体获取子孙数据立方体的代价模型;根据多维数据分析的自身特点,有效选择近似最优数据立方体的方法;根据代价模型,考察逻辑上如何将所有给出的多个多维数据分析分组,每个组由一个相同的祖先数据立方体来回答;根据多维数据分析的底层实现机制,将每个组中的多个多维数据分析通过物理上的共享机制进行有效的同步进行,节省不必要的物理上的时间开销。
2.决策支持方案
医药制造企业决策支持模块应用的考虑主要包含三个部分,即决策模型库的构造、决策分析的实施以及多环节协作决策的实施,为了能够有效且正确地让各级管理者和用户进行决策,需要对以下内容进行考虑。
(1)医药制造业决策模型库建立。决策模型库主要用于存放进行企业用户决策分析的模型。针对医药生产过程中的材料采购、库存管理、产品生产、市场营销、财务管理与人力资源管理等方面的数据,构建进行决策的模型。决策模型可以通过一定程度的授权,获得访问数据的权限。在此前提下,根据数据仓库中获取的数据,进行由用户指定目标的决策支持。系统对现有模型组成元素及其组成结构的知识进行描述,并且获取模型构造过程中的各类推理算法。对于由人机交互接口实现机器理解的决策问题,平台通过模型概念词及其属性等相关知识,获取适合新决策问题的匹配模型结构等信息。然后再根据模型构建推理算法自动用新问题的属性值填充匹配模型的框架,最终构造出决策问题模型。
(2)医药制造业决策分析实施。决策分析的实施就是决策模型进行求解的过程。模型的求解主要是通过对决策问题的理解,获取用户所需要决策的目标,意图等方面信息,进而通过合适的决策模型将可获得的数据进行分析,利用一定的规则和模型的求解算法得出有效的决策意见,并提交给用户。本系统通过对每个模型所包含求解算法进行规范的描述,对于具有通用求解算法的模型,通过调用模型中所包含的求解算法很容易对问题进行求解。而对于求解算法不存在或者不确定应采用哪种算法实施求解时,平台将从以往成功的决策案例中,选择与需要求解的问题相似的范例,通过范例求解的方法对问题进行求解。对于取得较好决策效果的案例,平台会进行相关的记录,同时存放在数据层的公用数据库中,方便在决策分析时调用相似范例进行求解。
0.引言
为了评测区域内电网调度能力,根据调度能力评测结果,调整输变电调度方案,提高变压器等主要设备的可靠运行,合理利用电网中各项资源和设备。本发明的目的是提供一种基于计算机实现的评测电网调度能力的方法,该方法通过对电压、有功功率、无功功率的分析,保持各个变压器都处于最佳工作状态,提高设备使用寿命,降低设备故障率,降低设备运行的电能损耗,提高电网运行的可靠性,提升电网调度水平。
1.大数据分析评测电网的现状
随着我国城市化的发展逐渐加快,我国对电力的需求也在逐渐的增多,未来十几甚至几十年,电力需求的增长主要集中在城市地区。这也就对我国的电网带来很大的挑战,城市电网是城市的重要基础设施,也是电力网的重要组成部分。建设好城市电网对满足城市经济发展、人民生活水平提高具有重大意义。但是,由于我国长期以来收着“重主网、轻配网”的思想,导致我国很长一段时间内,对电网的投资非常的少,城市的电网发展普遍落后于高压电网[1]。导致我国在很长一段时间内,处于用电不平衡的情况,很多的地方在年前或者重大节日之前就会出现的停电的现象。
2.大数据分析评测电网调度能力的具体方法
2.1获取两卷变或三卷变高低压侧的监控数据
该方法主要是用根据变压器端的终端设备,来获取的,首先通过各地市部署的调度EMS系统,将变电站中各变压器的运行情况准确的监控,通过变压器内的监控元件,对变压器的的运行情况、采集电压、有功负荷、无功负荷等检测数据,按指定频率采集。然后将采集的数据通过生产区的专用网络进行传输,通过生产区的安全交换机制放置到电力系统信息内网,开始清洗、筛选,去除设备检测的异常数据,保留有效数据用于负载率分析该评测电网调度能力工具通过在信息内网中载入电网运行的监控数据[2]。
2.2得到变压器实际功率与额定功率的比值
通过对变压器内高低压侧的检测数据,计算变压器实际功率与额定功率的比值,负责率分析,接下来对采集的调度EMS系统的电网运行数据进行计算,负载率有两种计算方法,一是根据选定的地区、时间段,使用公式二“有功负荷与无功负荷平方根/容量”计算每个时点该地区各个变压器的负载率;二是根据选定的地区、时间段,使用公式“有功负荷/(容量*0.95)”计算每个时点该地区各个变压器的负载率[3]。
2.3计算各个变压器的平均负载率以及平均负载率的平均值
首先要通过选定的地区、时间段,得到该地区在本时间段内各个变压器的平均负载率以及平均负载率的平均值。然后再计算各个变压器平均负载率的均方差,由变压器的均方差,判断选定区域在该时间段的调度运行能力。主变不均衡度分析,根据选定地区和时间段,统计负载率分析结果,得出平均负载率[4]。根据平均负载率计算各个变压器平均负载率的均方差,作为变压器的不均衡度,将结果逐级放大,能够得出变压器、变电站、县公司、市公司乃至网省公司在该时间段的调度健康情况,从而有效的调整调度策略和计划,改善电网运行情况。
3.大数据分析评测电网调度能力的应用
3.1调度EMS数据采集
要对EMS数据采集,首先要制定EMS系统监控数据的格式,然后加载指定格式的调度数据,其中指定数据额格式要求主要为:(1)按“变电站+地区+变电站电压等级+主变名称+时间”的顺序排序,每小时记录一次,主要记录每个整点、时点的有功、无功负荷该数据容量的单位是MVA,负荷的单位是MW。(2)时间,变电站,地区,变电站电压等级,主变名称,绕组电压,容量,有功负荷值,无功负荷值。(3)变电站的数据采集按照一定的顺序进行,不可以同时多个变电站的数据进行采集。
在这个过程中还要对数据进行“清洗”。清洗的流程为:(1)使用8个逗号作为数据的分隔符,分别隔开不同字段的数据。如果有多余逗号或缺逗号或两个逗号中间为空的行,则该行数据无效。(2)在计算的过程中除了容量、有功负荷值及无功负荷值外,其他各字段如数据超长,则页面抛出提示错误,结束导入。(3)厂站电压等级为110kV的变压器容量小于等于100MVA(系统用户可以在管理端修改此值大小),否则该行数据无效。
3.2负载率计算
负载率计算有两种情况,分别是近似计算和精确计算,其中近似计算效率高,能够很快得到近似结果。但是在常规检查时可使用本公式计算;精确计算算法相对复杂、比较耗时,但是计算准确,通常用于分析调度情况时使用。
简便公式为:
计算要求:
1、选定地区、场站或主变和时间段;
2、根据选定的地区、时间段,使用公式计算每个时点该地区各个变压器的负载率;
3、使用意义在于根据负载率大小得出各变压器负载率的最高或最低时点,从而判断当前电网的负荷情况。
精确公式:
计算方法:
1、选定地区、场站或主变和时间段;
2、根据选定的地区、时间段,使用公式二计算每个时点该地区各个变压器的负载率;
3、使用意义在于根据负载率大小得出各变压器负载率的最高或最低时点,从而判断当前电网的负荷情况。
4.结语
该发明可及时调整调度方案,从而均衡电网的运行负荷,保持各个变压器都处于最佳工作状态,提高设备使用寿命,降低设备故障率,降低设备运行的电能损耗,提高电网运行的可靠性,提升电网调度水平,对提高大数据分析电网调度能力具有显著的作用。
参考文献
[1]李庚银,罗艳,周明,等.基于数学形态学和网格分形的电能质量扰动检测及定位[J].中国电机工程学报,2012,26(03):25-30.
因子分析是一种通过显在变量测评潜在变量,通过具体指标测评抽象因子的统计分析方法。因子分析的目的即在找出量表潜在的结构,减少题目的数目,使之成为一组数量较少而彼此相关较大的变量。在本文中以主成分因素抽取法抽取共同因素,根据Kaiesr(1960)的观点选取特征值大于1.0以上的共同因素,再以最大变异法进行共同因素正交旋转处理,保留共同度大于0.6以及因素负荷量大于0.5以上的题目。因素负荷量为硕士论文因素结构中原始变量与抽取出共同因素相关,负荷量越高表示该题目在该共同因素的重要性越大。共同度和特征值是因子分析的两个重要指标。共同度是每个变量在每个共同因子的负荷量的平方和,也就是个别变量可以被共同因子解释的变异量百分比,是个别变量与共同因子间多元相关的平方。特征值是每个变量在某一共同因子的因子负荷量的平方总和。
因子分析的数学模型及其统计检验描述如下:
彼此之间是独立的,则模型(4.1)称为正交因子模型;相反,如果公共因子彼此之间有一定相关性,则称为斜交因子模型。由于斜交因子模型比较复杂,在本文中只考虑正交因子模型,而且假定各公共因子的均值为0,方差为1。
模型中的矩阵A称为因子载荷矩阵,a称为因子“载荷”,是第i个变量在第j个因子上的负荷。因子载荷阵的求解方法有很多,本文用常用的主成分分析法,求解载荷阵得到仅包含m个因子的因子载荷阵。主要问题就在于如何通过SPSS统计软件对数据的分析来估计因子载荷矩阵A,负荷量大的指标给予保留,否则剔除。保留下来的指标所构成的体系就是本文最终研究得到的指标体系。关于因子载荷的检验有:模型的标准化,这主要是为了得到抽象的因子含义,即对因子各维度进行命名;变量共同度检验,变量的共同度越高,说明该因子分析模型的解释能力越高;因子的方差贡献检验,用因子的累计方差贡献率来确定公共因子提取的个数,也就是寻找一个使得累计方差贡献率达到较大百分比的自然数,即最终提取方差贡献大于1的因子作为公共因子。
由于本文的论题是电子商务环境下服务业企业绩效评价指标体系构建,本文主要运用平衡计分卡把评价指标体系分为四个方面,18个二级指标作为18个因子,按照因子分析法来选取有效指标,各项指标在选取时,需要遵循两个原则,一是该指标在以前的研究中出现的概率,二是指标与所要研究的问题的潜在相关性。本文在四个方面的指标的选取上,另外考虑了①全面性,要求所选的指标能反映企业的经营、客户、企业学习与成长、财务方面的状况;②有效性,要求选择那些能够对预测企业的整体状况有指示作用的重要指标;如,若各项指标的双尾T检验的显著性概率小于0.05,则能有效的反映企业的四个方面的状况,反之,则是无效指标,应剔除。③同趋势性,即当各项指标增大时,表示企业的整体状况改善,反之当各项指标减少时,表示企业的整体状况恶化;④可操作性,采用易得到的数据。
2信度、效度、描述性统计、方差和相关分析方法
信度分析是采用一定的方法来衡量回收问卷中各变量的内部一致性,它主要考查的是问卷测量的可靠性,检验每一个因素中各个题目测量相同或相似的特性。本文采用克隆巴赫(Cronbach a)一致性系数检验量表的信度和各分量表的信度。效度分析是采用一定的方法对问卷的理论构思效度进行验证。首先,必须对题目的结构、测量的总体安排以及题目见的关系做出说明,然后运用一定的方法从数据中得出基本构思,以此来对测量构思的效度进行分析。用于评价结构效度的主要指标有累积贡献率、共同度和因子负荷。累积贡献率反映公因素对量表或问卷的累积有效程度,共同度反映由公因素解释原变量的有效程度,因子负荷反映原变量与某个公因素的相关度。描述性统计分析是对各维度中的测量题目的均值、标准差、方差等描述性统计量硕士论文进行统计,了解各维度中题目设置的水平。方差分析又称变异数分析或F检验,其目的是推断两组或多组资料的总体均数是否相同,检验两个或多个样本均数的差异是否具有统计学意义。
方差分析对客观事物数量进行依存关系的分析,主要刻画两类变量间线性相关的密切程度,其两个变量全是随机变量,且处于平等地位。两变量之间的相关关系可以通过绘制散点图或计算相关系数来反映。 3回归模型及其统计检验
现实世界中,一个事物的运动变化,总是与其他事物相关联。其中,有的还存在因果关系,这种因果关系有的是线性的,有的是非线性的。当预测对象与其影响因素的关系是线性的,且只有一个影响因素时,就可以用一元线性回归方法建立其一元线性回归预测模型,来表述和分析其因果关系;当有两个或多个影响因素同时作用于一个预测对象时,则用多元线性回归法建立多元线性回归预测模型。
本文就是以多对一的关系,因此,用多元线性回归模型进行统计检验。对于多元线性回归模型及其统计检验描述如下:
当预测对象y同时受到多个解释变量x1,x2,...,xm影响,且各个xj(j=1,2,...,m)与y都近似地表现为线性相关时,则可建立多元线性回归模型来进行预测和分析,模型为:
3)回归方程整体显著性检验
回归模型的显著性检验包括两个方面,即回归方程的显著性检验和回归系数的显著
性检验。
(1)回归方程的显著性检验
回归方程的显著性检验用于检验被解释变量与所有解释变量之间的线性关系是否显著。回归模型总体函数的线性关系是否显著,其实质就是判断回归平方和与残差平方和之比值的大小问题,可以通过方差分析的思想,构造F统计量来进行检验,F检验是用来检验多元线性回归模型的总体效果。
(2)回归系数显著性检验
回归方程总体显著并不意味着每个解释变量对被解释变量的影响都是重要的,还需要对每个回归系数的显著性进行检验。回归系数显著性检验通过构造t统计量来进行,
4)残差正态性检验
残差e是随机扰动项ε的体现。对残差进行分析的目的是检验随机扰动项是否服从经典假设。残差分析的内容包括残差正态性检验、序列相关检验、异方差检验等。本文应用残差的累计概率散点图进行残差正态性检验。
5)异方差检验
异方差常常表现为残差随某个解释变量取值的变化而变化,因此,检验随机扰动项是否存在异方差可以通过绘制被解释变量与解释变量的散点图来简单的判断。如果散点图呈带状分布,则不存在异方差;如果随着解释变量的增大,被解释变量波动逐渐增大或减少,则很可能存在异方差的现象。实践中,常常使用加权最小二乘法消除异方差。
7)多重共线性检验
所谓多重共线性是指各个解释变量之间存在线性关系或接近线性关系的现象。多重共线性常常会导致回归系数方差增大,从而使得t检验难以通过。用SPSS检验多重共线性共有四种方法:容忍度、方差膨胀因子、条件指数和方差比例。本文选用条件指数和比例方差这两种方法来检验共线性。
doi : 10 . 3969 / j . issn . 1673 - 0194 . 2012 . 11. 016
[中图分类号]F239.1[文献标识码]A[文章编号]1673 - 0194(2012)11- 0026- 02
1背景
网间结算是各运营商之间永恒的话题。自各运营商开展全业务经营以来,网间结算的协议和收入支出结构都发生了很大的变化,C网的双向结算和规模的发展、增值短信业务的发展、固网的逐渐萎缩以及国家对TD业务结算上的扶持,网间结算支出的变化,均值得分析研究。
网间结算的收入与本网的规模间接相关,网间结算的支出与本网的用户数量、话务量以及商品、营销政策直接相关,是公司经营成本的一部分,也是关注的重点。
网间结算的支出与很多环节相关,如在设计各类套餐、营销政策、增值业务包资费政策等环节时是否考虑网间结算的成本、规避风险保证公司经营目标的实现;在公司经营分析中是否持续关注网间结算的支出,防范各种异常、突发的网间结算损失等。
2分析思路和目标
网间结算支出按业务可分为语音、短信两大类,按通信区域可分为本地网和长途业务两大类。语音又可分为固网和移动两类,两者之下还可继续分为本地业务和长途业务(省内、省际、国际)。本地业务包括普通语音、短号、智能网、卡类业务等,本地普通语音业务还要细分为固话、GSM/WGSM/CDMA、TD三个小类。短信可大致分为点对点短信、彩信、业务短信等。每一类还要分为收入和支出,划分如此多的小类是结算规则的要求和系统结算出账的需要。
我们可以从一个分公司结算支出的时间和业务两个维度进行分析调查。在分析分公司结算支出的月度变化趋势时,也分析结算支出的业务构成。计算出单个分公司每个用户的平均语音、短信结算支出,可与其他分公司进行比较,还可进一步细化到对某一类套餐进行分析。对支出占比较大的结算业务要分析其支出的明细清单,查清是哪些号码造成的结算支出,查清这些号码的来源、商品属性、受理渠道并检查结算系统的结算规则是否正确配置。
流程如下:
(1)检查结算报表。
(2)分析结算支出的月度变化。
(3)计算每个用户的平均语音、短信结算支出。
(4)查找高额结算用户。
(5)检查用户套餐资费、受理渠道信息。
(6)检查营销或业务短信资费政策的合理性。
根据以上思路进行调查分析,我们可以确立重点和发现疑点,做到有的放矢,进行深入分析。重点查找是哪些业务的结算支出较高,计算该业务或套餐在结算收支相抵后带来的价值,找出评价的标准,提出管理建议。
3分析方法
结算系统每个月都会出网间结算报表,包括结算的收入和指标。我们可以先从这些数据的分析开始。
3.1 分析网间结算的变化趋势
首先分析网间结算总的变化趋势,再查看指标明细项的变化趋势,找出结算支出变化较大的分公司。
3.2 查找平均结算金额高出平均水平的营销套餐
我们可以从指标中计算出每个用户的平均结算支出,公式如下:
(1)固话语音平均结算支出=固网语音(本地、省内、省际)网间结算支出/当月过网固网用户数。
(2)固话短信平均结算支出=短信结算支出/当月过网固网用户数。移动用户的平均结算支出计算与固话类似。
(3)再调查一些营销方案,计算其扣除补贴、结算支出以及佣金后的收入,检查是否可能有结算风险。
3.3 检查业务短信的结算支出
我们分析短信结算支出的构成要分析构成是否包含了业务短信的结算支出。
先分析总体情况,再进一步统计检查结算清单,找出结算支出金额、条数较多的号码,可到系统进一步查看这些号码。
3.4 预估以后一段时间内的网间结算支出
经过统计分析发现,单个过网用户的平均结算支出是比较稳定的。而业务短信基本是采取预付费的形式,因此可以通过业务受理情况、分析其他网占比(单个分公司基本稳定)来估算它一段时间内的网间结算支出。分公司一段时间的网间结算支出的模型如下:
分公司一段时间的网间结算支出≈固话语音平均结算支出×平均过网用户数×账期数+移动语音短信平均结算支出×平均过网用户数×账期数+短信(不含业务短信)平均结算支出×平均过网用户数×账期数+预期消费的业务短信业务受理量/资费×他网占比×结算资费。该公式的数值都可以从报表和平台统计得到,有一定指导意义。通过这个公式我们可以预估一个分公司一段时间的网间结算支出。
4分析结论和建议
分析发现,要加强对结算支出数据的分析、监控,应对结算的支出开展预估,要加强对业务短信的管理,维护市场秩序,结算支出的监控要实现自动化、智能化。
大数据是一种时代现象,目前主要是商业概念。还未形成严谨的学术定义。过去,大数据通常用来形容一个公司创造或手机的大量非机构化和半结构化的数据,如网络日志、社会关系网络上的用户活动数据、互联网搜索引擎上的详细搜索记录等等。对于传媒行业,大数据指跨媒体或全媒体数据,如电视机顶盒的回路数据、电脑或移动终端收看视频的数据、社交媒体上对于收看节目的相关评论等。
当下我们提及大数据,还指一种解决问题的方法,即通过手机、整理生活中的方方面面的海量数据,并对其进行分析挖掘,从中获得有价值的信息,这种对大数据的应用与实践已经演化出一种新的商业模式,即公司的核心竞争力在于其拥有的数据规模以及它运用这些数据解决问题的能力。这种解决问题的方法在于对各领域情况进行量化分析:信息准确描述,使我们认知不清晰的方面变得清晰,帮助我们去判断现状和趋势、确定未来战略,在记录、表述、分析、重组后让它带来效益。
传媒业本身就是生产和传播信息的产业,大数据时代,传媒业大有可为:信息源更加丰富,传媒机构可利用数据资源,量化分析,更好地把握信息;对受众需求的把握更加准确,传媒机构可根据受众需求确定传播内容和传播策略,实现精准传播;传播效果的反馈对于不断调整内容和策略,赢得受众,提示品牌形象有很大帮助。首先数字化,让电脑处理这些数据即建立数据库;在数字化基础上进行数据化,变成软件可以识别的数据化文本:智慧地使用已有的理论和方法,让这些数据发挥价值——内容提取、分享、互动,让它们更好地服务于使用者,挖掘其中的商业性创新价值。然而大数据在中国传统媒体中的影响目前并未实现,虽然中国少数传统媒体已经实践或正在实践中,对于互联网媒体,这个领域的实践已经走在了传统媒体的前面。
2 借力大数据进行电视受众分析
2.1 过去的受众分析方法
其一,过去的人员测量仪,一种可以记录受众收看或收听时间的专门仪器,可以定时反馈给数据中心。其二,日记卡,由受访者填写特定格式的表格,记录自己的收视行为。其三,面访,通过上门或拦问了解受众的收视行为。其四,电话访问,由访员向目标受众打电话了解受众的收视行为。首先,记录受众观看行为的仪器是抽样的形式安装到用户家中的,这种仪器的安装行为本身对受众观看心理有一定影响,从而导致记录仪器的不准确。其次,观众观看行为的复杂性,这些信息资料庞大,不是简单的受众回访、记录就能得到准备的数据,需要更高的技术来测量。由此可见,这种简单的受众行为分析显然不能适应当下受众复杂的行为变化趋势,也不能够为电视媒体提供精准可靠的分析数据,我们需要借助大数据进行信息分析。
2.2 利用大数据分析电视受众行为
首先,海量电视收视样本监测。利用海量数据收集技术,获得传统的电视收视信息、数字电视、智能电视受众收视行为。目前大部分用户使用数字机顶盒,通过数字机顶盒可以实现信息的传送和反馈,而且这些数据包括内容丰富,有电视直播频道、网络视频资源库、付费点播频道、特色频道等等。数字电视的推广使受众点播回看、增值业务等行为纳入受众观看行为内,这是传统的收视监测难以监测到的。例如在北京市场,北京卫视(高清)、CHC动作频道等都是传统收视率监测很难监测到的频道,而在海量样本监测中均属于常规可监测频道。其次,整合网络视频、移动终端视频观看行为,量化分析受众观看行为。虽然新媒体时代下,互联网声称取代传统的电视媒体,但调查分析,互联网视频观看内容大部分还是传统的电视媒体提供的。媒体受众的行为变迁、跨媒体使用行为的增长,也要求对媒介受众行为监测更加精细化和综合化——如何在新媒体环境下更好地把握受众行为偏好,拓展电视媒体的经营空间,成功实现节目创新和经营创新?成为新时期电视媒体发展的关键议题。这就需要借助网络视频网站、移动终端视频观看数据,精准分析受众的观看行为。具体实施方面,需要电视媒体与网络视频网站合作,在为其提供视频资源的同时,电视媒体需要借助网络视频网站受众观看数据,加上从数字机顶盒获取的量化信息,进行深入分析,精准把握受众对节目内容的关注焦点、对节目发展的心理期待、对节目环节的个性意见、对节目品牌的情感归属等一系列重要问题,对电视节目的生产编排以及成长发展提供有力支持。再者,利用数据收集加工处理平台,挖掘受众喜好,为电视生产制作提供量化信息。大数据之大,重点并不是它的容量大,而在与其强大的数据收集加工处理能力,深入数据分析提取有效信息的能力,这才是大数据的真正价值,谁做到了这一点,就能在市场中获胜。
目前做电视媒体受众详细数据收集与分析的公司是基本上由尼尔森垄断的,中国并没有监管收视率调查的行政机构,做电视媒体受众分析的都是市场调查公司。目前尼尔森、央视索福瑞等调查数据较为权威,虽然价格不菲,但是大多数电视行业数据分析都是这几家做的。尼尔森根据客户的具体需求来定制调查方案,对于一般性的调查需求,尼尔森拥有一套在全球范围内得到认可的专有调查产品和方法,为客户提供最有力的可比性标准化数据。有少量传媒集团着手于专业调查机构合作,深入开发大数据的潜在功能,如2012年2月广东佛山传媒集团与尼尔森公司合作,寄希望于记住尼尔森大数据分析的平台,通过对数据的整合、分析、管理,为他们的转型发展提供战略性的策略依据。
对于电视媒体的受众调查分析,尼尔森采用第四代收视测量海量样本回路数据收视研究,这是全球最新的收视率测量解决方案:受众观看行为通过机顶盒的升级,使得机顶盒能够对观众开关机顶盒时间、转换频道、使用增值业务等具体操作行为进行精确到秒的准确记录,被机顶盒记录的数据通过有线数字电视网络,在一个高度安全的封闭通路中,传输至监测服务器进行多层加密,再通过互联网回传至数据处理中心,整个过程遮蔽了认为干扰的可能性,最大限度报纸了数据采集和传输的安全性,在理论上达到全样本测量。因为这些数据量大几乎达到全样本测量,需要进行量化分析,这就是大数据的应用。
广电行业目前处于三网融合的大环境 中,在这个过程中不可避免地相互渗透和交叉,经营上互相合作、互相竞争,内容上出现了融合,内容的融合意味着数据的融合。目前电视媒体对受众调查分析的意识开始增强,但在实践中电视媒体并没有全面应用数据融合带来的海量受众数据信息。而IT、家电等外行将利用技术进入广电领域对电视媒体有一定的警示意义,但是对于拥有优质精心制作的媒资的电视媒体,若能抓住受众行为在大数据时代下的变化,将是大赢家。
参考文献:
“社会网络分析” (Social Network Analysis, SNA)是在人类学、社会学、心理学等众多领域中发展起来的研究个体之间关系结构的分析方法,是对社会关系进行量化分析的一门艺术和技术。SNA主要用于描述和测量个体之间的关系以及这些关系中所包含的资源、信息等,并根据这些关系建立模型,进而研究关系与行为之间的相互影响(刘军, 2004)。SNA从“关系”角度来揭示社会情境与嵌套于其中的个体的心理和行为的互动影响,即个体可以能动地构造他们的关系网络(选择效应,selection effect),同时这些关系又反过来影响个体的心理与行为(影响效应,influence effect)。因此,个体既形塑社会网络,也被社会网络形塑(刘军, 2006; 马绍奇, 2012; 马绍奇, 焦璨, 张敏强, 2011 )。在SNA中,反映个体之间关系的数据称为关系数据(relational data),通常的数据类型是0、1二分变量数据,即1表示两个行动者之间存在关系,0表示不存在关系(马绍奇, 2012)。
SNA从嵌入社会情境的个体之间的关系出发,分析群体结构及其与心理行为的相互作用,更能反映人际交往的社会性特点。如,运用SNA方法系统研究中学生班级的学习关系、友谊关系、咨询关系、信息交流关系等,运用SNA方法研究中学生的支持网络对中学生学业和心理健康等方面的影响。这不仅有利于从社会关系的视角理解学生人际关系的形成、特征和影响因素,还能及时掌握学生的心理动态,维护学生的心理健康(唐文清等, 2014)。但是,由于SNA的应用涉及到更多的人事物,数据的缺失是必然现象。研究者在SNA中常常会遇到数据应答率在65%至90%的情况(Albrecht, 1984; Dean & Brass, 1985; Moch, 1980; Monge, Edwards, & Kirste, 1983; Roberts & O′Reilly, 1978, 1979)。此外,由于数据结构的依赖性,如果网络中的行动者或者关系存在缺失,就难以全面地描述缺失行动者及其邻近行动者的网络环境(Robins, Pattison, & Woolcock, 2004)。已有研究发现,缺失数据不仅对网络结构描述产生消极影响,还会低估关系强弱和聚类系数,并使得中心性和度数的测量出现不稳定的情况(Burt, 1987; Borgatti & Molina, 2003; Costenbader & Valente, 2003; Kossinet, 2006; Huisman, 2009)。这说明,网络结构描述和网络数据分析的结果会因为缺失数据而产生偏差。
心理技术与应用4卷
8期黄菲菲张敏强: 社会网络分析中缺失数据的处理方法
要使SNA方法得到更好的应用及认可,既要介绍理论及应用方法,同时还要解决方法使用中可能出现的各种问题。例如,在数据收集和研究结论的推广方面,如何在实际的应用分析中,完善相关的统计模型和参数估计方法的发展,如何提高数据收集的信效度,如何处理缺失值等问题(马绍奇, 焦璨, 张敏强, 2011; 焦璨, 吴换杰, 黄?h娜, 黄菲菲, 张敏强, 2014)。由于社会网络数据的相互依赖性,对缺失数据的处理不能采用常规的缺失处理方法。本文就SNA中缺失数据的原因及缺失机制,比较分析了常用的四种缺失数据处理方法在实际应用中的优缺点,并就SNA中如何处理缺失数据提出建议。
2缺失数据的原因
21边界规范问题
边界规范问题指的是在网络研究中指定行动者或者关系之间包含的规则(Laumann, Marsden, & Prensky, 1983)。例如,学者在研究青少年的冒险行为过程中,想了解他们在学校里的人际关系情况。图1中的A、B、C、D是四位青少年在学校里的人际关系网络,E、F、G三位青少年虽然和A、B、C、D四位青少年的交往密切,但是学校外的人际关系与研究目的无关,因此,E、F、G三者和研究中的青少年的人际关系就容易被忽视(Valente, Fujimoto, Unger, Soto, & Meeker, 2013)。总体而言,边界规范是由研究者自行决定的。在实际包含网络的例子中,组织成员或者由位置界定的正式定义大部分取决于一个正式组织团队中成员占据的排列位置,例如一个学校最受欢迎的前10名老师或者一个班级成绩最好的前五名同学(Kossinets, 2006)。
社会网络是由行动者及行动者之间的关系组成的,因此研究者在规范网络边界时,除了需要考虑通过一组行动者来界定网络边界外,还要决定哪些关系应该纳入研究范围里。对于如何有效地规范网络边界,学者们提出了一个准则,即根据可测量行动者的交互作用确定。因此,研究中的网络边界被定义为该边界记录了在特定情境中行动者间的交互作用(Laumann, Marsden, & Prensky, 1983)。但是,无论是情景还是交互作用的设置,研究者首先需要根据研究目的给出操作性定义,然后再确定在这个情境中包含哪些存在交互作用的行动者。随着电子科技时代的发展与进步,这个准则不再仅限于小网络,因为大规模的社会网络交互作用数据可以通过邮件传递或者虚拟社区的记录得到(Newman, 2002; Ebel, Mielsch, & Bornholdt, 2002; Guimera, Danon, DiazGuilera, Giralt, & Arenas, 2003; Holme, Edling, & Lijeros, 2004)。
22固定选择的研究设计
固定选择的研究设计指的是网络中行动者和关系的缺失依赖于研究设计中提名选择的限定(Holland & Leinhard, 1973),即网络数据的偏差是由于研究设计造成的。假设图2中的行动者A属于Z团体,在这个团体中,他和其他5个行动者有关系,现研究者要求行动者A提名y个和他关系最好的行动者。如果y≤5,则行动者A和其他5个行动者之间的所有关系都包含在数据集中;如果y>5,则行动者会失去5-y个关系。例如,学者想研究班级的学业咨询网络对学生学业拖延的影响,要求学生提名2个在学习上遇到困难或疑问时会请教的同学。如果学生平时向同学请教问题的人数普遍都是3个,那么学者得到的学业咨询网络数据是有偏差的。因为在该网络中,大部分行动者(学生)都失去了1个关系。
在固定选择的研究设计中,会出现互惠提名(有关系的双方相互提名),非互惠提名(有关系的双方只有一方提名)和无提名(有关系的双方均不提名)三种情况。从本质上而言,非互惠提名和其他两种提名的情况不一样(例如:好朋友和普通朋友的区别),因此,研究者需要考虑是否将其纳入到研究范围内。固定选择的研究设计还容易使数据呈现非随机缺失的模式,如受欢迎的个体更有可能被其他行动者提名(Feld, 1991)。但是,在不同结构的网络中,这种影响会不一致(Newman, 2002; Vázquez & Moreno, 2003)。例如,在非相称混合性(即受欢迎的行动者倾向于和不受欢迎的行动者相联系)的网络中,互惠提名将会导致更多关系缺失的情况出现。
23网络调查中的无应答
网络调查中的无应答包括应答者完全缺失和特定项目的数据缺失(Stork & Richands, 1992; Rumsey, 1993)。应答者完全缺失指的是行动者没有参与到调查研究中,因此行动者的发出关系对于分析而言是无效的(如图3所示,N表示缺失数据)。特殊项目的数据缺失指的是行动者参与了调查研究,但是在特定项目上的数据缺失,因此只有行动者的部分关系对于分析而言是无效的(如图4所示,N表示缺失数据)。例如,在一个关于学生情感咨询网络对学业成绩影响的调查中,要求学生提名3个班上的好朋友。图3中的A和D两位学生因事由请假没有参与此次研究,但图3应答者完全缺失是其余的学生在提名中提及到了A和D,所以A和D的无应答属于应答者完全缺失。如果A和D参与了调查研究(如图4),但是在提名中他们忽略了被提及的学生,即B提名了A,A没有提名B,则A和D的无应答属于特殊项目的数据缺失。对于1-模网络而言,即由一个行动者集合内部各个行动者之间的关系构成的网络(刘军, 2009),无应答对网络结构及统计指标的影响不大,但是对于存在多元交互作用情景的网络(例如,二元网络)而言,无应答可能会造成特定的影响(Robins, Pattison, & Woolcock, 2004)。例如,在一个隶属网络的调查研究中,假设研究者没有其他途径可以了解团队的任何信息,只能要求行动者报告他们隶属于哪个团队。如果任何一个行动者出现无应答的情况,那么可能会出现这个无应答行动者所隶属的团队缺失的情况。Huisman(2009)通过模拟研究发现,忽视网络调查中的无应答数据对社会网络的描述分析会造成消极的影响。进一步比较分析行动者无应答和特殊项目无应答的结果发现,特殊项目的无应答可能会造成更大的统计偏差。
网络调查中的无应答易导致行动者或者关系的缺失,但是网络环境中除无应答行动者以外的不完整观察行动者的部分信息仍然是有用的,如可利用这个信息来估计缺失状态的效果和分析不完整网络(Costenbader & Valente, 2003; Robins, Pattison, & Woolcock, 2004; Gile & Handcock, 2006; Handcock & Gile, 2007)。此外,不完整观察行动者的部分信息还可用来估计行动者和网络的结构性能,并能给缺失数据机制提供参考。
和前两种缺失数据原因相比,无应答是社会网络调查中最经常出现的缺失情况。因此,有不少学者开始关注社会网络调查中无应答的缺失问题(Daniel, 1975; Stork & Richards, 1992; Butts, 2003; Kossinets, 2006; Huisman & Steglich, 2008; nidaricˇ, Ferligoj, & Doreian, 2012)。
3缺失机制
不同的缺失数据来源,还涉及一个重要的问题,数据是否系统缺失。如果数据是系统缺失,那么缺失概率是否和观察变量(性质或属性)有关。已有研究表明,在社会网络中处理不同来源的缺失数据时,应考虑缺失机制以提高处理方法的有效性(Huisman, 2009; nidaricˇ, Ferligoj, & Doreian, 2012)。
缺失机制指的是数据的缺失概率和研究变量之间的关系(Schafer & Graham, 2002)。Rubin在1976年根据缺失引起的偏差程度定义了三种类型的缺失数据:完全随机缺失(Missing Complete At Random, MCAR),随机缺失(Missing At Random, MAR)和非随机缺失(Missing Not At Random, MNAR)。假设所有变量观测值Y中,完整的变量记为Yobs,缺失的变量记为Ymis。如果缺失概率和Yobs及Ymis相互独立无关,此类缺失称为MCAR。如果缺失概率和Yobs相关,和Ymis独立无关,则为MAR。MNAR是指缺失概率依赖于Yobs和Ymis。因为Ymis的未知性,研究者常常难以判断缺失数据属于哪种类型的缺失机制。叶素静,唐文清,张敏强和曹魏聪(2014)在对追踪研究中缺失数据处理方法及应用现状的分析中综述了三种类型缺失机制的粗略判断方法。
对于社会网络数据而言,完全随机缺失是指缺失概率和缺失关系的数值及观察数据(例如,行动者的属性)无关。在这种情况下,观察数据是原始观察值的一个随机样本,因此不存在系统偏差。随机缺失是指缺失概率和观察数据有关,但是和缺失关系的数值无关。尽管在这种情况下缺失数据会呈现出系统模式,但是这些模式是可控的,因为它们和样本中的观察数据有关。非随机缺失是指缺失概率不仅和观察数据有关,还和缺失关系的数值有关,这种类型的缺失数据会对统计分析的偏差程度造成很大的影响。因为在非随机缺失的情况下,应答者和无应答者之间的差异是由系统误差造成的,关于网络结构性质的统计指标将会受到影响(Costenbader & Valente, 2003)。
4缺失数据处理方法
41完整个案法
完整个案法,即删除部分已有的数据以保证所研究对象信息的完整性。完整个案法相当于行动者的列删除法,它不仅移除不完整观察行动者的列数据且一并移除该行动者的行数据,而移除行意味着在分析中移除不完整观察行动者和完整观察行动者之间的所有关系(Huisman & Steglich, 2008)。因此,使用完整个案法后用于分析的数据集是完整的,即每一个行动者既有接收的关系也有发出的关系。例如,图5(a)是一个班级情感关系网络的例子,其中有A、D、F三个无应答行动者,每一个无应答者都没有指向外部的情感关系,在观察网络的矩阵表达式中就会有几行缺失关系数据N,对数据进行完整个案法处理后,结果就会出现如图5(b)呈现的小网络。因此,完整个案法是在可完全观察行动者的小网络基础上进行分析处理的。nidaricˇ, Ferligoj和Doreian(2012)用完整个案法等多种缺失数据处理方法对社会网络区组模型中的无应答情况进行分析,结果发现,在小规模网络中,完整个案法对区组模型结构的稳定性影响最小。Robins, Pattison和Woolcock(2004)的研究结果则表明,完整个案法重新定义了网络边界:移除无应答行动者之后相当于生成了一个更小的网络。
完整个案法是一种加权方法,它丢弃了不完整个案的数据,对完整个案和缺失个案赋予了同样的权重。在分析的统计软件包里,完整个案法通常是默认处理缺失数据的方法。它最大的一个优点就是简便,缺点则是因为忽视不完整个案而丢失了大部分信息,很可能出现模型和数据无法拟合的情况。因此,只能在缺失概率较小的网络中使用完整个案法。Schafer和Graham(2002)认为,当无应答者是完全随机缺失时,完整个案法可能是有效的。然而,如果这个前提假设不成立,统计分析结果就会有偏差,因为剩余的行动者样本可能是不具有代表性的。也有学者认为,完全个案法从系统水平而言,严重损害了所有分析(Stork & Richards, 1992),且可能会暗中破坏社会网络模型的假设(Snijders, Bunt, & Steglich, 2010)。
42有效个案法
有效个案法是指忽略缺失的数据,只使用观测到的关系变量。有效个案法是直接对不完整数据进行分析,即根据SNA需要计算的统计值选择行动者的有效数据。例如,在一元统计分析中,在计算网络的平均数和标准差时,可以选择所有变量都完整观察的个体行动者的有效数据,而在计算网络的协方差或者相关系数时,则需要选择所有变量都完整观察的配对行动者的有效数据。
Littile和Rubin(1989)在探讨社会科学领域关于缺失数据处理的分析方法时,比较了完整个案法和有效个案法对网络的均值、方差、协方差及相关系数四个统计量的参数估计影响及二者的差异。研究结果表明,和完整个案法相比,使用有效个案法后,网络的均值参数估计值是无偏的。但是,其余三个统计量的参数估计值的偏差较大。随后,Little和Su(1989)进一步对两种方法的差异进行了详细的讨论,也得出了相同的结果。
有效个案法简单易行,和完整个案法相比,它的参数估计值较为精准。但是有效个案法具有较低的统计功效,且和没有缺失数据的网络参数估计值相比,存在很大的偏差。因此,研究者较少使用有效个案法对社会网络中的缺失数据进行处理。
43重建法
重建法指的是通过互惠关系来推断缺失连接的存在与否。重建法和插补法不一样,重建法在分析的过程中没有增加新的关系,它只是通过观察到的应答者的入度关系(即行动者接收的关系)来重建网络中无应答者的出度关系(即行动者发出的关系)。从本质上而言,即用已经报告的一个关系进行测量,且重建法仅允许两个人之间的关系。重建之后的网络中应答者和无应答者之间的关系是对称的。使用重建法对SNA中的缺失数据进行处理时,必须满足两个原则: (1)相似性,即应答行动者与无应答行动者之间的作答模式应具有相似性。因为重建法是通过应答行动者所描述的关系去构建无应答行动者的关系,所以两个行动者之间的应答模式不能存在系统的偏差;(2)可靠性,即应答行动者所描述的和无应答行动者之间的关系要确认是有效、可靠的(Stork & Richards, 1992)。自重建法提出以来,不少学者将其作为社会网络缺失数据常用的处理方法。Gabbay和Zuckerman(1998)在有向网络中,通过应答行动者报告的和无应答行动者之间的关系重建了网络中行动者之间的关系。Huisman和Steglich(2008)则用重建法研究了网络面板数据中的无应答缺失数据情况,结果表明重建法在构建完整的网络数据时几乎不会出现不收敛的问题。
一般而言,针对不同类型的网络,重建法的程序如下所示:
(1)在无向网络中,通过观察到的应答者之间的关系以及部分应答者和无应答者之间的关系对网络进行重构(Stork & Richards, 1992)。
(2)在有向网络中,通过对立关系来推断缺失关系。例如,对于应答行动者i和无应答行动者j,重建法假设行动者i描述的和行动者j之间的所有关系和行动者j所描述的关系是完全一致的,即研究者可以通过应答行动者i来插补对立关系的观察值,即ximpij=xji(Huisman, 2009)。
重建法最大的优点就是允许研究者最大化地利用有效信息去构建社会网络。有研究表明,当社会网络中存在缺失数据时,仅有437%的关系能够被解释,而使用重建法后,则能够解释缺失数据网络中897%的关系数据(Neal, 2008)。但是,重建法无法构建两个无应答行动者之间的关系。如果两个无应答行动者之间存在重要关系,研究者就无法使用重建法去正确地定义网络的结构。因此,需要用其它的插补方法来重建整个网络。例如,对于无应答行动者之间的所有关系,随机插补一个和观察密度成比例的关系,使重建网络中缺失关系的比例等于网络的观察密度。
44基于指数随机图模型的多重插补法
指数随机图模型(Exponential Random Graph Model, ERGM)又称为p
瘙 ?? 模型,是用来描述x分布情况的概率质量函数,其表达式为:
其中,q是网络的实值函数,常以θTz(x)的形式出现,z是网络的向量值函数,其取值为网络统计值。这些统计值也被称为结构统计值,用来描述网络中的结构,如连接、三方关系等的数量。θ是一个维度为p×1的向量参数(θ∈Θ),ψ(θ)是一个常数,用于将函数值标准化(Koskinen, Robins, Wang, & Pattison, 2013)。
ERGM的原理是在综合了实测网络中的多种局部结构特征情况下来计算这些网络出现的可能性。具体过程为,首先使用马尔科夫链蒙特卡洛最大似然估计法(Markov Chain Mont Carlo Maximum Likelihood Estimation, MCMCMLE)模拟出一个随机网络,然后将这个随机网络的参数与实测网络的参数进行对比,最后通过对比指标判断是否采纳结果。Robins(2009)用ERGM方法对有向社会网络数据进行分析时指出,如果模拟的随机网络不能很好地代表实测网络,那么参数将被调整并运用到下一次模拟中,且这样的循环可能至少要进行8000次,直到模拟网络能够很好地代表实测网络为止。
基于ERGM的多重插补法,指的是通过ERGM产生的多个插补值的向量代替每一个缺失数据的过程。例如,当网络数据中存在无应答的缺失数据时,基于ERGM的多重插补法则会将应答行动者和无应答行动者看作是两种不同类型的节点,然后区分应答者之间的关系以及应答者和无应答者之间的关系。最后,根据研究者的调查目的,对缺失数据进行相应的处理。如果无应答者是随机缺失,则在网络特定结构间同质性的前提下利用ERGM对缺失数据进行多重插补。如果无应答者是非随机缺失,且研究重点关注应答者的网络结构,则可以将包含无应答者相关关系的信息看作是外源变量,并使用标准的马尔科夫图模型进行分析(Koskinen, Robins, Wang, & Pattison, 2013)。
基于ERGM的多重插补法最大的优点是,不仅能有效地辨别应答者和无应答者之间的差异是由系统误差还是随机误差造成的,还可以在缺失数据是随机缺失的情况下,最大化地利用观察到的数据信息。基于ERGM的多重插补法从本质上而言是通过网络的局部结构去推断整体结构。因此,即使数据有较大的缺失概率,只要网络有足够数量的局部网络子结构,就能够通过观察到的数据进行有理的推断。Koskinen,Robins和Pattison(2010)用基于ERGM的多重插补法对一个合作关系社会网络中的缺失数据进行处理,实证及模拟研究结果表明,这种基于模型的多重插补法能够正确地解释网络中80%的关系数据及允许有三分之一数据缺失的情况。但是,这种方法最大的缺点是运算过程较复杂,耗时较长。
5问题与展望
缺失数据对社会网络数据分析造成的消极影响主要体现在以下两个方面:(1)减少的样本量大小、行动者及关系的信息易导致模型和数据出现不拟合的情况;(2)缺失数据容易造成参数估计的偏差。例如,Kossinet(2006)和Huisman(2009)的研究发现,缺失数据会使社会网络数据分析的结果产生偏差,因为缺失数据不仅对网络结构描述产生消极影响,还会低估行动者之间的关系强弱和网络的聚类系数,容易造成中心性和度数测量不稳定的情况。因此,缺失数据是SNA广泛应用面临的严峻问题。
从表1的四种缺失处理方法的适用条件比较中可看到,缺失数据处理方法的选择和缺失概率、缺失机制存在较大的关联。进一步比较四种方法的优缺点可以发现,当缺失数据是完全随机缺失时,四种方法的参数估计是无偏的。当缺失数据是非随机缺失时,完整个案法和有效个案法虽简单易行,但容易导致信息的大量流失及具有较低的统计功效和较大的参数估计偏差。其中,和完整个案法相比,有效个案法在参数分布估计方面的偏差要略小,因为有效个案法分析的是全体有效样本的数据。但在其它参数估计方面,两种方法都出现了较大的偏差(Little & Rubin, 1989)。重建法和基于ERGM的多重插补法在非随机缺失的情况下,可以忽略缺失机制的影响而直接在缺失概率较小(20~30%)的网络中应用,两种方法在参数估计方面没有表现出太大的偏差,但是如果网络中的缺失概率较大时,两种方法会受到缺失机制的影响。
当数据是随机缺失时,重建法具有较好的统计功效,对社会网络进行描述性分析时,如计算网络的平均度数、互惠性和传递性等网络统计特征值,即使缺失概率达到50%,重建法仍然能够表现良好(Huisman, 2009)。但重建法只能用于特定网络的数据缺失处理,且在某些情况下会高估连接的数量。虽然,在社会网络中的数据缺失概率不大时,重建法和基于ERGM的多重插补法均没有太大的差异,但是后者能够利用插补值间的差异来衡量估计结果中不确定性的大量信息。和重建法一样,当社会网络中的缺失数据样本量在中等范围以下时,基于ERGM的多重插补法具有较小的参数估计偏差且不会低估标准误,但这种方法唯一的缺点就是运算过程复杂,需要做大量的工作来构建插补集以便于进行结果分析,且当缺失数据样本量大时,模拟网络和实测网络可能会出现不拟合的情况。
就应用现状而言,国内目前还没有关于SNA中缺失数据的处理方法这方面的研究,而国外的应用从2003年至今稳定增长(Butts, 2003; Robins et al., 2004; Kossinets, 2006; Gile & Handcock, 2006; Handcock & Gile, 2007; Koskinen, 2007; Smith & Moody, 2013)。