时间:2023-03-17 18:14:42
引言:寻求写作上的突破?我们特意为您精选了4篇聚类分析论文范文,希望这些范文能够成为您写作时的参考,帮助您的文章更加丰富和深入。
1.2评价指标体系在借鉴简新华的综合评价指标体系基础上,并遵循评价指标体系构建的科学性、客观性、可比性、层次性和可操作性等五个原则和参考以往学者对相关具体指标的选择,文中从影响区域环境影响总量、环境影响发展和环境保护潜力等3方面,构建了环境友好型社会综合评价指标体系。
1.3数据来源与处理文中的数据资料,来自于2011年《中国统计年鉴》、2011年《中国城市统计年鉴》、2011年《中国城市竞争力年鉴》、2011年《中国城市能源统计年鉴》等,部分数据是整理计算后得出的结果。
1.4评价方法文中首先采用因子分析法,对我国31省级行政区域的环境友好型社会水平进行综合评价。因子分析在SPSS17.0软件环境下进行。其次,在因子分析的结果基础上,对各省市区域的环境友好型社会发展状况进行聚类分析。采用HierarchicalCluster的聚类方法,运用离差平方和法(Ward'smethod)计算类与类之间距离,选择欧式距离的平方(SquaredEuclideanDistance)进行聚类,最终得出聚类分析结果,并用Arc-GIS9.2软件呈现空间差异。
2结果与分析
2.1因子分析通过对评价对象的3个二级指标下的23个三级指标进行环境友好型社会程度综合评价。
2.2聚类分析与空间分异在因子分析基础上,进行样本聚类分析,并利用ArcGIS9.2软件显示量化分类结果的空间分异特征。聚类方法选择Ward法,距离测试采用欧氏距离平方法,利用SPSS的系统聚类法进行聚类分析。根据聚类结果,可以将31个省市区域划分为3-8类如果划分太少的类别(如分为3类或4类),则无法考察类别之间的具体差异,如果选择较细的类别划分(如分为7类或8类),则某一类别中含有的省份过少,更多地表达了特殊性。为了体现类型之间的差异性,又保证不同类型包含省份的均匀性,本课题将31个省份分为5类,并用ArcGIS9.2软件分析得出空间差异
3讨论
(1)为了解决环境友好型评价指标体系缺乏针对性的问题,文中在环境友好型社会概念基础上,从环境影响总量、环境影响发展和环境保护潜力等三个方面,提出了由23个既相互联系又相互独立并能进行量化的指标构成的环境友好型社会综合测度指标体系。通过采用2011年度中国统计年鉴和各行业和能源产业统计年鉴数据基础上,对中国31个省级行政区的环境友好型社会发展状况进行了综合评价和聚类分析,研究结果与当前中国环境生态质量的现状有较好的一致性,这也说明了该指标体系具有一定科学性和完备性。
(2)尽管文中的研究为我们客观评价环境友好型社会提供了一种思路并具有一定的可操作性,但在选择环境影响总量、环境影响发展和环境潜力等具体指标时,大多是建立在数据的可获得性和以往的研究文献基础上,仍存在一定的主观性。并且所选用的统计分析方法也可以是多种多样的,也不仅仅是文中所提到的主成分因子分析法,还可以是诸如物元法、模糊评价法、神经网络法和层次分析法等,不同的分析方法势必会有不同的优点和不足之处,这需要后续学者做进一步探索。另外,从评价对象上看,文中选用的是省级空间分布尺度,这种尺度分类仍较为粗略,未来的研究可以进一步深化,比如县域等。
(3)从研究结果看,中国31个省级行政区的环境友好型社会发展状况可以划分为五类;在空间分布上,环境友好型社会程度相对较高的省份大多位于东部沿海地区和西部国界线附近的不发达地区,而环境友好型社会程度相对较弱的省份大多位于京津唐冀和晋等省份和地区,这一研究结果与张墨宁的调查结果相一致。造成这种现象的原因,或许与中国所处的发展阶段、区域主导产业结构和在很大程度上继续沿用以往粗放型经济发展模式有关,并值得相关政府决策部门的重视。
1.1反射率分析模块
反射率的大小体现了气象目标的降水粒子的密度分布及体积大小,在实际气象技术中长期用于表示气象目标的强度,在工作上采用dBZ单位表示。对于空管气象雷达图,数据显示采用PPI(PlanPositionImage)显示方式。该方式决定了一张气象雷达图由圆锥俯视平面上分析空间的回波构成。在设计上简单介绍其设计流程,首先必须读取原始数据,并判断是否首次读取,若为首次读取则对其进行预处理,否则进行坐标转换;其次进行图像绘制并判断是否需要改变仰角。此处需要关注的关键是如何进行数据的预处理。在实现上,对接收的数据进行反射率信息结构体赋值。当然该结构体包括了记录实际仰角角度、数据文件路径存储、雷达波段判断以及相关数据的偏移。通过扫描上述结构体可以实现对雷达数据的预处理。
1.2速度分析模块
多普勒雷达采用了速度退化模糊技术以扩大其对径向风速测量不模糊的区间。结构设计主要考虑数据显示的径向方式,流程设计则与反射模块类似。当然在界面设计上,系统将提供对颜色配置的定义,使其人机交互更为快捷。
1.3天线稳定性分析模块
天线是雷达数据采集的关键部位,长期以来是影响雷达运行的主要关键点之一。其依赖于底下的电机进行旋转,目前大多数进口电机可以保证24小时安全运行。而运行时仰角提升和转速的平稳性直接影响雷达数据的采集。为此,我们通过在径向数据上采用方位角及仰角进行扫描实现曲线图监控。通过选择基数据再进行预处理后绘制相关曲线实现对天线运行状态的评估。其中,曲线图的绘制需要的参数为:纵坐标为气象雷达实际运行的每层仰角均值;横坐标为范围角:0-360°。
1.4雷达组网分析模块
按照民航局的总体规划,未来空管将实现多气象雷达覆盖,在这过程,多个气象雷达的组网将成为气象雷达数据的主要来源。这种模式将使得数据覆盖面更大、数据安全性更高、数据准确性更强。而与此同时带来了雷达数据融合组网的技术难点。设计上,首先模块将定义雷达站点配置信息,并与此同时提供组网雷达可选数据;其次对选择雷达数据进行数据预处理;再之则对雷达数据进行统计平均并做坐标转换;最后进行拼图处理。在这过程中,需要对雷达数据的强度进行自适应调整、显示范围自适应调整。与上述同理,系统核心在于预处理。在C#中定义List数据列表,并在定义其结构为[站点标示][距离][方位角],对于数据读取时,需要进行插值算法处理,此时的单时数据拼接分析可以实现不同仰角和方位角的筛选。为了控制系统数据的准确性可以在前端定义雷达数据方位角表,根据表进行映射处理。通常如若出现非连续数据可以在预处理上对其进行差值补偿。在C#上可以采用反差圆补偿方法。
引言:多元统计分析是统计学的一个重要分支,也称多变量统计分析;在现实生活中,受多种指标共同作用和影响的现象大量存在,多元统计分析就是研究多个随机变量之间相互依赖关系及其内在统计规律的重要学科,由于多元统计分析方法一般涉及复杂的数学理论,一般无法用手工计算,必须有计算机和统计软件的支持。
在统计软件方面,常用的统计软件有SPSS、SAS、STAT、R、S-PLUS等。R软件是一个自由、免费、开源的软件,是一个具有强大统计分析功能和优秀统计制图功能的统计软件,现已是国内外众多统计学者喜爱的数据分析工具。本文结合实例介绍了R软件在多元统计分析中的应用,具体内容包括R软件在聚类分析、主成分分析、对应分析等方面的应用。
一 在聚类分析教学中的应用
聚类分析又称群分析,它是研究(样品或指标)分类问题的一种多元统计方法,所谓类,通俗地说,就是指相似元素的集合。在社会经济领域中存在着大量分类问题,比如若对某些大城市的物价指数进行考察聚类分析,而物价指数很多,有农用生产物价指数、服务项目价指数、食品消费物价指数、建材零售价格指数等等。由于要考察的物价指数很多,通常先对这些物价指数进行分类。总之,需要分类的问题很多,因此聚类分析这个有用的工具越来越受到人们的重视,它在许多领域中都得到了广泛的应用。
聚类分析内容非常丰富,有系统聚类法、有序样品聚类法、动态聚类法、模糊聚类法、图论聚类法、聚类预报法等,具体详见参考文献[3]。
R软件及其相关包提供了各种聚类方法,主要是系统聚类方法、快速聚类方法、模糊聚类方法,常用的是系统聚类方法。
R软件实现系统聚类的程序如下:
Hclust(d,method=“complete”)
其中d是由“dist”构成的距离结构,具体包括绝对值距离、欧氏距离、切比雪夫距离、马氏距离、兰氏距离等,默认为欧氏距离;method包括类平均法、重心法、中间距离法最长距离法最短距离法、离差平方和法等,默认是最长距离法。
例1 下表是山东省2008年各市居民家庭平均每人全年消费性支出,利用所给数据对各市进行系统聚类。
山东各市居民家庭平均每人全年消费性支出 元/人
地区
食品
衣着
居住
设备用品
交通通讯
文化教育
医疗保健
其它
济南
1628.16
252.86
790.11
285.64
634.83
355.54
394.37
43.9
青岛
1999.61
523.76
901.56
297.76
595.34
618.12
260.17
106.42
淄博
1691.6
372.21
844.44
300.46
494.67
580.6
370.84
102.16
枣庄
1370.59
272.95
614.3
227.52
454.73
245.93
220.88
84.2
东营
1580.86
234.17
813.58
253.12
532.19
432.05
275.3
39.1
烟台
1673.19
337.92
719.28
201.3
414.08
497.57
286.03
77.11
潍坊
1516.36
299.67
1327.72
243.72
583.04
494.65
269.82
92.95
济宁
1375.4
287.17
722.05
282.16
380.68
412.42
218.11
56.94
泰安
1412.44
225.66
567.66
257.96
411.98
450.57
177.02
70.07
威海
1684.64
517.59
759.36
227.12
424.41
565.75
444.31
77.48
日照
1451.12
351.21
562.91
208.81
457.2
332.16
182.2
37.69
莱芜
1516.22
198.94
624.72
207.03
464.06
469.35
256.53
36.33
临沂
1339.69
212.36
625.26
191.34
409.39
314.9
156.01
63.31
德州
1114.47
173.88
553.14
169.23
319.41
220.45
137.97
42.2
聊城
1146.53
182.53
566.92
186.05
317.48
332.64
155.94
54.31
滨州
1177.49
179.96
979.01
206.88
451.85
407.49
298.7
47.51
菏泽
1265.03
170.85
550.68
143.11
329.99
研究生学位论文反映本专业研究方向。研究生学位论文是高等院校或科研机构的研究生所撰写的毕业论文,是其科研成果的结晶,反映了作者独立进行科研活动的能力。在研究生进行学位论文的过程中,寻找研究热点、把握研究趋势是必需环节,有些研究者通过广泛阅读文献,有些研究者通过文献计量学和内容分析的手段,常见比如发文统计、知识图谱分析等。从文献生产、供给的角度,这有助于研究者在短时间内低成本地激发新的想法,迅速获得相关文献并寻找研究空白,获得较大的知识收益,有利于知识的产生、传播和累积。
论文的关键词是文章内容的提炼及核心思想,在某一学科中,如果某些关键词在众多的论文中反复出现,就说明这些关键词是该学科的研究热点。因此本文以教育技术学专业为例,将研究生学位论文和论文关键词作为研究对象,对教育技术学的研究热点和发展趋势进行探析,并从中得到一些启发,以期探讨进步。
1.研究过程
1.1主要的分析工具
论文分析需要定性和定量相结合,离不开相应软件的辅助。本研究中主要使用书目共现分析系统(Bicomb)抽取论文中的关键字段,形成高频词一论文矩阵,Python进行聚类分析,Excel作为Python的输入,以及进行简单的统计。
1.2数据采集和处理
中国知网上收录的论文数量较多,故将其作为研究对象的数据来源。通过本校数字图书馆访问中国知网,选择“博硕士”类型,并以“教育技术学”为“学科专业名称”进行检索,共获得研究样本7937篇研究生学位论文,然后按照NoteFirst格式采集研究生学位论文的题录信息。使用书目共现分析系统,将论文的发表年份和关键词提取出来,输出成EXCEL格式。
共词聚类分析的主要有如下几个步骤:首先选定参与共词分析的高频关键词并构建共词矩阵,然后将共词矩阵转化为相似矩阵,然后进行聚类分析,最后对结果进行解释。关键词的选择,目前有TOPN,正太分布法,齐普夫第二定律等几种常见的方法。
经过统计分析,本文样本数据不符合正态分布,故本文选择累积百分比20%的关键词作为高频关键词,生成如表1所示的共词矩阵。
为了消除频次悬殊造成的影响,用Ochiia系数将共词矩阵转化成相似矩阵,即将矩阵中的每个数字都除以与之对应的两个关键词总频次开方的乘积,该矩阵主对角线上的数据均为1,代表高频关键词自身的相关程度,如表2所示。
2.研究结果
2.1关键词的词频分析
词频分析法通过对关键词中高频词汇的分析,能够确定某一学科的研究热点及其变化。本研究共收集到7937篇研究样本,对所有关键词进行统计排序后,得到排名靠前的20个关键词,表3提供了前10个关键词。
观察上表数据,可以发现,教学设计出现频次远超其他关键词,在教育技术学中占据着核心地位;信息技术和网络课程占据第二和第三名次,说明教育技术学对信息技术和网络的应用比较深入和频繁。
为了进一步探究教育技术学的发展历史,故对各年度所的关键词进行统计,可以得出各年度频次排名前10的关键词表,具体见表4。
表4显示了高频词的变迁过程。观察上表可以发现,首先历年排名靠前的关键词都有教学设计和网络教育,稳定性比较好,正体现出教育技术学交叉学科的特点,同时也可以看出,2000年后的“技术”,主要指网络技术。其次教育技术已经处于信息化教育研究阶段,这一阶段的核心关键词主要有远程教育、信息技术、网络学习、教育游戏、移动学习等。从这一阶段的研究热点可以看出,随着信息化时代的到来,教育活动的数字化、网络化、智能化等现象已成为研究热点,这一时期研究者关注的对象不再仅限于媒体本身,而是从信息化学习方式人手,考察技术、人和教育三者间的关系。
2.2关键词的共词聚类分析
聚类分析是根据研究对象的特征对其进行分类的多元分析技术的总称,基本思想是基于研究对象的样本或变量指标间存在着不同程度的相似性或亲疏关系。
层次聚类按照距离度量的不同分橐韵录咐啵single-linkage、complete-linkage、average-linkage、ward-linkage。现有同类型的论文中,均采取层次聚类法对共词矩阵进行聚类分析,但是并没有针对上述不同情况给出对比分析,本文使用Python第三方库scipy中的层次聚类函数以及dendrogram方法,对多种度量的聚类方法进行了对比实验,发现ward-linkage方式的聚类效果最好,具体聚类树如下图所示。
观察该层次聚类树状图可以发现,研究生学位论文高频关键词大致聚为5类,具体分类如下:
第1类:学习方法研究,关键词包括知识管理、大学生、网络学习、虚拟学习社区、策略、非正式学习、知识构建等。该类研究主要以如何提高学习的效果为目的,寻找和对比多种学习方法,为后续的教育教学方法提供参考。
第2类:教师与教育技术研究,该类研究主要由教育技术、教师专业发展、教育技术能力、现代教育技术、师范生、教师培训、中小学教师等关键词构成。这一主题的研究主要围绕教师与教育技术的关系,着力提高教师运用新型教育技术的能力和水平,从而更好地从事教学活动。
第3类:网络教育教学研究,主要由网络课程、移动学习、网络、网络学习、自主学习、远程教育、网络环境网络教学、现代远程教育等关键词构成。网络教育以互联网为载体打破了空间和时间的限制,涌现出在线教育和MOOC等新型教学方式。
第4类:信息技术条件下的教育模式研究,主要包括信息技术、教学模式、信息素养、教育信息化、信息技术与课程整合、行动研究、翻转课堂等关键词。随着信息技术的不断进步,越来越重视信息技术与教育教学的结合,碎片化学习、翻转课堂等都成为该学科内的研究趋势。
第5类:设计与开发应用研究,主要由设计、应用、对策、开发、现状和应用研究等关键词构成。教学设计与应用是教育技术学的核心目标和价值体现,不论采用何种技术手段,最终的落脚点都是教育教学方案的设计及应用实践。
3.研究结论
3.1发展趋势
第一,研究热点保持稳定。从关键词词频分析中可以看到,不论是全量数据的统计,还是历年关键词数据的统计,出现频率较高的关键词都是信息技术、教学设计、远程教育等。这些核心关键词,包括教学效果,教育信息化等其他高频关键词在内,都显示出中国教育技术牢牢把握学科定位与目标,重视教与学的应用与研究,而且应用信息技术进行教与学是中国教育技术领域近20年研究的热点。
第二,教育技术学在走向融合。主要包括三个层面上的融合,即教育理论层面、技术层面、理论和技术结合的层面。在前文的分析结果中可以看到由何克抗教授正式倡导的混合式学习概念,更是最好的证明。一是教育理论层面,主要体现在教育理论基础的变化上。教育技术学研究的焦点,已经由建构主义转向混合式学习。在词频分析中的历年高频关键词中,可以看到建构主义的排名在2004年以后,就比较靠后了。二是技术层面,教育技术已经从基础的视听技术,发展到了网络信息技术为主,多种基础技术为辅的阶段。但就像网络没有取代报纸一样,粉笔和黑板也依然存在着。各种不同的教学技术相辅相成、相互作用,它们以整体融合的形式,出现在各种教育教学活动中。三是理论和技术相结合层面,不同的教育与学习理论,需要各种不同的技术作为支撑,而各种技术的最终目的,是要为优化教学效果而服务。共词聚类分析中发现的信息技术下的教学及学习模式研究,说明教育技术工作者已经开始关注适应性学习和协作学习环境的创设。
3.2启发
第一个启发是要自信。有人说,教育技术学专业学生的教育理论水平不如教育学相关专业的学生;论信息技术能力不如计算机相关专业的学生。多数人都看到了这个现象,但如果因为这个原因,变得不自信和迷茫,那就有些妄自菲薄了。因为教育技术学是交叉学科,本专业的学生跟其他专业的学生比的就是教育理论与信息技术相结合的“综合实力”,这才是教育技术学特色和优势的所在。本专业的学生在平时的学习和研究中,可以遵照南国农老前辈的指导,坚持现代教育理论与现代信息技g的融合,并牢记二者“相乘”的关系,双翼齐飞,同时努力探索教育技术的中国道路。
第二个启发是要并重。包括电教并重和教学并重,主要是为了解决目前教育技术学出现的误区和问题。电教并重是指要认清教育技术姓“教”不姓“电”,信息技术只是教育技术的一种支撑,教育技术所研究的是在教育理论的指导下,如何有效利用各种信息技术为教学活动提供支持,以达到最优化的教学效果。教学并重是指教与学是相辅相成的统一整体,而且其立足点在学而不在教,因为教育教学活动的根本目的是学生的学习与发展。
第三个启发是要融合。不仅是教育技术学内部的融合,还有借鉴其他学科的精华,如计算机、心理学和传播学,才能更好地体现出交叉学科的特点和优势。举例来说,目前计算机领域,机器学习和人工智能正在如火如荼的进行,虽然教育技术领域已经在进行虚拟现实和数据挖掘技术的相关研究,但深层次的融合,结合教育教学活动进行落地的尝试,还需要尽快开展和总结。