时间:2022-12-23 14:48:00
引言:寻求写作上的突破?我们特意为您精选了12篇大数据分析论文范文,希望这些范文能够成为您写作时的参考,帮助您的文章更加丰富和深入。
2.1大数据分析的概念大数据分析
是指数据量急剧积累迅速超出主流软件工具和人类思维处理的极限,大数据与传统数据比较起来,有四大特征:数据体量巨大(Volume)、数据类型繁多(Variety)、数据价值密度低(Value)、更新速度快时效高(Velocity)。大数据分析需要全新的数据处理理念和分析工具,洞察发现海量高速增长信息中潜藏的价值[4]。从理念上,大数据分析与传统数据分析有三大转变:要全体不要抽样,要效率不要绝对精确,要相关不要因果。针对大数据,既有的技术架构和分析工具已经无法满足要求,需要全新的数据分析方法和技术,这其中包括:(1)大数据分析可视化方法;(2)大数据挖掘算法;(3)预测性分析能力;(4)语义处理能力;(5)数据质量和数据管理技术。
2.2大数据分析系统的建设
根据大数据处理和分析的理念,煤矿安全大数据分析系统的建设目标包括:数据综合集成、安全知识集成、三维虚拟可视化展示、煤矿安全动态分析诊断。具体建设内容包括:(1)基于物联网/云计算技术的煤矿安全综合数据库。建设煤矿安全大数据分析诊断系统,首先要利用物联网和云计算技术实现全面综合的数据集成,将基础空间和属性数据、在线监测的实时性数据、专业业务系统的事务性数据综合集成起来,构建煤矿安全综合数据库。(2)基于专家系统的煤矿安全专家知识库。针对知识集成的目标,整理规范规程体系中的经验或者理论知识(煤矿安全规程、煤矿作业规程、三违行为知识、隐患界定知识、评估模型、设备操作规程知识、工种操作规程知识),构建煤矿安全动态分析诊断的专家知识库。(3)建设三维虚拟矿井可视化平台。针对信息和知识三维虚拟矿井可视化展示分析,主要的建设内容是基于高精度地质模型理论研究开发三维虚拟矿井平台,实现地层建模、钻孔建模、断层建模、工作面建模和巷道建模等工作。然后,基于三维虚拟矿井平台,实现数据和知识可视化、煤矿安全生产活动可视化、分析和决策过程可视化。(4)研发煤矿安全动态分析系统。针对基于专家知识库的煤矿安全生产分析决策,需要利用煤矿安全综合数据库中的基础数据、实时监测数据以及事务性数据,根据煤矿安全专家知识库进行煤矿安全生产状况评估、推理和演绎,动态分析诊断煤矿安全生产的现状与趋势、预测未来,并针对煤矿应急现象做出科学合理的响应对策。
[1]谢显忠等,基于TDD的第四代移动通信技术[M].电子工业出版社,2005.
[2]解梅,移动通信技术及发展[J].电子科技大学学报,2003,02.
[3]宋文涛、罗汉文,移动通信[M].上海交通大学出版社,1996.
[4]何林娜,数字移动通信技术[M].机械工业出版社,2004.
[5]吕昌春,李林园.移动互联网产业链平台竞争与电信运营商增值业务发展策略研究[J].邮电设计技术,2012(11):16-20.
[6]张洁.影响中国移动通信产业发展竞争力的因素分析[J].经济视角(下),2011(01):52-53.
关于移动通信论文参考文献:
[1]张洁.影响中国移动通信产业发展竞争力的因素分析[J].经济视角(下),2011(01):52-53.
[2]吕昌春,李林园.移动互联网产业链平台竞争与电信运营商增值业务发展策略研究[J].邮电设计技术,2012(11):16-20.
[3]刘文婷.以运营商为主导的移动互联网业务商业模式研究[J].中国工业经济,2012(08):66-74.
[4]冯文高.我国移动通信产业的竞争均衡分析[J].现代经济信息.2009(16)
[5]张洁.影响中国移动通信产业发展竞争力的因素分析[J].经济视角(下).2011(01)
[6]马云泽.我国移动通信产业的市场结构与规制改革[J].经济问题.2009(01)
[7]张平王卫东陶小峰《WCDMA移动通信系统》人民邮电出版社
[8]詹炳根,《工程建设监理》,中国建设工业出版社,1997
[9]谢坚勋浅谈工程监理与项目管理接轨建设监理2004(2)
关于移动通信论文参考文献:
[1]赵刚.大数据:技术与应用实践指南[M].北京:电子工业出版社,2013.
[2]漆晨犧.电信企业大数据分析、应用及管理发展策略[J].电信科学,2013(3):12-16.
[3]刘洁,王哲.基于大数据的电信运营商业务精确运营平台的构建化[J].电信科学,2015,29(3):22-26.
[4]张俊.移动通信网络中大数据处理的关键技术研究[J].电信网技术,2014(4):10-12.
[5]康波,刘胜强.基于大数据分析的互联网业务用户体验管理[J].电信科学,2013,29(3):32-35.
[6]谢华.大数据在移动通信中的应用探讨[J].科技创业家,2014(1).
[7]夏磊.探巧大数据下的智能数据分析技术[J].科技创新导报,2014(10):21.
[8]侯优优,隋化严.网络优化中的大数据应用[J].互联网天地,2014(l):34-37.
在过去的二十年里,商务智能与分析(Business intelligence and analytics,BI&A)与大数据相关的分析随着大数据的发展在工业界及学术界变得越来越重要。来自于Bloomberg商业周刊的报道(2011)显示,97%的超过1亿市值的公司使用了商务分析技术。据麦肯锡全球机构预测,到2018年,仅美国一年就会面临14到1万人的深度分析技术人才的需求,同时约有150万数据分析经理的缺口[1]。
“智能”一词自20世纪50年代被人工智能方面的研究人员提出并沿用至今。而商务智能(Business intelligence)则随着信息技术的发展在20世纪90年代被企业界和学术界熟知。自2008年大数据的一系列论文在NATURE上发表,大数据分析技术已被应用到从文本、计算机日志、传感器、社交媒体等产生的大量非结构化、体量巨大、类型繁多、价值低密度、要求快速处理的大数据。BI&A经历了BI&A1.0,BI&A2.0和BI&A3.0的演进。他们分别对应面向基于关系数据库的结构化数据、基于web的非结构化数据、基于移动及传感器的非结构化大数据。因此,BI&A3.0是面向大数据分析的新兴领域。
BI&A3.0面向大数据可能产生的巨大影响,它涵盖了电子商务及营销智能、电子政务及政治2.0、科学与技术、智慧健康、安全及公共安保等方面。涉及的技术领域包括大数据分析,例如统计学习、序列及暂时挖局、空间挖掘、过程挖掘、网络挖掘、web挖掘、基于列的数据库挖掘、内存数据库、并行数据库、云计算、Hadoop、Mapreduce,文本分析,例如静态NLP信息抽取、主题模型、问答系统、选项挖掘、情绪及影响分析等。除此之外,还包括web分析、网络分析、移动分析等大的技术分析方面。因此,BI&A3.0是未来管理科学与工程专业研究生培养的重要基础和研究热点。
BI&A3.0的发展和应用对管理科学与工程硕士研究生的培养提出了挑战。主要表现在以下几个方面,BI&A聚焦于理解、解释、战略并服务于组织。一些学科对BI&A的发展作出了贡献,例如信息管理、计算机科学、统计学、管理学和市场营销学。
然而,目前的课程体系设置相对于商务分析技术及大数据的发展来说较滞后。虽然大部分学校针对学生的研究方法及研究能力的培养开设了一些BI&A课程,例如复杂系统分析与决策、随机过程、应用统计学、矩阵分析、Matlab、现代管理分析技术等。这些课程的设置对于面向大数据的BI&A3.0的研究及应用来说尚有差距,缺乏系统性和前沿性。因此,面向BI&A3.0的研究生课程体系改革具有一定的现实意义及急迫性。
1.教学研究的内容及实践内容
围绕如何培养面向大数据及BI&A3.0数据分析及研究能力进行课程体系改革研究。借鉴国际国内针对从BI&A1.0到BI&A3.0的知识体系及技能相关的教学改革,注重管理科学与工程的专业内涵。
(1)教学研究的内容
①对国内和国际当前的面向BI&A3.0大数据分析能力培养的知识体系及技能进行梳理。
②对本校管理科学与工程专业主要的研究方向进行梳理,调研面向BI&A3.0大数据分析的具体能力和层次要求。
③结合国际国内面向BI&A3.0的知识及技能体系与本校管理科学与工程主要的研究方向,提出面向BI&A3.0的管理类研究生课程体系改革的具体方案,包括课程设置、教学方式、考核方式、教学目的与要求。
(2)实践内容
通过设计与理论相配套的课程实验、研讨与课程内容密切相关的科学问题、及时追踪研究热点,使得实践环节成为提高研究生BI&A3.0创新和研究的推动器,同时也提高学生在实践方面的兴趣和动手能力。
2.教学及实践改革的目标
(1)教学目标。通过建立面向BI&A3.0的管理类研究生课程教学体系,使得研究生掌握BI&A3.0的基本知识体系、知识网络、基本研究能力,并最终培养研究生掌握面向BI&A3.0的创新能力。
(2)实践目标。通过培养学生面向BI&A3.0的实践技能,培养研究生面向BI&A3.0的实践能力,包括文献检索能力、借助计算机的分析能力、数学建模能力、数据收集能力。
3.课题研究要解决的问题
围绕面向BI&A3.0的管理类研究生课程体系的建设,本课题将要解决如下问题:
(1)如何划定面向BI&A3.0的分析及计算机技能。面向BI&A3.0的分析及计算机技能涵盖的面十分广泛,本校管理类研究生所依附的学科方向及研究重点决定了这些技能需有选择地纳入。因此,需要解决具体纳入哪些分析及计算机技能的培养。
(2)如何结合研究方向与BI&A3.0的应用。培养面向BI&A3.0大数据分析能力的目的是将BI&A3.0大数据分析应用到具体的研究方向。物流、市场营销、工程管理、运营管理等方向的研究需要将这些领域的知识和BI&A3.0的应用结合起来才能达到培养的目的。
4.拟采取的方法
(1)借鉴国内外先进的BI&A3.0教学教改经验。对国际和国内BI&A3.0相关的教学教改文献进行分析,并参加相关的国际国内会议,与国内外同行进行交流学习。
(2)对本校管理类研究生现状及改革反馈进行调研。通过以往教学实践的总结、专家学者的讨论、课题组集体研究的方式,调研适合本课程体系服务学科专业的研究生课程教学内容、目标、方法与手段。
(3)对企业界进行调研发掘BI&A3.0实际应用能力的需求。通过对企业界进行调研,发现潜在的BI&A3.0应用方向。通过这些方向的发掘弥补课程体系设置的不足。
“大数据开启了一次重大的时代转型。就像望远镜让我们能够感受宇宙,显微镜让我们能够观测微生物一样,大数据正在改变我们的生活以及理解世界的方法,成为新发明和新服务的源泉,而更多的改变正蓄势待发……”互联网专家维克托·迈尔一舍恩伯格在《大数据时代》一书中这样描述大数据。在这个时代大数据无处不在。Gartner公司的分析师声称信息量每年正以最少59%速度在递增。IDC最新的数字宇宙(DigitalUniverse)研究估计,到2020年世界上的数据存储总额将达到35 ZB(zettabytes)(lzettabyte等于一万亿GB字节)。
信息爆炸让数据像空气那样无处不在。和朋友一起吃饭,对新上桌的美味进行拍照,上传到自己SNS账号与更多的人分享。这个过程在产生大数据;在淘宝上购物,选择中意的物品,填写送货地址,点击确定,进入付款页面,选择付款银行付款,这个过程也在产生大数据。工厂机器的GPS数据、维修记录等也是大数据,产品销售记录、客户行为习惯资料等也是大数据;矿山、气象等资料也是大数据;平安城市计划中的物联网更是大数据。
大数据来自无所不在的IT设施,人人成为了数据制造者:短信、微博、照片、录像、可穿戴设备产生的信息都是数据;数据来自无数自动化传感器、自动记录设施,生产监测、环境监测、交通监测、安防监测等等;来自自动流程记录:刷卡机、收款机、ETC、互联网点击、电话拨号等设施以及各种办事流程登记等。大量自动或人工产生的数据通过互联网聚集到特定地点,如电信运营商、互联网运营商、政府、银行、商场、企业、交通枢纽等机构,形成了大数据之海。总之,你信或不信,大数据就在我们身边。
数据分析才是关键所在
拥有大数据并不是我们的目的,我们的目的是从这些数据中了解真实信息,使数据能够真正在管理、决策、监测、评价,以及人们的生活中产生价值。大数据分析上可影响国家政治,没有大数据分析奥巴马就不会赢得美国总统大选;下可改变我们的日常生活,就连追女孩子都可以使用大数据分析的方法来制定策略。
“面对海量数据,谁能更好地处理、分析数据,谁就能真正抢得大数据时代的先机。”这几乎是业界所有人的共识。对海量数据的分析已经成为了企业、政府非常重要且迫切的需求。在数据分析方面的能力将决定企业市场份额的得失、政府决策能力的高低。大数据分析让IT有机会增加价值,增进业务部门间的关系,增加收入和提高利润。
大数据分析对医疗行业的发展非常重要。医疗行业早就遇到了海量数据和非结构化数据的挑战,大数据分析技术的发展让这些数据的价值得以充分发挥,其中,基因组学是大数据在医疗行业的经典应用。以云计算为基础的大数据分析技术不仅加速了基因序列分析的速度,也让其成本不断减低。
经济的快速发展促使城市机动车辆大幅度增加,传统的交通系统已难以满足当前复杂的交通需求,交通堵塞成为城市的通病。随着交通信息化与交通规划的融合程度越来越高,大数据发挥的功能和信息获取渠道都将更加广泛。中国城市交通研究中心吴洪洋博士表示,公交刷卡数据挖掘、出租车轨迹挖掘、手机数据挖掘、社会化网络数据挖掘将成为未来大数据应用的主要方向。
大数据分析技术加速制造业从传统的以生产为核心向客户需求为核心转型。在大数据分析技术的驱动下,一些制造业的企业开始转向与订单用户或者最终消费客户群进行直接的互动。通过更透明、更可用的数据,企业可以释放更多蕴含在数据中的价值。实时、有效的数据可以更好的帮助企业提高产品品质、降低生产成本。企业领导者也可根据真实可靠的数据制订正确战略经营决策,实现企业效益最大化。
破解密码——Hadoop
数据的非结构化已经成为企业的重大挑战。由于这些数据的结构问题及大数据类型的复杂关联,导致无法应用现有的传统技巧进行大数据分析。这为企业带来了新的任务,需要开发一套全新方法,不仅能够处理传统数据,而且可以便捷地分析和应用这些新兴数据。Hadoop恰恰可以满足大数据分析这种需求。
Hadoop已成为公认的新一代大数据处理平台。Hadoop是一个能够对大量数据进行分布式处理的软件框架。它以谷歌的MapReduce及谷歌文件系统技术研究论文为基础。Hadoop充当着众多“大数据”分析工具的底层技术,旨在对由web访问、服务器日志及其它各类数据流所产生的海量数据进行筛选,在分布式环境下提供海量数据的处理能力。
Hadoop是以一种可靠、高效、可伸缩的方式进行处理的。它以计算元素和存储会失败为前提,维护多个工作数据副本,确保能够针对失败的节点重新分布处理。Hadoop以并行的方式工作,通过并行处理加快处理速度,能够处理PB级数据。此外,Hadoop依赖于社区服务器,所以它又具有低成本的优点。
目前,几乎所有的主流厂商都提供了基于Hadoop的大数据分析工具。如IBM、EMc、英特尔、甲骨文等都纷纷投入到Hadoop怀抱。
IBM很早就开始在实验室尝试使用Hadoop,但是,直到2012年才推出了首款大数据分析产品:IBM InFoSphereBigInsights。该产品既可以分析数据库中的传统结构化数据,也可以分析例如文本、视频、音频、图像、社交媒体、点击流、日志文件、天气数据等非结构化数据,帮助决策者根据数据迅速采取行动。
EMC基于Hadodp的发行版PivotalHDs可以让数据团队和分析团队在该平台上无缝共享信息、协作分析。其最大的优势是能够与Greenplum数据库进行整合,而不仅仅是在Hadoop中运行SQL这么简单。
一、引言
自2013年被确定为“大数据元年”以来,大数据应用已广泛渗透到各行各业。伴随着数据规模和类型的剧变、数据存储成本的迅速下降、数据采集更加密集和广泛,学术界和企业界开始站在战略的高度重新审视大数据的价值。2008年9月,《自然》杂志推出了名为“大数据”的封面专刊,随后IDC(2011)描述了大数据的“3V”:规模性(Volume)、多样性(Variety)、实时性(Velocity),之后又加入价值性(Value)来描述大数据特征,称之为“4V”[1]。麦肯锡(2011)将大数据定义为无法用常规软件收集、储存、处理、分析的庞大数据集。Forrester突破了以往单一对数据本身描述的局限,通过数据价值实现的角度将大数据定义为数据存储、处理和访问的流程与业务目标的集成。国内学者涂子沛在其专著《大数据》(2012)、《数据之巅》(2014)中反复表达“尊重事实,用数据说话”[2]以及“推崇知识和理性,用数据创新”的观点,并描述了未来对于建设“SmartCity”的构想[3]。孟小峰(2013)指出大数据研究的火热,并不能代表研究的深入,相反大数据的研究还处于一个非常起步的阶段,还有诸如关键技术、利用方式等很多基础性的问题需要解决[4]。大数据的发展和进步是以数字信息技术的发展和应用为主线的。数据分析、数据挖掘、数据存储是拉动大数据发展的“三驾马车”,这三项数据技术需要不断进行创新才能进一步发掘大数据的价值潜力。由于大数据具备准确预测趋势的能力、从海量数据中萃取有应用价值信息与知识的能力以及对市场技术需求方向突出的把控等能力,使得技术创新的效率有较大幅度的提升。同时,数据分析、挖掘和存储本身作为技术手段也需要进行创新。因此,大数据与技术创新之间存在着密切的联系。朱东华等(2013)提出了大数据环境下面向技术创新管理的双向决策模型,以期提升我国技术创新管理研究在大数据环境下提取知识与观点的能力[5]。赵亮等(2015)通过大数据的收集和预处理、大数据存储、创新源数据可视化以及创新应用子项目的实施,实现对技术创新评估预测、风险把控能力的提升[6]。针对大数据与技术创新有关文献的梳理,不难看出,在大数据时代下,大数据对于各类技术创新具有较大的提升作用,而“大数据”概念下作为技术支撑的数据技术同样需要创新,同时也需要对数据技术的创新进行管理。对于大数据和技术创新这种“你中有我,我中有你”的相互作用关系,论文尝试以双螺旋结构模型为研究工具,提出大数据———技术创新双螺旋模型,从而厘清在大数据与技术创新作用关系中的动力因素,以达到大数据与技术创新共同发展进步的目的。
二、双螺旋结构理论
双螺旋结构模型起源于生物学中的DNA双螺旋结构,生物学家为了研究人类的遗产规律,从人类遗传密码———“基因”的角度出发,提出并绘制了DNA双螺旋结构模型。1953年,沃森和克里克首次提出了DNA双螺旋结构模型,该模型开启了分子生物学时代。利用该模型,人类直观地认识到遗传信息的构成和传递路径,并对人类遗传信息复制上升的互融联动关系有了初步的了解。在生物分子学领域,DNA双螺旋结构模型是由两条主链和碱基对组成,两条主链相互盘旋形成类似于“麻花”状的螺旋结构,而碱基对位于螺旋内部,两两对应。碱基对的排列顺序就决定了生物体的不同性状,而在DNA双螺旋进行发展进化之时,碱基对的不同组合以及排列顺序就确定了未来生物的发展走向。随着管理科学的发展,在管理科学领域中有许多互相影响、互相促进、互相融合的二元关系,为了清晰地描述这种关系,管理学中引入分子生物学的DNA双螺旋结构模型进行描述,从而形成了管理科学中的双螺旋结构模型。质量管理学家戴明通过对计划———执行———检查的研究,提出这三个步骤不是原地循环往复的,而是一种螺旋式上升。于渤(2008)将知识创新双螺旋作为企业知识创新过程,指出创新的过程需要经历一套复杂的过程,最终实现自我超越的知识螺旋转化[7]。管理科学与分子生物学的结合提炼出螺旋式系统方法论,又称作螺旋式方法论。该方法论指导双螺旋结构模型在管理领域的应用,而其基本的解决问题的精神是,按照事物发展的规律和演变的过程,通过螺旋内部重大影响因素的互相作用,循环使用不同的方法,推进事物有序的发展,最终达到事物发展的某种目标。
三、大数据与技术创新双螺旋模型及分析
1.大数据与技术创新双螺旋模型对于各类技术创新,大数据提供了庞大的样本数据分析预测、精细的市场技术需求定位、详尽的技术创新需求对象画像刻画等服务,使得技术创新的效率大幅度提升。而数据分析、挖掘和存储是推动大数据自身发展的核心技术,这些技术的创新也将直接影响到大数据对其他技术创新的拉动作用。利用双螺旋结构模型研究大数据与技术创新相互作用关系具有积极的现实意义,论文提出大数据———技术创新双螺旋结构模型(BigData--Tech-nologyInnovation双螺旋结构模型;BT双螺旋结构模型)。依据BT双螺旋结构模型,本文将大数据与技术创新视为两条主链,即“大数据链”和“技术创新链”。这两条主链的相互作用是依靠碱基对进行链接的,为了推动“大数据链”与“技术创新链”的发展增长,碱基对的不同搭配,相互作用,促进BT双螺旋模型的不断发展。数据挖掘、数据分析、数据存储是推动大数据发展的技术核心,技术创新的发展需要技术创新管理理论的指导,以技术创新管理理论指导数据技术的创新,从而实现BT双螺旋模型的发展。故将数据挖掘、数据分析、数据存储和技术创新管理理论作为碱基,进行两两配对。图1BT2.大数据———技术创新双螺旋模型分析BT双螺旋结构模型中将大数据与技术创新作为研究的主要对象,将其作为两条主链进行分析。各类技术的创新需要在大数据以及大数据相关技术的支持下进行。同样的,大数据自身数据技术的创新又归属于技术创新范畴,需要相关技术创新管理理论来给予指导和管理。BT双螺旋结构模型需要向纵深发展,就必须要经历双螺旋结构的破裂———复制———重组———再破裂这样的一个循环过程,从而循环往复,推动BT双螺旋模型不断发展。碱基一:数据挖掘技术,大数据需要通过从海量的数据中提取有效信息和知识,因此,数据挖掘技术是大数据未来发展的一项核心技术。凭借数据挖掘技术提炼出有价值的信息与知识,可以为技术现状进行评估、技术创新未来趋势进行预测、技术创新源进行汇总提供强大的信息支撑。碱基二:数据分析技术,数据分析技术是通过对现有数据进行分析,归纳、整理、总结并对所分析对象提供相应的预测。该技术是连接数据与结论的重要桥梁,通过分析技术可以顺利地将“冷冰冰”的数据转化成为有价值的结论成果,碱基三:数据存储技术,存储技术是数据挖掘技术与数据分析技术的基础。信息时代的数据不仅仅是结构化的数据,更多的则是非结构化或是半结构化的数据,大量的数据需要有存储空间,并且要做到随用随取,这样才能使得数据的挖掘和分析更具时效性和针对性。碱基四:技术创新管理理论,数据技术的不断革新需要从管理学的角度给出指导性的建议。大数据的三项核心数据技术本身作为一种技术手段,需要进行科学的发展,在数据技术的创新过程中,离不开技术创新管理理论的协助。大数据链与技术创新链作为BT双螺旋模型的两条主链担负着不断进步发展的使命,以数据挖掘技术、数据分析技术、数据存储技术和技术创新管理理论为碱基对负责对两条主链的发展进行指导。在DNA双螺旋结构模型中,碱基对必须是A-T,G-C进行定位搭配互补,而在BT双螺旋模型中,通过借鉴DNA双螺旋结构模型的碱基对互补理论,从而进行多元轮回式的互补结合。BT双螺旋模型中的碱基对不再像DNA双螺旋模型那样必须定位对象式的配对,当进入破裂阶段,大数据链与技术创新链进行分离,两主链破裂时连带自己链条上所携带的碱基一并分离。进入到复制阶段,各碱基进行复制,也即各项数据技术以及技术创新管理理论的推广应用。而后,进入重组阶段,碱基随机两两结合,重新配对,在不同的空间、时间进行不断的随机结合,就会产生奇妙的化学反映。从而在不同随机两两碱基结合的过程中,产生创新,发挥动力作用,就如同图2所示地推动BT双螺旋模型向纵深方向进行发展进步。
在英国学者维克托・迈尔舍恩伯格和肯尼思・库克耶合著的learning with big data: The future of education一书中,作者提到了基于大数据的双回路学习。双回路学习(Double-loop learning)会随时用数据纠正自身的错误,同时利用反馈回路中获得的大量数据来做其他很重要的事情。例如,可汗学院不仅有超过5000个多学科的视频课程,它更有价值的地方在于积累学生如何学习的数据,并实时反馈给教师和学生。双回路学习把反馈、个性化学习、预测与干预结合在一起,成就了大数据时代的因材施教。
开放大数据以减少数字鸿沟
1培养学生的文献检索和阅读能力
1.1数据分析与临床医学教育关系
目前全世界的生命科学在自然科学研究领域中的比重已达到50%[2],网络的迅速发展和大数据时代的到来,传统的医学生培养模式无法适应未来发展。很多课堂上学习的知识仅仅几年后就会更新,医学生需要掌握获取更多新知识、发现新问题的能力,而不是仅仅是背诵记忆现有知识内容。目前临床医学专业硕士参加规范化培养,投入实验研究的时间十分有限,因此可以在导师指导下进行临床科研。中国人口基数大,任何一家三甲医院都积累了大量的临床数据,如何利用这些数据进行临床科研是很关键的问题。导师可辅导学生通过临床诊疗提出问题,并从临床数据中获取有价值的信息,并进一步应用于临床。
1.2通过文献检索和文献阅读建立科研思维
从临床实践中提炼出自己感兴趣的方向再进行研究,首先需要广泛的文献检索和阅读。导师首先教授学生各种国内外文献的检索方法,并向学生推荐相关文献、指南,让学生就某一专业方向进行大量阅读,撰写综述,还可开展相关知识讲座或沙龙,有利于学生不断的进行专科内容的学习,建立科研思维。
1.3建立数据思维的概念
除了进行Meta分析外,数据分析还有更为广阔的用途。教授学生通过准确的数据刻画模糊的现状,让临床经验有科学的依据支撑;依据已知数据挖掘未知的事实,有一些数据独立看来并没有什么价值,但汇总起来会给临床医师新的启示,培养学生连续性、整体性的思维方式;依据历史数据预测未来趋势,通过对趋势的预测,我们对诊治疾病有更多的主动性,让治疗“未病之病”有了更强依据。
2教授学生多种数据收集和统计方法
2.1以科学的方法收集数据
有些学生在开始数据收集时一味求多求大,造成纳入指标特别多,但患者难以长期按此要求复查,造成研究难以持续。导师要引导学生精简和集中目标,使学生明确自己需要研究的是哪些方面,观察的终点事件和结局指标、收集数据的周期是什么,建立科学数据系统。
2.2收集方法和评估
有些患者随访的依从性不佳,随访间隔不一致,而且在不同的医院检查,有时数据单位也不相同,这就需要告诉学生在纳入目标人群前做好评估。数据是否缺失、如何处理一致性及数据歧义性均需要教授学生按照统计学要求进行分类和填补,以保证分析结果的可靠性。
2.3数据记录
指导学生使用结构简单、易组织、通用性强的表格。常用工具是Excel,易操作、常见的数据分析工具都支持。不同学生的研究内容、方向并不相同,但数据表要统一,可根据需要采用单样本数据表或多样本数据表,最重要的是保持数据的完整性。临床数据收集过程可能需要很长时间,几届学生的积累才有可能进行较完整的统计,采用统一的数据表有助于进行全面分析时数据的提取。
2.4统计方法选择
基础研究的统计学方式相对比较单一,因为是前瞻性研究,数据比较规范。而临床数据不同,纳入统计前需要评估数据是否属于正态分布,根据样本量、数据类型、结局指标分析要求等选择不同的统计学方法。不同统计方法可能得出不一致的结果,需要在实践中反复摸索,必要时与统计分析人员一同选择合适的统计学方法,减少方法选择不同而造成的结果偏倚。在这一过程中,让学生牢牢掌握统计学方法。
3指导数据总结和结果呈现
3.1指导数据总结与讨论
临床数据千变万化,不同地区不同方案都会对临床数据造成影响。因此,只要是真实数据,无论是单中心还是多中心研究,无论是前瞻性还是回顾性分析,亦或是横断面研究或队列性研究,对于学生来说都有内容可进行总结和讨论,导师需要指导他们从纷杂的统计结果中找出关键点。可以从患者自身前后的变化对比治疗方案调整的效果,可以从不同的治疗组比较结局的差异,可以与全国或全世界其他国家的数据库比较找出差距,或为中国临床的指南修订提供部分依据。
3.2数据分析与论文撰写
通过临床数据分析十分有利于撰写临床论文,有助于改变导师“重科研、轻临床”的观念[3]。在慢性肾脏病领域,数据分析做的较早较好的高雄医学大学附属中和纪念医院,每年有数十篇临床在国际期刊[4]。通过数据分析,能让学生的科研与临床的结合更为紧密,不仅如此,应用科学规范的数据分析后能让患者的治疗随访趋于规范,有助于规范化和精准化治疗和管理。通过数据模板分析图,可提出重点关注个案及更新管理目标,有利于教授学生如何把科学更好应用于实践中,提高临床专业研究生的人文素养、临床专科实践能力和临床应用科研能力[5]。
一、大数据与高校
伴随着人类存储信息量的增长,越来越多的领域开始加入大数据阵营,越来越多的行业开始利用大数据分析,大数据给我们带来的影响已经悄然成为社会各行业运行的基础。
高校作为社会培养人才的一个重要的组成部分,目前多数学校仍延续着传统的教育范式,教学策略依赖教师的经验,教师的学术严重落后于社会科技的发展,学校的评估机制存在很多漏洞等等。许多专家发现了高等教育存在的问题,却没有更好的解决办法,以前我们常说“让事实说话”,现在我们大声呼吁“让数据说话,用说话的数据”。
二、迎接大数据
迎接大数据的到来首先要做的就是思维模式的改变。大数据科学本身其实是许多学科例如统计学,数据挖掘技术,机器学习,计算机技术,方法论相结合的跨学科科技,以多种理论为基础而诞生的新兴科技,使用者必须要对自己原本的思维模式进行相应的变革。
大数据首先强调的是“大”,采集一切有关甚至表面上看似“无关”的数据,也就是以后用于分析的数据要是全体数据,我们称之为“全数据”;其次,采集的数据讲究的是模糊,而不是精确,数据的种类模糊,数据的分析模糊,而预测分析的准确度来源于数据量之大,正所谓“量变带来质变”;最后,就是对于大数据分析的结果,我们要明确“是什么”,而不必在乎“为什么”。于是,大数据体系形成了思维的改变去采集数据,从而获得“大数据”,利用数据分析技术和算法来得到更为有效更为精准的数据。
三、使用大数据
(一)大数据的来源。高校中其实蕴含着更加丰富的数据,从学生的角度来说,学生的消费,家庭情况,宿舍活动,选课信息,学习进度,作业完成进度,考试成绩的比对,参与的社团,参加的竞赛,参加的活动,已经毕业的学生就业情况,社会职业供求关系,就业的满意度调查等等太多数据,从教师的角度,教学过程的监控,教学内容的整理,课程设计,,学生的成绩变化,论文质量,参与活动,科研项目等等数据,还要从社会,从家长,从宿舍,从第三方机构采集数据。由此可以看到整个校园的数据其实是一个极度庞大的数据,这些数据的集合才是“大数据”。
(二)大数据不是单纯的“数字化”。例如,某个教师采用计算机多媒体课件,或者使用在线视频课程,或者加入MOOC的阵营,这仅仅是简单的将原本文字的东西变成“0和1“而已,这是数字化,不是大数据,充其量算是实现“大数据”而使用的计算机技术。我们真正要做的是在这些计算机平台中去采集我们需要的数据,甚至收集我们看似毫无关联的数据。
(三)广义量化的数据。建立大数据,需要将一切信息进行量化,把文字量化,把数字量化,把地理位置量化,把沟通语言量化,把一切可以量化的信息都变成数据,构建大数据平台。
(四)大数据的作用。高校的大数据,要还原真实的教学质量,真实的就业情况,真实的师资力量,真实的管理决策成效,不能简单的用问卷调查得出“好、不好”的结论。大数据发掘了时间价值,节约了时间,历史数据的总结,实时数据的分析,以及对未来的预测。这一切都是建立在时间这个维度上的大数据成果。
四、小心大数据
(一)数据的隐私和安全。在高校中,学生的成绩,学生的基本信息,学生在网站上发表的信息,对老师客观的评价,学生参与的活动,教师的论文,就业信息等等一些相对可以公开的数据,但是经过分析和预测得到的评估结果,却涉及到了个人隐私。这也就是非隐私数据经过大数据分析得到的隐私结论的现象。那么我们该如何保护这些隐私,是需要相应的规范去保护,对于数据的使用和加工者要有详细的法律责任,以保护非隐私数据提供者的合法权益。
(二)永久存在的数据。高校对于学生在校期间或者对于教师在校期间所有发生的数据,比如大到一次奖学金,一次公开获奖,小到每次活动记录,一次出勤,一次缺勤,这些曾经否定我们进步的数据在大数据的时代变成了永久存在的数据,我们如何对待和处理这部分数据,是一个值得深思的问题。
(三)知“难”而“退”。高校利用大数据的分析得出对于某个学生的学习建议,让该学生能够轻松避开自己的弱项,选择相对平坦的路线进行学习,那么这样的结果是不是教育者希望看到的。我们一直崇尚学生学者要迎难而上,不要轻言放弃,要主动迎接挑战,现在有了大数据分析,他们可以轻松避开困难,为学生创造一条平坦的道路。这样的结果是我们作为教育者希望得到的吗?
结 语
任何新的变革,都需要时代的磨练,大数据时代刚刚起步,他要走的路还很长很长,他需要完善的地方还很多很多。现在我们要做的就是接受大数据,然后忘记大数据,让大数据这个理念变成“计算机”一样的通俗,一样的深入人心。我们需要关注大数据,使用大数据,我们也需要和大数据一起成长,更好的发挥它的作用。高校未来离不开大数据,大数据的发展也离不开高校,让每个学生、每个教师都步入大数据时代,去体会其中的奥妙,去感受他给我们带来一场划时代的变革,每个高校建立大数据信息平台势在必行。
大数据是在网络环境下发展起来的一种大规模、多样化的数据集,现代社会类型多样、数量巨大,这些信息对大数据环境下图书馆信息服务发展带来较大的发展机遇,同时也带来较大的挑战,图书馆必须要认清自身发展的优势和劣势,从各个行业的大数据化形式下发掘发展经营,从而更好的促进自身的发展。
一、大数据发展概况
大数据是一个相对比较抽象的概念,也被成为是海量数据,主要依据存储信息量的大小进行分段,目前没有对大数据统一、权威的定义。实际上大数据并不是对数据规模的一种描述,而是一种在信息技术发展下类型繁多、数量大的多样化数据中实施信息提取的一种思维。大数据具有一定的规律性,看似繁杂的数据背后隐藏着规律性信息,但是这些规律性必须在数据分析和整理后才能呈现出来。大数据的无偏性,大数据技术额度无偏差性是对一个学科基础统计的表示,在这种思维下很多数据能够通过抽样的方式取得,在统计学信息的保障下有效提高数据的可靠性;大数据具有关联性,大数据一般是由一个个数据库、数据群累加而形成,数据越多价值越大,实施数据挖掘过程中必须要注重内部信息和数据之间的关联性,并提高其隐性价值;大数据具有开放性,开放性主要是指在预定的时期内进行流程和科学方法的实施,分析大数据规律性得到科学的结论。
二、大数据对图书馆信息服务的启示
大数据环境下,图书馆的经营管理也必须利用大数据技术实施技能的深加工处理,大数据时代图书馆的数据分析、服务需求和处理等都需要社会信息机构和合作,在云计算平台的支持下利用大型数据实施服务,任何一个图书馆都应该积极在大数据环境下吸取经营,从而促进自身更好的发展。
2.1重视数据的收集和挖掘
大数据时代,图书馆之间的竞争也比较激烈,除了文献方面的竞争,同时数据方面的应用竞争也比较大。目前数据分析和挖掘也逐渐成为图书馆信息服务的重要研究点。图书馆在发展总必须要以计算、模式识别、可视化等为基础进行高级数据分析,拓展图书馆的服务。图书馆在数据挖掘和数据分析汇总首先必须要将数据关联起来,在大数据环境下降结构复杂、类型繁多的环境下建立数据之间的联系。同时要充分利用这些数据信息,在图书馆系统内积极挖掘具有价值的数据,将处于休眠期的数据活起来,发掘其价值,将其应用到实际工作中提高工作效率和服务质量。另外提高数据挖掘的价值,充分利用数据分析技术从不完成、模糊的数中提取潜在知识和价值观点。
2.2构建多维图书馆信息咨询形式
图书馆在实际发展中要想提高自身的竞争水平,必须提高服务质量,从信息咨询、数据挖掘及时等方面进行分析。从数据融合方面进行分析,大数据的提取和利用能够大大提高信息咨询服务态度,所以在发展中必须要将数据细化,从而提高服务深度。首先在细化数据的过程中可以提供一些数据能力服务和资源服务,比如读者数据的保存,在大数据时代可以通过一些专业维护的方式将海量信息汇集到信息咨询平台,从而最大程度的细化数据存储需求。凌天在数据深度应用方面,图书馆深度的数据服务和知识咨询形式就是其深度的代表,传统的信息咨询服务比较注重知识库数量的累积,但是这种仅仅追求数据库规模的发展形式已经不能适应现代社会的发展,大数据环境下必须要进行信息深加工,融合数据信息,实现信息的增值服务,从而提高图书馆的服务质量。
2.3深度分析用户信息
在大数据环境下,人与人之间的交流更加密切,人们在图书馆内外的各种信息多保留由信息行为数据,图书馆应该对这些散落在各处的信息进行整理和综合,并在此基础上对大量的用户信息进行挖掘和分析,提取有价值的信息。在对数据实时用户行为分析的过程中,不仅仅关注信息行为整体行为方式,同时要从中找出影响图书馆利用行为价值的因素,反映客户的应用需求,广泛的开展用户行为分析,为图书馆用户提供更加个性化的服务。
结语:大数据发展环境下,图书馆的管理更应该注重科技信息技术的利用,摒弃传统发展观念,积极利用数据挖掘技术和大数据理念,发掘客户信息,了解客户需求,从而为客户指定符合其自身发展的服务方案,提高自身服务质量。
参 考 文 献
[1]毛晓燕. 大数据环境下图书馆信息服务走向分析[J]. 图书馆工作与研究,2014,03:72-75.
中图分类号:F32 文献标识码:A
原标题:试谈大数据时代下的林业研究进展
收录日期:2016年11月9日
以2013年8月“第三届全国林业信息化工作会议”召开和《中国智慧林业发展指导意见》为标志,中国林业信息化由数字林业跨入智慧林业的新阶段。智慧林业的实现,必将带来林业生产力的又一次深刻变革,林业信息化也将迎来一个新的大数据时代。大数据具有数据量大、处理速度快、数据类型多、结构复杂、价值大、精度高的六大特征。近年来,随着大数据时代的来临,就如何合理运用大数据也将成为林业研究的热门主题。
一、什么是大数据
大数据是由数据量巨大、结构复杂、类型众多数据构成的数据基于云极端的数据处理与应用模式,通过数据的整合共享,交叉服用形成的智力资源和知识服务能力。通常要处理的数据量太大,增长太快,而业务需求和竞争压力对数据处理的实时性、有效性又提出了更高要求,传统的常规技术手段无法应付。互联网数据中心(Internet Data Center)简称IDC定义了大数据的四大特征:海量的数据规模、快速的数据流转和攻台的数据体系、多样的数据类型、巨大的数据价值。维克托・迈尔・舍恩伯格提出:“大数据带来的信息风暴正在变革我们的生活、工作和思维,大数据开启了一次重大的时代转型。”
二、国内外林业研究进展
(一)国内研究进展。第七次全国森林资源清查暴露的问题令人警惕,清查五年间隔期内,林地转为非林地的面积数字有所上升,形势十分严峻,但这些逆转的林地主要发生在哪些地区?数据大、复杂性是林业各个岗位上难以完成的严峻工作。但《全国林地保护利用规划纲要(2010-2020年)》提出了大数据分析应用于林业生态统计,是林业有史以来可及时动态监测、及时决策的最全面、最细致、最先进的一项措施。大数据统计了全国林地,归类成为了一张简单的分布地图,是高分辨率的遥感影像,全国林地落界数据、二类调查资料,基础地理信息等多源数据集合,以林地界线为核心内容,构建的全国统一的林地资源管理系统。为国家林业局各业务司局提供数据支撑服务,将推进在森林经营、工程建设、森林防火等业务上的应用提供了便利。
以2013年8月“第三届全国林业信息化工作会议”召开和《中国智慧林业发展指导意见》为标志,中国林业信息化由数字林业跨入智慧林业的新阶段。
2014年郭建斌等在大数据深入分析的基础上,指出了大数据时代林业科普信息化的现状及不足,探索性地提出了林业科普信息化发展的对策与建议。郭建斌等认为面对大数据时代科普工作发展的趋势,林业科普应以在全社会范围内组织建设新型科技传播与交流渠道为发展方向,建立基于信息技术不同形态的科技信息传播与交流平台,开发公众渗透度高的科普渠道,加大民生科普、应急科普的传播渠道建设力度,丰富大数据时代背景下的科普内容,加大科普信息辐射的强度和广度,提高科普宣传能力。
2015年6月蓝学、韦绪、覃德文等基于大数据发展动态,大数据的性质和趋势、林业部门的大数据应用三个方面,对大数据、云计算、物联网等进行系统讲解,深入分析当前信息化前沿技术的发展现状与趋势,结合生态林业民生林业的建设目标,阐述如何利用大数据为林业现代化服务。蓝学等认为林业资源大数据分析的理论核心就是数据挖掘算法,各种林业资源数据挖掘的算法基于不同的物种数据类型和格式才能更加科学地呈现出数据本身具备的特点。也正是因为林业资源变更数据被全世界统计学家所公认的各种统计方法(可以称之为真理)才能深入数据内部,才能体现大数据分析的便利。
(二)国外研究进展。近年来,由于生成大量的数据以及存储数据的巨大增量,大数据的应用日益成为国外人们关注的焦点。美国联邦政府、麦肯锡全球研究院和各大信息技术企业等纷纷有关大数据的倡议、计划和报告,将大数据推到前所未有的高度。2012年2月《纽约》提出,“大数据”时代已经降临,未来在商业及其他领域中,我们将基于数据和分析,而非经验和直觉做出决策决策。
Del Río和Sara分析了几种用于处理不平衡数据集的方法,在大数据的背景下,使用随机森林分类的性能。通过采样,采样已经适应了使用Map Reduce,使这些技术的大数据能够管理数据集,并且正确识别不同类别。进行了实验研究,评估不同的算法的性能。
同时,国外在森林资源共享、大数据应用方面已经建立了比较完善的机制,共享的数据资源也非常丰富。数据共享对林业科技发展的作用已十分明显。
三、我国林业相关大数据
大数据处理需要建立数据库,就我国林业而言,需要的数据库包括:林业档案、林业年鉴、自然资源和地理空间数据库、林业发展报告库,等等。中国林业数字图书馆的建立,为中国林业大数据研究创建了条件。中国林业数字图书馆依托国家林业局内外网平台建设,将为林业行业提供丰富的图书、期刊、论文等信息资源。而中国国家卫星林业遥感数据应用平台也为中国林业大数据的研究做出了贡献。作为林业行业提供遥感基础数据、数据处理平台、数据产品平台将大幅提高林业遥感应用水平。
四、大数据在林业上的应用
大数据在林业上的应用,目前主要的问题就是数据的提取,其理论核心为数据的挖掘。各种林业资源数据挖掘的算法基于不同的物种数据类型和格式才能更加科学地呈现出数据本身具备的特点,也正是因为林业资源变更数据被全世界统计学家所公认的各种统计方法才能深入数据内部,才能体现大数据分析的便利。第一部分是大数据林业内涵与重要意义,包括大数据林业内涵特征、产生背景、关系分析、关键技术、新观念分析;第二部分是大数据林业总体发展思路,包括大数据林业战略定位、基本思路、基本原则、建设目标、总体架构;第三部分是大数据林业的主要任务与重点工程,包括加快建设大数据林业立体感知体系、大力提升智大数据林业管理协同水平、有效构建大数据林业生态价值体系、全面完善大数据林业民生服务体系、大力构建大数据林业标准及综合管理体系;第四部分是大数据林业推进策略,包括大数据林业推进路线图、保障措施。要进行大数据的新题提取,必须具备单个方面的内容:(1)理论。理论是认知的必经途径,也是被广泛认同和传播的基线。从大数据的特征定义理解林业对大数据的整体描绘和定性;从对大数据价值的探讨来深入解析大数据的珍贵所在;从对大数据的现在和未来去洞悉大数据的发展趋势;从大数据隐私这个特别而重要的视角审视人和数据之间的长久博弈。(2)技术。技术是大数据价值体现的手段和前进的基石。我将分别从云计算、分布式处理技术、存储技术和感知技术的发展来说明大数据从采集、处理、存储到形成结果的整个过程。(3)实践。实践是大数据的最终价值体现。我将分别从互联网的大数据、政府的大数据、企业的大数据和个人的大数据四个方面来描绘大数据已经展现的美好景象及即将实现的蓝图。
数据化是大数据的基础。在生态林业资源动态变化中,数字化和数据化大相径庭。“数字化”指的是将生态林业资源变动中产生的信息、森林演替所产生的资源或环境变化的轨迹转换成电子数据存入数据库的过程;而“数据化”则是指在数字化的基础上,利用数据来对森林变更进行描述,使之能同时被人和计算机所理解的结果。生态林业资源信息大量数据来自于不同来源、数量庞大的结构化与非结构化数据群,大部分都不能直接用于预测和分析。而通过对数据有效的组织,能将大量来自不同源的异构数据量化组合,形成森林资源数据化、森林类别数据化、生态资源使用量的数据化、森林属性数据化等在信息化服务中管理者比较关心的数据化形式。数据化是将数据从无序到有序的加工阶段,数据化的最终成果是将森林数据对象属性量化,构建数据挖掘和服务的基本对象,简化数据分析和利用过程。
五、大数据在林业运用上的特点
大数据分析要求林业工作人员在进行研究的过程中,改变思路,同时改变对数据来源的态度。相比之前的数据研究工作,大数据的主要特点是数据量大、数据种类繁多,这给林业工作人员带来很多困扰,要求林业工作人员在繁杂的数据中,准确找到适合的可用数据。同时,在大数据分析时,主要研究数据之间的规律,从大量数据中找到能够提取的信息,在提取过程中,经常会出现不精确数据,要求林业工作者及时摈弃数据或者在可接受范围内允许少量的不精确数据出现。在多数情况下,数据来源于网络。在大数据分析时,明确数据来源,分析数据的可靠性,就数据的相关性进行分析,而不是研究数据产生的原因。研究人员可以收集和分析大量相关数据的信息,找出可能有助于预测未来事件发生的规律。
中国林业大数据处理需要建立完整的数据库整合和新建了林业政策法规库、历年统计数据库、林业年鉴库、林业发展报告库、自然资源和地理空间库、林业档案库等多个专题数据库,内容丰富、查询便捷,是信息化服务林业的又一重要成果。中国林业数字图书馆依托国家林业局内外网平台建设,将为林业行业提供丰富的图书、期刊、论文等信息资源,为林业职工和广大公众提供更好的服务。国家卫星林业遥感数据应用平台作为林业行业提供遥感基础数据、数据处理平台、数据产品平台将大幅提高林业遥感应用水平。林业综合办公系统群将把国家林业局机关和直属单位纳入统一的办公平台中,真正实现办公一体化。
六、展望
在研究过程中,大数据作为一种资源也作为一种工具。他可以预测未来可能会发生的事情,但就对已经发生的事情没有进行解释,需要研究人员进一步分析。我们必须以一种不仅欣赏其力量,而且承认其局限的态度来接纳这种技术。大数据在林业上的研究,就是林业在数字林业的基础上,运用大数据、云计算、互联网等信息技术,使林业实现智慧感知、智慧管理、智慧服务。通过大数据林业建设,形成信息基础条件国际领先、生态管理与民生服务质量明显提高、林业产业结构与创新能力优化发展的现代化模式。
主要参考文献:
[1]李世东.大数据时代中国智慧林业门户网站建设[J].电子政务,2014.3.
[2]覃德文,云朝光,秦武明等.PCR技术发展状况研究[J].林业实用技术,2013.6.
[3]蓝学,韦绪,覃德文.浅谈大数据分析在生态林业上的运用[J].经济研究导刊,2015.6.
[4]郭建斌,秦向华,万志红,李平.大数据时代林业科普信息化发展研究[J].经济师,2014.9.
1 引言
在大数据时代,以科学数据为主要学术资源的数据密集型科学正改变着当前的科学研究模式。人文社会科学领域的研究者已经开始关注科学数据的作用和价值,定量研究也越来越得到重视。在一些数据科学的国际会议上,人文社科的数据管理也成为研究者讨论的重点之一。
各种翔实、可靠的数据为以各种社会对象为研究主体的人文社会科学研究提供支撑,推动了社会调查方法、计量学方法、可视化方法等研究方法的应用和发展。中国管理科学与工程学会理事长李京文院士在2013年管理科学与工程学会年会暨第十一届中国管理科学与工程论坛上指出,必须不断研究大数据的形态变化规律,利用大数据来研究、认识和预测客观世界及人类自身的发展变化趋势。同时,科学数据也影响着传统人文社会科学研究方法的转型与创新。复杂的经济统计模型、大规模的社会调查、丰富的科研数据处理和分析工具等,都为人文社会科学研究的创新提供了条件。科学数据的使用使得人文社会科学的“科学性”显著增强。
虽然科学数据推动了人文社会科学的新发展,但是也有学者认为科学数据并未与人文科学结合起来,比如一些学者在从事人文研究时,常使用“绝大多数”等空泛概念的名词。在数据密集型研究模式的背景下,人文社科领域的研究者对科学数据的使用习惯是怎样的呢?哪些人文社科学科的研究者更擅长利用数据?他们获取数据的来源、处理数据的类型和方法以及数据表现形式如何?研究者是不是由于缺乏对科学数据的使用而增加了“绝大多数”等空泛概念名词的使用呢?
本文围绕以上问题,对《中国社会科学》期刊的全文论文进行内容分析,探讨我国部分人文社会科学学科在科学数据使用上的特征。重点分析研究者获取实证数据的主要来源,所要分析的数据类型,处理数据的常用方法,以及数据分析完成后的表现形式。另外,针对学者提出“绝大多数”等空泛概念的名词在人文社科学科中使用的问题,本文将分析研究者在这些名词使用等方面的习惯。最后,根据人文社科研究者在科学数据使用上的特点,为图书馆提供科学数据服务给出建议。
2研究方法
本文采用文献调查法采集论文资料,用内容分析方法统计论文中所用到的数据、中文数词,分析其中的问题。人文社科数据主要指调查数据、网络公开数据、政府统计数据和指标等,本文研究的数据对象除以上这些外,还包括实验数据、文献数据和图片数据。文中讨论的实证研究数据是指狭义实证研究所需要分析的数据。狭义实证研究是指仅依靠统计分析法的研究。另外,本文把“绝大多数”、“差不多”、“若干”、“大量”、“无数”、“少量”等词语定义为模糊数词。
本文的数据来源是《中国社会科学》的全文论文。《中国社会科学》是综合性社会科学期刊,所刊登的论文代表我国人文社会科学领域最新的学术研究成果,也是我国人文社会科学研究的风向标。选用该期刊的全文进行分析,不仅可以了解我国最高水平人文社科学术成果在科学数据使用上的特点,而且也可以了解人文社科不同学科的学者在科学数据处理上所采用的最新方法。笔者于2014年12月通过CNKI数据库收集该期刊2010年1月至2014年6月的全部期刊论文522篇,剔除其中“编者按”之类的7篇文章后,最终得到全文数据515篇。
3数据分析
3.1 总体概况
笔者对2010年1月到2014年6月的《中国社会科学》进行分析,共有全文数据515篇,把它们按研究内容分成、哲学、社会学、管理学、人口学、政治学、法学、经济学、传播学、语言学、文学、历史学这12个学科。但由于人口学和传播学的样本数都小于5,统计的数据会在一定程度上有所失真,因而本文不统计这两个学科的数据。
首先对论文的引用数据和实证数据进行分析。除去人口学和传播学的论文,在剩余的论文中,仅引用数据而未进一步统计分析的论文168篇,占总数的33%,进行实证研究统计分析的论文113篇,占总数的22%。统计发现(见图1):除了哲学学科的论文没有引用数据外,其余学科的论文都或多或少地引用了数据。而实证数据主要集中在经济学、社会学、管理学等几个学科上,其中社会学和经济学实证研究的比例分别达到67%和73%。这里政治学的数据值得注意,虽然该学科的论文没有实证研究的数据,但引用数据的比例却较高,达到53%,显示了该学科数据使用的特点。
3.2 实证数据情况分析
本节主要对社会学、管理学、法学、经济学、语言学和历史学这六个有实证数据的学科进行分析,分别调查其使用数据的类型、来源、处理方法及其表现形式。这里,语言学和历史学的实证数据由于是小样本(样本数小于5),因而需辩证看待这两个学科的数据。
(1)数据类型
从使用数据的类型上看,这六个学科使用的数据基本上是数值型数据,经济学还使用了部分图片数据(表1)。
(2)数据来源
本文根据数据来源把实证数据分为一手数据和二手数据,其中一手数据是指研究者通过访谈、直接观察、间接观察等方式首次亲自收集并经过加工处理的数据,二手数据是指来源于他人调查和科学实验的数据。本文中,把一手数据分为调查数据、实验数据和文献资料数据;二手数据分为政府公开数据(如全国普查数据、各类统计年鉴)和数据管理机构(如中国社会科学调查中心ISSS等)的数据。
从数据的来源分析,社会学中44%的论文采用的是一手数据,而在经济学中这一比例只有15%,经济学更多的是使用政府公开数据等二手数据(图2)。
在对一、二手数据的进一步分析后,可以看出社会学和法学的一手数据主要来自调查数据,经济学的一手数据主要来自实验数据;对于二手数据的来源,管理学、法学和经济学主要以政府公开数据为主,而社会学稍微偏向于管理机构的数据(表2)。
(3)处理方法
本文把数据处理方法分为初级方法、中级方法和高级方法。初级方法是指平均数、频数、方差、标准差等描述性统计方法;中级方法是指回归分析、参数估计、假设检验、相关分析等统计方法;高级方法则是指模型计算等高等数学方法。
从数据处理方法上看,这六个学科的大部分论文都使用了描述性统计方法之类的初级方法,社会学比较注重对回归分析、相关分析、假设检验等中级方法的运用,而经济学则更擅长运用高等数学方法(图3)。
(4)表现形式
本文把数据的表现形式分为统计表、统计图和特定软件绘制的图形这三类。
从数据的表现形式来看,比较常用的是统计表形式,折线图、柱状图和散点图之类的统计图在管理学、社会学和法学中的应用也比较广泛。除此之外,经济学和语言学还有一些利用特定软件绘制的图形(图4)。
3.3模糊数词使用情况分析
本节分析部分人文社科的论文使用“绝大多数”、“差不多”、“若干”、“大量”、“无数”、“少量”、“很多”和“很少”这八个模糊数词的习惯,以及这些模糊数词在部分人文社科学科论文中的使用情况。
首先统计以上这八个模糊数词在一些人文社科学科论文中使用的比例(图5)。笔者发现社会学、经济学和文学这三个学科使用到以上八个模糊数词的论文比例最高。相对来说,哲学的论文中出现这八个模糊数词的比例稍微小些。
在统计2010年到2014年模糊数词的篇均使用次数后发现,人文社科的学者在模糊数词的使用上趋于稳定,各年篇均使用次数基本在2.0到2.5的区间内,除2012年和2013年的数值波动相对较大外,其余各年篇均使用次数的数值趋于2.3(图6)。
随后统计这八个模糊数词的总使用次数及其篇均使用次数(图7)。笔者发现,“大量”这个词在论文中的总使用次数最多,而且篇均使用次数也最高(达3.14),这说明人文社科的研究者普遍喜欢使用这个词,使用范围也比较广。其次是“很多”这个词,研究者也比较喜欢使用。而“若干”这个词,虽然总使用次数不算很大,但其篇均使用次数却很高,这说明该词的使用范围比较集中。同样的现象也发生在“绝大多数”这个词上。最后讨论一下“差不多”这个词。虽然,先生提出中国人是“差不多先生”,凡事马马虎虎,不求精确,但是这个词在人文社科领域的学术论文中却很少使用,其总使用次数和篇均使用次数都是这八个词中最低的。
这八个模糊数词在部分人社科论文中使用分布情况见表3。表3中“一”表示该词未在该学科中使用,“√”表示该词在该学科中有使用,“”表示该词不但在该学科中使用,而且其使用的频率更高,即每一列的三个“”分别代表使用该词的论文比例最高的前三个学科。从表3可以看出,管理学的论文对模糊数词的使用频率较高,有“差不多”、“若干”、“大量”等六个数词在其学科论文中高频率使用,其次是社会学。相比之下,哲学和语言学的论文对模糊数词的使用频率相对低一点。
4结果讨论
本节依据以上数据分析我国部分人文社会科学学科的学者在科学数据使用上的特点,为图书馆今后开展科学数据服务给出针对性的建议。
4.1人文社科学科对数据的使用主要由研究对象决定
我们知道,社会学和经济学是以社会现象或经济现象为研究对象的学科,是偏向量化的科学。从上一节图1的数据也可以看出,大多数论文(67%的社会学论文和73%的经济学论文)都使用了基于数据的实证研究方法。在这些学科里,研究者尊重数据,把数据当作研究的主要素材,通过调查统计和模型计算使数据和学科发展有效结合在一起,推动了新知识和新规律的发现。而且,这些学科研究者的数据意识也比较强,对数据需求也更为迫切,获取数据和处理数据的能力更强。比如经济学,这个学科的论文有较高的实证数据使用比例,也非常注重政府公开数据等二手数据的获取,二手数据的使用率比其他学科的使用率更高(图2)。这就是由于研究者数据意识强烈,数据需求迫切,从而使他们获取数据的渠道要比其他学科的研究者更广。
相比之下,、哲学和文学这些学科是依靠思维逻辑的研究学科,主要是对传统文献资料的探讨,很少讨论实证或经验现象,因而对实证数据的使用就不是很多,偶尔会引用一些数据,数据来源也只是依靠文献。这些学科的研究方法仍较为传统,主要以文献为主,对数据使用的需求不是很迫切。
科学数据服务作为图书馆的一项创新服务,首先应该明确服务的对象。诸如以上这些人文社科学科,如果图书馆对其全面铺开科学数据服务,那可能效果就并不是很理想,但如果图书馆首先对社会学和经济学的研究者提供科学数据服务,为他们提供数据获取、处理、共享方面的服务,则可能会取得事半功倍的效果。因而,笔者建议,针对人文社科的科学数据管理服务,首先可以把社会学和经济学的研究者作为主要服务对象,把政治学的研究者作为潜在服务对象,在服务得到一定认可后,逐步向其他学科展开。对于主要服务对象,图书馆可以提供常规的检索、收集、存储、分析等数据情报服务和数据技术服务;而对于潜在服务对象,则可先向研究者提供科学数据在该学科中创新应用的情报信息,待研究者对科学数据服务需求提高后,再提供常规数据服务。
4.2人文社科学科对实证数据的处理以初级方法为主
在人文社科类论文的实证研究中,为了让读者了解数据和研究对象的特征,进而更好地了解统计分析结果,研究者根据不同的研究目的和研究对象会选取不同的数据处理方法。人文社科的研究者对数据处理采用的方法以描述性统计等初级方法为主,初级方法在法学、社会学、管理学等学科的实证数据研究中占了较大比例(图3)。
相对而言,一些实证研究比较多的学科在数据处理方法上则更为多样。比如社会学和经济学,这两个学科的研究者除了掌握描述性统计等初级方法外,对回归分析、参数估计、假设检验、相关分析等一些中级方法也运用自如,而经济学的研究者使用高等数学方法进行模型计算的能力更为突出,数据的表现形式也多种多样,除了常用的统计图表外,还有由各种特定软件绘制的图形,这些都显示出他们优异的数据素养。
人文社科研究者在数据处理方法上的使用,一方面由论文的研究目的和对象决定,另一方面也由研究者的数据素养决定。对于前者,可能超出了图书馆的服务范围,但要改善研究者的数据素养,图书馆还是可以有所作为的。笔者建议图书馆为研究者提供有针对性的数据处理方面的开放课程等信息,帮助研究者掌握更多关于数据处理的知识。除此之外,也可为研究者提供本学科在数据应用上创新研究的情报信息,让他们了解本学科最新的数据处理技术,并提供相应的数据分析工具,促进定量研究的深入。同时,图书馆也可以与数学、统计学等院系合作,为研究者提供数据处理方面的专业讲座,一方面增强对研究者数据素养的教育,另一方面也可为研究者跨学科合作提供平台。
4.3模糊数词的使用与研究对象和传统文化有关
模糊数词的使用在人文社科领域比较常见,并且各学科在使用上并没有体现出明显的差异。诸如在社会学和经济学这些数据使用比较广泛的学科里,研究者并没有因为使用了数据而减少对模糊数词的使用,反而模糊数词在这两个学科中的使用要比其他学科更多(图5),而且各年模糊数词的篇均使用次数也较稳定,没有很大波动(图6)。因而,模糊数词的使用并不能说明科学数据没有与人文科学的发展结合起来,这主要还是与研究者的研究对象和受传统文化影响下的用语习惯有关。
比如“大量”这个词,该词使用总量和篇均使用量在这八个模糊数词中都是最高的,说明人文社科的研究者普遍习惯使用该词。然而进一步分析显示,该词在经济学中的使用频率最高。一方面,经济学论文中存在的各种数量关系需要用“大量”这个词来表述,另一方面,由于这个词所代表的数量本身较难考证,再加上力求精确的数据精神缺乏和大概而言的用词习惯,使得研究者摒弃了数据化表达而使用了这些模糊概念的词语。
模糊数词在人文社科领域的使用还是比较广泛的,这与其研究对象有一定联系,有些数量关系难以考证,无法精确量化。除此之外,研究者在传统文化影响下的用词习惯也是模糊数词使用广泛的重要因素之一。笔者建议图书馆在为人文社科学者提供科学数据服务时,要考虑到不同学科研究对象的影响,既要提倡数据文化,又要遵循人文精神。平时要注重收集有学术价值的科学数据,并为研究者提供方便查询的数据平台。与此同时,也可以根据研究者的需求,帮助他们收集和统计相关研究所需要的特定数据,以尽量减少模糊数词的使用。但作为科学数据服务的提供方,图书馆也应尊重原有的人文社科研究方法,使科学数据作为一种补充材料,与现有的人文社科研究结合,相得益彰。
教学测量与教学评价是教学活动的有机组成部分。教学测量与教学评价作教学活动,担负了诊断教学、激励师生、调控教学过程的任务。这些评价通常是学习者学过程中历次考试数据的分析与对比,以报表图表的报告形式展现给管理者及师生。如何采集、保存海量的考试数据;如何从多视角分析、对比这些数;如何快速、体系化制作统计分析报告。这些问题已成为影响教学评价工作的瓶颈。
以教学测量与教学评价中考试分析报告生成为研究对象,根据目前大数据分析的研究,将元数据模型、数据立方体、多维度数据分析报表模型、数据挖掘算法相结合,设计实现了一个大数据分析的通用考试统计分析报告生成系统。
一、适用于大数据分析的教学测量评价数据的存储结构
系统采用三层数据库结构把不同类型,不同层次的考试信息分布在不同层次的数据库上,以解决数据集中所带来的海量数据问题、基础编码冗余及针对性问题。其中:顶层公共库(TOP公共库),用于存放各类型、各层次考试的基本信息,以及跨不同类型及层次考试的统计数据。第二层公共库用于存放某种类型的考试基础数据、统计数据。第三层为考次库用于存放某次考试的试卷、成绩等数据。
二、报表技术
表就是用表格、图表等格式来动态显示数据,可以用公式表示为:“报表 = 多样的格式 + 动态的数据”。
报表可分为如下几类:列表式:表内容按照表头顺序平铺式展示,便于查看详细信息。一般基础信息表可以用列表式体现。多用于展示客户名单、产品清单、物品清单、订单、发货单等单据或当日工作记录,当日销售记录等记录条数比较少的数据。摘要式:使用频率最高的一种报表形式,多用于数据汇总统计。如按人员汇总回款额、客户数等;按日期分组汇总应收额、回款额等。.摘要式报表和列表式报表唯一的差别是多了数据汇总的功能。矩阵式:主要用于多条件数据统计。如:按照客户所有人和客户所属地区两个值汇总客户数量。矩阵式报表只有汇总数据,但是查看起来更清晰,更适合在数据分析时使用。
表的绘制方式,大致可以分为SQL画布方式,Cell单元格方式和两者结合型:SQL画布方式报表工具的特点是将报表水平分割成若干个区域,在各个区域上放置报表组件,报表组件位置可以是任意的,各组件可以互相重叠。画布式报表工具的优点 是可以做到可视化数据绑定,组件位置自由。缺点是插入列、组件对齐困难,画表格线经常出现线与线之间的错开现象。这种报表只是很好的解决了"报"的问题, 但对于"表"的问题依然存在。CELL单元格式报表工具,是将报表看作是由一系列连续的单元格组成的区域。要改变报表组件(一般是文本或图形)的位置,只能通过改变行高列宽方式进行,组件之间 不能重叠,单元格可以合并。单元格式报表工具的优点是画线,插入列,多行列标题绘制非常方便,但格子中的动态数据绑定,往往需要手写公式来进行。这种报表 只是很好的解决了"表"的问题,但对于"报"的问题依然存在。
两者结合型报表工具,融合上面两种报表工具的优点,使用户可以可视化地动态绑定数据,也可以象Excel一样来画线,从而大大提高了报表设计的效率。
三、基于维度的报表设计、生成方法
维度:用于确定参与统计计算的对象范围
属性:用于统计计算的对象属性
指标:维度+属性+统计方法
数据字典:描述属性的存储信息、维度定义信息
维度和属性,从概念上讲是截然不同的东西;从实现上讲(表字段)有交 叉。例如分数字段,在进行平均成绩统计时是属性;在进行一分一档统计时 是维度。维度和属性要分别定义。
属性,从概念上讲与维度信息无关。他们都是对事物的某种特性的量化描述。任何事物的不同特性之间不具有函数关系(一个特性无法决定另一个特 性),否则这些特性应当合并。属性在系统中不应有重复存储,换句话说任何属性只能唯一地存储在系统的某一个表的某一列中。
属性与维度在实现上存在一定的相关性。由于关系数据库的局限,在数据结构设计时,不得不将信息分别存储在不同的数据表中。例如成绩信息我们根据考次、科目维度信息将不同的考次、科目的成绩存储在了不同的表中。
我们认为报表的行与列及表头是观察与分析数据的维度;行列的交叉点上的单元格代表了若干维度的所确定的数据集及其上的集聚计算(我们称数据集及其上的集聚计算为指标)。根据维度可以确定指标,用户只需要了解业务中维度的概念,无需了解数据集的概念及数据的存储结构就可以完成报表的设计生成。这大大提高了本系统的可用性、易用性。
四、结束语
采用统计学和教育测量学原理和方法,对考试数据进行加工、处理,并提供自定义报表,自适应指标分析方法,教育工作者无需具备专业信息处理的能力就能够自定义分析报表、图表,进而生成服务于各级教育管理部门、教育研究部门、学校、学生的各层次学业评价报告,具有很强的可定制性、灵活性、可重用性。
参考文献:
[1]栾丽华,吉根林;《决策树分类技术研究》[J];计算机工程;
2004
[2]QuinlanJR.Discoveringrulesfromlargecollectionsof-
examples:Acasestudy[C].MichieDExpertSystemsinthel-
ectronicAge,Scotland:EdinburghUniversityPress,1979
:168-201.