时间:2023-04-08 11:50:25
引言:寻求写作上的突破?我们特意为您精选了4篇大数据技术论文范文,希望这些范文能够成为您写作时的参考,帮助您的文章更加丰富和深入。
通过对大数据的汇集、智能分析和挖掘技术,发现数据中的潜在价值信息,帮助人们做出正确决策,这就是大数据产业的利益。国外大数据的起步比较早,比较成功的大数据应用案例有:商业龙头沃尔玛公司通过对消费者的购物数据进行分析,了解顾客的行为喜好,对超市的商品结构进行搭配重置以增加销售额;亚马逊公司通过大数据构建自己的推荐系统,每年可以靠此多收益20%;奥巴马通过大数据分析系统进行数据挖掘,用科学的手段获取选票、募集资金,赢得了总统竞选的胜利。相比于国外,国内的大数据研究和应用还处于起步和发展中的阶段,比较成功的案例有:淘宝数据魔方平台,通过大数据,为买家量身打造完善的购物体验产品;新浪微博大数据产品,通过大量的社交数据,创造不同的社会经济价值等。
1.2云计算的发展
云计算可以像电力资源一样提供弹性的按需服务,事实上它是集合了一系列的服务提供给用户。云计算的核心可分为三个层次,分别为基础设施层、平台层、应用层,如图2所示。云计算将基础设施、软件运行环境、应用程序抽象成服务,具有可靠性高、可用性强、规模可伸缩等特点,满足了不同企业的发展需求,各个云服务提供商根据各自服务对象的差别分别开发了各具特色的云服务。(1)基础设施即服务层基础设施即服务(InfrastructureasaService,IaaS)层通过部署硬件基础设施对外提供服务,用户可以根据各自的需求购买虚拟或实体的计算、存储、网络等资源。用户可以在购买的空间内部署和运行软件,包括操作系统和应用程序。消费者不能管理或控制任何云计算基础设施,但能控制操作系统的选择、存储空间、部署的应用,也有可能获得有限制的网络组件(如防火墙、负载均衡器等)的控制。云服务提供商为了使硬件资源得到更有效的利用,引入了Xen、KVM、VMware等虚拟化技术,使得云服务商可以提供更个性化的IaaS服务。亚马逊弹性云计算(AmazonElasticComputeCloud,AmazonEC2)是亚马逊Web服务产品之一,AmazonEC2利用其全球性的数据中心网络,为客户提供虚拟主机服务,让使用者可以租用云服务运行所需应用的系统。(2)平台即服务层平台即服务(PlatformasaService,PaaS)层是指云计算应用程序开发和部署的平台,包括应用设计、应用开发、应用测试和应用托管,都作为一种服务提供给客户。开发者只需要上传代码和数据就可以使用云服务,而无需关注底层的具体实现方式和管理模式。鉴于PaaS平台的重要意义,国内外厂商根据各自的战略提出了相应的PaaS平台,国外的如GoogleAppEngine(GAE),通过GAE,即使在重载和数据量极大的情况下,也可以轻松构建能安全运行的应用程序。国内也有新浪的SAE(SinaAppEngine)、阿里的ACE(AliyunCloudEnginee)等。(3)软件即服务层软件即服务(SoftasaService,SaaS)层是为云计算终端用户提供基于互联网软件应用服务的平台。随着Web服务、HTML5、AJAX、Mashup等技术的成熟与标准化,SaaS应用近年来发展迅速,典型的SaaS应用包括GoogleApps、SalesforceCRM等。国外云计算平台比较成功的应用案例有:亚马逊电子商务网站根据用户的购买行为和搜索技术搭建Hadoop集群,构建推荐系统;Twitter社交网站搭建Hadoop分布式系统用于用户关联的建立。国内云计算平台的成功案例有:阿里巴巴目前整个集群达到1700个节点,数据容量达到24.3PB,并且以每天255TB的速率不断攀升;2013年,华为推出国内首个运营云平台,目前为止与该平台签订协议的ISV有3000多家。
1.3云计算相关技术
(1)分布式文件系统分布式文件系统(GoogleFileSystem,GFS)[3]是Google公司针对云计算过程处理海量数据而专门设计的。一个GFS集群由一个主节点和多个从节点组成,用户可以通过客户端访问文件系统,进行正常的文件处理工作。在云计算中,海量数据文件被分割成多个固定大小的数据块,这些数据块被自动分配到不同的从节点存储,并会在多个节点进行备份存储,以免数据丢失。主服务器管理文件系统记录文件的各种属性,包括文件名、访问控制权限、文件存储块映射、块物理信息等数据。正是通过这个表,文件系统可以准确地找到文件存储的位置,避免数据丢失,保证数据安全。图3是GFS的体系结构示意,每一个节点都是普通的Linux服务器,GFS的工作就是协调成百上千的服务器为各种应用提供服务。(2)分布式并行数据库BigTableBigTable[4]是一个为管理大规模结构化数据而设计的分布式存储系统,可以扩展到PB级数据和上千台服务器。很多Google的项目使用BigTable存储数据,这些应用对BigTable提出了不同的挑战,比如对数据规模的要求、对时延的要求。BigTable能满足这些多变的要求,为这些产品成功地提供了灵活、高性能的存储解决方案。BigTable采用的键是三维的,分别是行键(RowKey)、列键(ColumnKey)和时间戳(Timestamp)。行键和列键都是字节串,时间戳是64位整型;值是一个字节串,可以用(row:string,column:string,time:int64)string来表示一条键值对记录。(3)分布式计算框架MapReduceMapReduce[5]是Google公司提出的大数据技术计算框架,被广泛应用于数据挖掘、海量数据处理以及机器学习等领域,由于其并行化处理数据的强大能力,越来越多的厂商根据MapReduce思想开发了各自的云计算平台,其中以Apache公司的Hadoop最为典型。MapReduce由Map和Reduce两个阶段组成。用户只需要编写简单的map()和reduce()函数就可以完成复杂分布式程序设计,而不用了解计算框架的底层实现。MapReduce的数据分析流程如图4所示。分布在不同服务器节点上的海量数据首先通过split()函数被拆分成Key/Value键值对,map()函数以该键值对为输入,将该键值对进行函数处理,产生一系列的中间结果并存入磁盘。MapReduce的中间过程shuffle()将所有具有相同Key值的键值对传递给Reduce环节,Reduce会收集中间结果,并将相同的Value值合并,完成所有工作后将结果输出给用户。MapReduce是一个并行的计算框架,主要体现在不同的服务器节点同时启动相同的工作,并且在每个独立的服务器节点上又可以启动多个map()、reduce()并行计算。
2基于云计算的大数据处理
目前大数据处理的基本流程如图5所示,整个流程经过数据源的采集,用不同的方式进行处理和加工,形成标准的格式,存储下来;然后用合适的数据计算处理方式将数据推送到数据分析和挖掘平台,通过有效的数据分析和挖掘手段,找出大数据中有价值的信息;最后通过可视化技术将信息展现给人们。
2.1数据采集存储
大数据具有不同结构的数据(包括结构、半结构、非结构),针对不同类型的数据,在进行云计算的分布采集时,需要选择不同的数据采集方式收集数据,这也是大数据处理中最基础的一步。采集到的数据并不是都适合推送到后面的平台,需要对其进一步处理,例如来源不同的数据,需要对其进行加载合并;数据存在噪声或者干扰点的,需要对其进行“清洗”和“去噪”等操作,从而保障数据的有效性;数据的格式或者量纲不统一的,需要对其进行标准化等转换处理;最后处理生成的数据,通过特定的数据库,如NoSQL数据(Google的BigTable,Amazon的Dynamo)进行存储,方便进行下一步的数据读取。由于传统的数据仓库无法适应大数据的存储要求,目前基于云计算的数据仓库都是采用列式存储。列式存储的数据具有相同的数据类型,可以大大提高数据的压缩率,例如华为的云存储服务MOS(MassiveObjectService)的数据持久性高达99.9%,同时提供高效率的端到端保障。
2.2数据计算模式
这一环节需要根据处理的数据类型和既定目标,选择合适的计算模型处理数据。由于数据量的庞大,会消耗大量的计算资源,因此,传统的计算技术很难使用大数据的环境条件,取而代之的是分而治之的分布式计算模式,具有代表性的几种计算模式的特点见表1。采用批处理方式计算的Hadoop平台,例如,Facebook拥有全球最大规模的Hadoop集群,集群机器目前超过3000台,CPU核心更是超过30000个,可以存储的数据量能够达到惊人的40PB;采用流处理方式计算的Storm平台分布式计算的时延比Hadoop更小;实时处理方式计算的Spark是一种基于内存的计算模式,例如,Yahoo运用Spark技术在广告营销中实时寻找目标用户,目前在Yahoo部署的Spark集群有112台节点和9.2TB内存;交互处理方式计算的Dremel在处理PB级别的数据时耗时可以缩短至秒级,并且无需大量的并发。
2.3数据分析挖掘
数据分析挖掘环节是从海量数据中发现隐藏规律和有价值信息的过程,这个环节是大数据处理流程最为有价值和核心的部分,传统的数据分析方法有机器学习、商业智能等。传统的数据挖掘十大算法[6](其中有K-Means、Na觙veBayes、SVM、EM、Apriori等)在云计算环境下都得到了大幅度的并行优化,在大数据的背景下,计算速度得到了很大程度的提升。现在新兴的深度学习是原始机器学习的一个新领域,动机是在于建立、模拟人脑进行分析学习的神经网络,它模仿人脑的机制来解释数据,这种新的数据分析挖掘技术已经在计算机视觉、语音识别、自然语言处理等领域有了成功的应用。
2.4数据解释展现
将挖掘出来的复杂信息进行数据解释和展现是整个大数据处理流程的最后一个环节,数据分析的结果需要向客户进行恰当的展现。与传统的数据输出和文本展示等方式不同,现在绝大部分的企业都通过引进“数据可视化”技术来展示大数据分析的结果信息,这种方式以图像、动画等方式,形象地向客户展现数据处理分析的结果,也容易被客户理解和接受,更为先进的是,现在逐步形成的“交互式可视化技术”,大大地方便了数据与人之间的“亲密交流”。目前面向大数据主流应用的可视化技术见表2。
3大数据和云计算的未来挑战
大数据需要超大存储容量的计算能力,云计算作为一种新的计算模式,为大数据的应用研究提供了技术支持,大数据和云计算的完美结合,相得益彰,发挥了各自的最大优势,为社会创造了巨大的价值。虽然国内大数据和云计算的研究还是处于初步阶段,但随着研究的不断进行,所面临的问题也越来越多。在大数据向前不断迈进的阶段里,如何让我们对大数据的研究朝着有利于全人类的方向发展成为了重中之重。
3.1重要战略资源
在这个信息社会里,大数据将会成为众多企业甚至是国家层面的重要战略资源。国家层面要将大数据上升为国家战略。奥巴马在2012年3月将“大数据战略”上升为最高国策,像陆权、海权、空权一样,将数据的占有和控制作为重要的国家核心能力。大数据资源也会成为各种机构和企业的重要资产以及提升企业社会竞争力的有力武器。在大数据市场里,客户的各种数据信息都会为企业创造价值,也会在促进消费水平、提高广告效应等方面扮演重要的角色。
3.2数据隐私安全
大数据如果运用得当,可以有效地帮助相关领域做出帮助和决策,但若这些数据被泄露和窃取,随之而来的将是个人信息及财产的安全问题得不到保障。2011年索尼公司遭到黑客攻击,造成一亿份客户资料泄露,经济亏损约1.71亿美元。为了解决大数据的数据隐私安全问题,Roy等在2010年提出了一种隐私保护系统,将信息流控制和差分隐私保护技术融入到云计算平台中,防止MapReduce计算过程中的数据泄露问题。在数据更新飞速的情况下,如何维护数据的隐私安全成为大数据时代研究的重点方向。
3.3智慧城市
人口的增长给城市交通、医疗、建筑等各方面带来了不小的压力,智慧城市就是依靠大数据和云计算技术,实现城市高效的管理、便捷的民生服务、可持续的产业发展。在刚刚结束的“两会”的政府工作报告中,总理也特意强调了智慧城市发展的重要性,目前国家智慧城市试点已遍布全国各地,多达409个。智慧安防、智慧交通、智慧医疗等都是智慧城市应用领域。智慧城市的建设也趋使大数据人才的培养。据预测,到2015年,大数据将会出现约100万的人才缺口,全球将新增440万个与大数据相关的工作岗位来填补这个空缺。
1.1数量大(Volume)。大数据的数据量级已发展至PB(1000T)、EB(100万个T)乃至ZB(10亿个T),可称为海量、巨量乃至超量。
1.2速度快(Velocity)。大数据往往表现为高速实时数据流,时效性非常高。因此对处理工具的要求很苛刻,软件工程、人工智能、机器学习等都应引入。这是区别于传统数据最显著的特征。
1.3多样化(Variety)。数据种类繁多,形式多样。包括各种信息及其网页、图片、音频、视频、图像与位置等存在方式。
1.4价值高(Value)。大数据数量越庞大,价值越高,真实性、可靠性越强。但同时无效信息也越多,需要通过强大的机器算法对数据迅速地“去粗取精”,否则也只能望洋兴叹。
2大数据对科技咨询业发展的影响
2.1拓展业务空间大数据信息对应的是高速实时数据流。这些数据流往往能产生难以想象的作用,其能量也将被层层放大,还有可能在另一个看起来毫不相关的领域得到应用。大数据环境下的科技咨询就将具有全球性、战略性意义,业务范围和服务空间都将得到迅速拓展。科技咨询各相关要素,如科技资源、科技人才、创新需求、创新环境、创新成果等的疆界,将受到大数据浪潮的冲击。同时,落后地区和难以涉猎领域的业务也将在其带动下快速提升。
2.2规范咨询决策大数据将改变科技咨询决策方式,使其进入“数据驱动型”决策模式。因为面对大数据的潜在价值,决策者不仅要使用新的技术,还要改变目前的决策过程,政府也将更有效率、更加开放、更加负责。因为引导政府决策的是基于实证的事实,而不是意识形态,也不是利益集团在政府决策过程中施加的影响。
3大数据环境下科技咨询业发展道路
从上面的分析不难看出,大数据将给科技咨询业带来无限的生机和活力。科技咨询业应抢抓机遇,跨越发展,走规模化、信息化、科学化、现代化的可持续发展道路。
3.1挖掘大数据,促进规模化发展我国科技咨询业规模较小,究其原因,一是咨询市场还没有完全放开,市场主导地位没有显现,资本缺乏信心。二是科技咨询价值没有得到广泛认同,潜在需求得不到释放。三是现有机构没有形成专业分工和自主品牌,无法带来规模效应。然而,在大数据时代,最重要的生产资料———数据将自由地流动起来,推动知识经济和网络经济的发展,传统经济体制机制对科技咨询业的束缚将大大减轻,“得数据者得天下”将成为共识,市场将发挥主导作用,吸引大量资本进入,促使机构快速升级。同时,随着竞争的加剧,咨询质量、咨询价值必将得到提高和认同,潜在的需求必将迸发。
3.2利用大数据,加快信息化进程目前我国科技咨询信息化建设大致经历了计算机初步应用、管理信息系统应用和互联网技术应用三个阶段。随着时代的发展,大数据将掀起新一轮信息化革命。科技咨询业必须充分利用大数据技术,在政府引导下,进一步完善信息化工程,建立基于大数据的科技咨询信息平台,实现在虚拟空间中不同信息资源的快速整合与对接,提高咨询要素使用效率和运行主体工作效率。
3.3凭借大数据,提高科学化水平大数据的客观实在性和真实可靠性并存。对大数据进行深度挖掘,可以提高科技咨询科学化水平。首先,基于大数据,科技咨询信息的真实性有了更大的保障。其次,依据大数据特征,可帮助制定更为科学的咨询战略、方案和计划,同时降低过时咨询、无效咨询的风险。再次,基于大数据,科技咨询具有更强的针对性。咨询师可以深度分析、挖掘最高管理者的知识结构、创业经历、行为习惯等信息,准确把握其管理理念。最后,通过对大数据的分析、挖掘与利用,可最大程度地减少因数据不全而带来的负面作用。
3.4依托大数据,实现现代化转型随着时代的发展,传统的咨询工具、内容、形式、速度、效率等越来越不能满足现代社会发展的需求。依托大数据,可以实现科技咨询向现代化转型。首先,大数据环境促使科技咨询必须运用现代化咨询工具。如,大数据的超大量级迫切要求科技咨询设备现代化、信息数字化。其次,大数据促使科技咨询内容、形式现代化。现代社会工作、生活节奏很快,简洁实用、形式新颖是对科技咨询工作的新要求。形式多样的大数据正好为科技咨询提供了便利。再次,快速、高效是现代化的重要特征,而高速实时的大数据则要求科技咨询处理工具快速演进、高效运行。最后,大数据的基本特征决定了科技咨询必须进行全方位的改革创新,紧跟现代化发展步伐。大、多、真、快、稍纵即逝的大数据要求科技咨询必须借助移动互联、云计算、软件工程、人工智能、机器学习等手段,优化资源配置,建立高智能科技咨询协作平台,向科技咨询现代化迈进。
2分析PDA和全站仪中的数据
2.1串口技术
使用Wicrosoftwindows开发串口系统,进行有以下方式:a.使用windows来进行通信函数.b.windowsAPI对端口进行读写或者开发其它程序,对串口实行操作步骤。C.串口中的组件通信,比如Activek控制MSCcomm。根据以上介绍的几种方法,比如b需要熟悉电路结构,驱动层次比较深,需要有比较强的专业技能,如C方式简便,不能使EmbeddedVisualC++所接受,该程序就是应用windowsAP来进行通信函数。
2.2串口施行步骤
windows的读写文件方式不一样,它主要使用windows结构中的多线程,然后再后台进行串口读写,正常使用程序就要在前台进行。进行改善1/0的速度,使用windows结构中的多线程,可以使用它来进行开发非单一系统,windows不能操作1/0的异常操作,可以使用它来进行操作串口,使用异步的方法,可以提高系统的操作能力。工作效能比较高的串口是事件驱动。应用这种方法有比较高的时实性,主要是针对一些比较广泛的串口,跟查询的方式不一样,不是只对那个串口进行查询。是以中断的形式来进行,一般运行中断时,确定的事件发生变化时,windows系统就会发出信息,才能有针对性的进行处理,确保数据存在。
3开发通信程序
3.1串口通信应用API函数
⑴串口进行打开关闭。在应用程序中用Create-File函数把串口打开,注意事项主要有:A.串口名后面需要加个冒号(:)。B.PDA的串口就是全部已经打开的串口,只含COM1。C.应用的参数定为零,安全没有危险性的参数定为NULL。应用Close-Handle可以把串口关闭。⑵对串口进行配置。串口配置与PDA通信中的参数进行配置一起,这样才能达到通信的效能,因此配置也是比较重要的一个步骤。LPDCB主要是针对DCB结构,DCB结构是对串口的进一步描述,串口的波特率主要是由DCB中的BaudRate来确定,原因是CE对非二进制不能进行输送,所以fBinary要设定为TRUE,ByteSize是指字节在进行发送时接受到的数据。Parity是奇偶校验,StopBits是停止位数,⑶对串口进行读写。串口进行读写时可以使用ReadFile和WriteFile函数实现,主要是串口进行读写时速度不是很快,⑷对串口进行异步读写,CE不能进行操作输入输出的功能,因此只能应用读写进行重复操作。第一,设定串口EV_RXCHAR要用SetCommMask函数来实现,应用WaitCom-mEvent阻拦线程,指直到把事件EV_RX-CHAR设定好,字符要应用回调函数来进行处理,续等发生事件。
3.2隔开水平角、竖直角、距离及进行组合测量
在测量过后,需要测出水平角,偏心的水平角与距离不能合在一起测量,测量时要分开进行,因此应用程序能进行水平角和竖直角及距离分开测量以及组合测量,进行测角时不能仅仅依靠棱镜。所以,可以应用水平角和、竖直角、距离重复选框来进行模拟。针对不一样规模的全站仪,使用的方式也不一样,索佳操作的模式只含有一种规模的全站仪,只需要点击按钮即可,假如选择斜距就进行输送测角距,没有选中斜距进行输送测角距,收到的数据后。在根据模块来分析与选取有针对性的数据,拓扑康是第二种模式,在选中斜距时,还要在斜距中的复选框中进行点击,在进行输送时改变测量距离的模式,进行发送时。进行驱动测量,跟读取指令是一样的。
3.3处理已经接收到的字符串
⑴ASCII编码是已经收到的字符串,可以使用MultiByteToWideChar函数转变成Unicode编码然,在进行处理。⑵测量指令在进行发送出去后,全站仪中的数据不是一次性发完,应该是分层次来进行发送,因此,字符串要直接连接到字符串,才能完成接受任务。⑶字符串的主要任务就是接收完后,要依据复合框进行有效的选择,分析全站仪的字符串,也会显示的很清楚。⑷拓扑康是第二种模式,符串后的任务就是接受,在输送时显示清楚。相反,就会把全站仪输送数据全部给PDA,造成不良后果。
4应用在实际生活中
VC++2005smartdevice的MFCsmartdeviceApplication,PDA与全站仪中的通信主要依靠多线程来完成,使他们能够稳定运行。根据太原市在进行测绘进行探索指出,外业进行采集时,效果是良好的。全站仪中的数据直接读取,防止在读、记方面存在有误差。不过,对存在有误差的数据要自动检查,防止2C差、差互差、2C互差的影响产生误差,而不能及时的进行检查,而导致返工现象的发生,工作效率的提高,PDA储存的文件就是测量的结果,外业任务完成之后把所得出的结果直接输入到PC,经过对程序的进一步分析,能直接评估精准度及计算坐标,不使用人工来进行操作,从一定程度上减少了工作人员的工作量,也能减少造成不要的麻烦,有效的提高工作效率。
(1)学生的计算机应用能力差异大
高等院校的学生来自全国各地,而不同地区的中小学计算机教育水平参差不齐。单一的课堂教学已无法保证所有的学生学得会、学得好,这给教学带来了问题。
(2)教学和实验的学时严重不足
目前,各个高校都在减少课时,教师只能在课堂上和实验中加大讲授的知识量,加快教学进度。当一个教师面对几十个学生时,基础较差的学生往往得不到教师足够的指导和练习时间,这给辅导答疑带来了问题。
(3)学习的结果与过程未被记录下来
学生可以利用丰富的网络资源巩固课堂内容,扩大知识面,加深对知识的理解。在传统教学中,教师往往忽视了学生的课后学习,没有记录学习结果与过程,这给教育过程的改进带来了问题。
(4)目前的网络教学系统很少区分学习个体
网络教学系统能够提供大量的多媒体教学资源,帮助教师进行课后辅导答疑,却很少区分学习个体,导致缺乏个体相关的数据,从而难以提供个性化的指导,这给网络教学系统的智能化带来了问题。这些问题归根结底是数据的问题,是数据没有被有效地规划和整合的问题。我们把与学习过程相关的大量数据收集起来,对这些数据进行分析,挖掘出有价值的信息,最后传递给学习者,这是一种解决计算机基础教育所面临问题的可行方法。
2面向计算机基础教育的大数据
在当前知识大爆炸的时代,人们获取知识的途径不仅仅局限于课堂,更多的是网络资源。当代的大学生接受新生事物更快,更愿意在特定的学习情境下去主动构建知识。因此,大学计算机基础教育需要改革现有的教育模式,将大数据技术融入到大学计算机基础教育中,建立与时俱进的大数据驱动的教育模式可以有效解决上述问题。在大数据时代涌现出大量的网络教学系统,随着这些网络教学系统的推广和普遍应用,使用者数量急剧增加,产生了大量的数据。数据之间可能存在某种联系,对这些联系进行分析和挖掘可能会找到有价值的信息。将有价值的信息展现出来,能够帮助我们做出正确的决策。在人类社会的发展已经由动力驱动转变为数据驱动的背景下,教育正在发生着一场新的变革,大学计算机基础教育也面临着类似的机遇和挑战。通过网络教学系统,可以更加方便地获取和利用大学计算机基础教育相关的各种数据
。大学计算机基础教育涉及的数据主要有以下几种:
(1)课件。课件是文字、声音、图像、动画等素材的集合,帮助教师更加生动地讲解课程内容,主要使用PPT和Flash两种文件。
(2)视频。视频是将教师在课堂上的授课内容录制下来,为学生提供课后学习的方式。学生可以在教学系统中下载或在线学习视频内容。
(3)题目。题目主要用于测试学习效果,包括判断题、填空题、选择题、问答题、程序设计题等各种题型。
(4)问题。学生在学习过程中遇到的问题,通过教学系统提交给教师。这些问题反映了学习的难点,是教师在课堂上需要详细讲解的教学内容。
(5)代码。代码是学生做程序设计类题目时所编写的程序代码。学生编写代码的质量可以由教师评判,也可以由系统自动评判。
(6)行为。行为用来记录学生的学习活动,如课件下载行为、视频点播行为、作业浏览行为、编程行为等。这些行为能够反映出学生的学习情况。
(7)缺陷。缺陷是学生提交的作业中包含的各种错误,反映了学习过程中存在的问题。对教学系统而言,这些数据是进行个性化推荐学习的参考依据;对教师而言,这些数据能够提示教学过程中需要特别关注的地方。
(8)过程。过程是指在教学过程中收集到的一些宏观数据,如课件学习过程、视频学习过程、测试过程等。这些过程能够反映出学生学习的个体差异。
3大数据驱动的新模式
在大数据时代,我们可以利用大数据技术在大量与学习相关的数据中挖掘出有价值的信息。这些信息能够帮助学生更加科学有效地学习,较好地解决当前计算机基础教育面临的问题。因此,我们将大数据技术融入到大学计算机基础教育中,提出一种大数据驱动的计算机基础教育新模式。它是在有效规划和整合计算机基础教育大数据的前提下,为学生提供各种自主学习资源和服务的新模式。学生和教师在使用各种网络教学系统时,输入的数据和学习行为都被系统记录下来。利用大数据技术对记录下来的数据进行分析,挖掘出与学生学习特征相关的数据。这些数据为学生的后续学习提供个性化的推荐,规划个性化的学习路线;向教师反馈学生的学习行为和效果,为后续教学提供个性化的推荐,帮助教师改进教学方法。以在线课程系统、在线编程系统和在线答疑系统为代表的各种网络教学系统目前得到了广泛的应用,这些系统本质上都是大数据驱动。实践证明,这些系统的应用将为学生学习和教师教学提供实质性的帮助。
1)在线课程系统是课堂教学的延伸
大型开放式网络课程MOOC是国际上流行的教学平台。自2013年5月以来,北京大学、清华大学、复旦大学、上海交通大学等国内一流高校纷纷宣布加入MOOC,向全球提供免费的在线课程。MOOC采用云计算架构,提供大量的视频学习资源和人机交互功能。学生提交作业后,系统能自动评判作业的质量,以评估学习效果。MOOC的出现给计算机基础教育带来巨大影响。MOOC解决了学生计算机应用能力差异大的问题,学生不管基础如何,都能找到与之相应的学习内容;MOOC弥补了课堂教学学时不足的问题,学生能在课后随时随地找到学习资源;MOOC能够记录学习的结果与过程以及作业中的错误等,这些对于改进教学方式和调整教学重点等都有意义。
2)在线编程系统是实验环节的补充
随着SaaS技术(软件即服务)的不断成熟,出现了许多功能强大的在线编程系统。这给大学计算机基础教育中的程序设计类课程的实验教学
带来了巨大的帮助。使用在线编程系统进行实验的好处有以下几点:
(1)教师不用在实验室的每台计算机中安装软件,学生通过浏览器就可以编写程序;
(2)学生编写的代码都存储在云端,能上网的地方就能练习编程,并且随时可以修改代码,解决了实验教学学时不足的问题;
(3)在线编程系统主要记录代码和代码编写的过程,能够收集实验过程中与学习相关的数据。国外在线编程系统CodeCademy提供了一种学习编程的新方式。它的用户群是零基础的学习者,所以CodeCademy创设趣味性的学习环境,手把手帮助学习者了解编程的过程。它的在线编辑器能让学习者不用寻找、下载和安装编程环境就可以在网络上编程。在线编程系统不仅为实验教学提供了方便的实验环境,还能收集大量的程序代码和学生的编程行为,有助于分析学生的学习特点与习惯,区分学习个体,为制订个性化学习路线提供有价值的数据。
3)在线答疑系统是课后辅导的平台
学生在学习过程中常常会遇到很多问题,这些问题如果能及时得到解答,就能促进学生更深入地学习;反之,就会影响学生的学习效果和积极性。目前,互联网上已经出现了许多人工解答和自动解答的系统。有代表性的是上海交通大学的远程教育设计中心设计开发的AnswerWeb自动答疑系统,它是一个动态的问题及答案的数据库。学生输入关键词后可以在系统已有的问题和答案数据库中查找相关的材料。如果没有找到答案,则会自动转发给教师请求帮助解答。随后,新的提问和答案将被增加到系统库中。系统会记录所有的问题和答案以及学生提问过程中的行为。在线答疑系统应用到大学计算机基础教育中,解决了教师无法在课后对每位学生进行辅导答疑的问题。同时,利用大数据技术,答疑系统将学生提问和获得解答的行为记录下来,自动的分析这些数据,挖掘学习个体特征,为学生的后续学习提供个性化的推荐。