时间:2022-02-12 14:49:18
引言:寻求写作上的突破?我们特意为您精选了12篇数据挖掘技术论文范文,希望这些范文能够成为您写作时的参考,帮助您的文章更加丰富和深入。
二、使用Weka进行关联挖掘
Weka的全名是怀卡托智能分析环境(WaikatoEnviron-mentforKnowledgeAnalysis),是一款免费的、非商业化的、基于JAVA环境下开源的机器学习以及数据挖掘软件[2]。它包含了许多数据挖掘的算法,是目前最完备的数据挖掘软件之一。Weka软件提供了Explorer、Experimenter、Knowledge-Flow、SimpleCLI四种模块[2]。其中Explorer是用来探索数据环境的,Experimenter是对各种实验计划进行数据测试,KnowledgeFlow和Explorer类似,但该模块通过其特殊的接口可以让使用者通过拖动的形式去创建实验方案,Simple-CLI为简单的命令行界面。以下数据挖掘任务主要用Ex-plorer模块来进行。
(一)数据预处理
数据挖掘所需要的所有数据可以由系统排序模块生成并进行下载。这里我们下载近两年的教师科研信息。为了使论文总分、学术著作总分、科研获奖总分、科研立项总分、科研总得分更有利于数据挖掘计算,在这里我们将以上得分分别确定分类属性值。
(二)数据载入
点击Explorer进入后有四种载入数据的方式,这里采用第一种Openfile形式。由于Weka所支持的标准数据格式为ARFF,我们将处理好的xls格式另存为csv,在weka中找到这个文件并重新保存为arff文件格式来实现数据的载入。由于所载入的数据噪声比较多,这里应根据数据挖掘任务对数据表中与本次数据任务不相关的属性进行移除,只将学历、职称、论文等级、学术著作等级、科研获奖等级、科研立项等级、科研总分等级留下。
(三)关联挖掘与结果分析
WeakExplorer界面中提供了数据挖掘多种算法,在这里我们选择“Associate”标签下的Apriori算法。之后将“lowerBoundMinSupprot”(最小支持度)参数值设为0.1,将“upperBoundMinSupprot”(最大支持度)参数值设为1,在“metiricType”的参数值选项中选择lift选项,将“minMetric”参数值设为1.1,将“numRules”(数据集数)参数值设为10,其它选项保存默认值,这样就可以挖掘出支持度在10%到100%之间并且lift值超过1.1且排名前10名的关联规则。其挖掘参数信息和关联挖掘的部分结果。
三、挖掘结果与应用
以上是针对教师基本情况和科研各项总分进行的反复的数据挖掘工作,从挖掘结果中找到最佳模式进行汇总。以下列出了几项作为参考的关联数据挖掘结果。
1、科研立项得分与论文、科研总得分关联度高,即科研立项为A级的论文也一定是A。这与实际也是相符的,因为科研立项得A的教师应该是主持了省级或是国家级的立项的同时也参与了其他教师的科研立项,在课题研究的过程中一定会有国家级论文或者省级论文进行发表来支撑立项,所以这类教师的论文得分也会很高。针对这样的结果,在今后的科研工作中,科研处要鼓励和帮助教师搞科研,为教师的科研工作提供精神上的支持和物质上的帮助,这样在很大程度上能够带动整个学校科研工作的进展。
2、数据挖掘技术主要步骤
数据挖掘技术首先要建立数据仓库,要根据实际情况而定,在易出现问题的有关领域建立有效的数据库。主要是用来把数据库中的所有的存储数据进行分析,而目前的一些数据库虽然可以进行大量的存储数据,同时也进行了一系列的技术发展。比如,系统中的在线分析处理,主要是为用户查询,但是却没有查询结果的分析能力,而查询的结果仍旧由人工进行操作,依赖于对手工方式进行数据测试并建模。其次,在数据库中存储的数据选一数据集,作为对数据挖掘算法原始输入。此数据集所涉及到数据的时变性以及统一性等情况。然后,再进行数据的预处理,在处理中主要对一些缺损数据进行补齐,并消除噪声,此外还应对数据进行标准化的处理。随后,再对数据进行降维和变换。如果数据的维数比较高,还应找出维分量高的数据,对高维数数据空间能够容易转化为检点的低维数数据空间进行处理。下一步骤就是确定任务,要根据现实的需要,对数据挖掘目标进行确定,并建立预测性的模型、数据的摘要等。随后再决定数据挖掘的算法,这一步骤中,主要是对当前的数据类型选择有效的处理方法,此过程非常重要,在所有数据挖掘技术中起到较大作用。随后再对数据挖掘进行具体的处理和结果检验,在处理过程中,要按照不同的目的,选择不同的算法,是运用决策树还是分类等的算法,是运用聚类算法还是使用回归算法,都要认真处理,得出科学的结论。在数据挖掘结果检验时,要注意几个问题,要充分利用结论对照其他的信息进行校核,可对图表等一些直观的信息和手段进行辅助分析,使结论能够更加科学合理。需要注意的是要根据用户来决定结论有用的程度。最后一项步骤是把所得出的结论进行应用到实际,要对数据挖掘的结果进行仔细的校验,重点是解决好以前的观点和看法有无差错,使目前的结论和原先看法的矛盾有效解除。
3、数据挖掘技术的方法以及在电力营销系统中的应用和发展
数控挖掘技术得到了非常广泛的应用,按照技术本身的发展出现了较多方法。例如,建立预测性建模方法,也就是对历史数据进行分析并归纳总结,从而建立成预测性模型。根据此模型以及当前的其他数据进行推断相关联的数据。如果推断的对象属于连续型的变量,那么此类的推断问题可属回归问题。根据历史数据来进行分析和检测,再做出科学的架设和推定。在常用的回归算法以及非线性变换进行有效的结合,能够使许多问题得到解决。电力营销系统中的数据挖掘技术应用中关联规则是最为关键的技术应用之一。这种应用可以有效地帮助决策人员进行当前有关数据以及历史数据的规律分析,最后预测出未来情况。把关联规则成功引入电力营销分析,通过FP-Growth算法对电力营销的有关数据进行关联规则分析,从中得出各种电量销售的影响因素以及外部因素、手电水平等的关联信息,以便更好地为电力的市场营销策略提供参谋和决策。对电力营销系统的应用中,时间序列挖掘以及序列挖掘非常经典、系统,是应用最为广泛的一种预测方法。这种方法的应用中,对神经网络的研究非常之多。因此,在现实中应用主要把时间序列挖掘以及神经网络两者进行有效地结合,然后再分析有关电力营销数据。此外,有关专家还提出应用一种时间窗的序列挖掘算法,这种方式可以进行有效地报警处理,使电力系统中的故障能够准确的定位并诊断事故。此算法对电力系统的分析和挖掘能力的提高非常有效,还可判定电力系统的运行是否稳定,对错误模型的分析精度达到一定的精确度。
当今,国内外电子商务类网站日益兴起。许多电子商务类网站都提供了一定程度的个性化服务,比如提供商品推荐服务。而构成这些个性化服务的基础就是数据挖掘技术。
一、数据挖掘分析
1.数据挖掘的定义。数据挖掘(datamining,DM)是从大量的、不完全的、有噪声的、模糊的、随机的数据中提取隐含在其中的、人们事先不知道的但又是潜在有用的信息和知识的过程。包括存储和处理数据,选择处理大数据集的算法、解释结果、使结果可视化。
2.数据挖掘的方法。从商业的角度来看,数据挖掘是一种新的商业信息处理技术,其主要特点是对商业数据库中的大量业务数据进行抽取、转换、分析和其他模型化处理,从中提取辅助商业决策的关键性数据。数据挖掘的方法大致可以分成4类:关联分析、概括分析、分类分析、聚类分析。(1)关联分析:分析表面上不相关数据之间的内在联系,揭示各事之间的依赖性和相关性,分析范围包括简单关联、因果关联等。在电子商务中,用数据挖掘找到隐藏的关联规则,当客户浏览、搜索关联规则中的某种商品时,就可以在页面中以推荐商品的形式显示关联规则中的其它商品。在进货计划和促销计划中,也可以将这个因素考虑进去。(2)概括分析:即提取数据库中指定的数据集合的一般特性,找出遍性规律。(3)分类分析:设置分类规则,把各个事务或实体按照性质和特征不同进行归类,把数据层次化和规整化,从而建立数据的分类模型。(4)聚类分析:通过分析和归纳实体之间的特征差异,选出具相识特征的实体聚合成为一个类,并用某种规则来描述该类的相同属性,形成一种聚类规则,实际上,它是与分类分析法互逆的过程。
3.数据挖掘的过程。该过程从大型数据库中挖掘先前未知的、有效的、可实用的信息,并使用这些信息做出决策或丰富知识。(1)确定业务对象:清晰地定义出业务问题,认清数据挖掘的目的是数据挖掘的重要一步。挖掘的最后结构是不可预测的,但要探索的问题应是有预见的,为了数据挖掘而数据挖掘则带有盲目性,是不会成功的。(2)数据准备。数据的选择:搜索所有与业务对象有关的内部和外部数据信息,并从中选择出适用于数据挖掘应用的数据。(3)数据挖掘:对所得到的经过转换的数据进行挖掘。除了完善从选择合适的挖掘算法外,其余一切工作都能自动地完成。(4)结果分析:解释并评估结果。其使用的分析方法一般应作数据挖掘操作而定,通常会用到可视化技术。(5)知识的同化:将分析所得到的知识集成到业务信息系统的组织结构中去。
二、数据挖掘与电子商务的关系
在电子商务企业中,数据挖掘运用于客户行为分析,企业从中受益体现在以下四个方面:(1)可以发现客户和访问者的爱好、生活模式。(2)可以争取新顾客,怎样使产品适销对路、怎样给产品定价、怎样吸引单个客户、怎样优化Web网站。(3)可以用相应的信息确定顾客的消费周期,针对不同的产品制定相应的营销策略。(4)可以确定客户细分,为每一个客户的独特需求设计“量身定制”的产品。三、数据挖掘技术在电子商务中的应用
1.面向电子商务的数据挖掘系统设计。本系统电子商务平台采用基于三层体系结构构建,服务器端采用先进的J2EE平台构架,有完整的体系框架组成,具有很好的可扩展性、互联性和可维护性。因此面向电子商务的数据挖掘系统由数据库服务器、应用服务器和客户端三层组成,整个体系结构是以J2EE企业级的构建技术为基础。对数据挖掘过程中产生的数据,采用独立的数据挖掘库表存放,这样既不影响也不依赖数据挖掘的数据源。应用服务器完成所有的数据挖掘运算,通过接受客户端的设置,完成所有对数据进行探索、转换、挖掘的工作。数据挖掘系统的每个功能模块都以EJB的形式进行封装,以实现分布式计算和负载平衡等分布式计算的要求,把具有繁重计算任务的模块和用户交互模块分开。客户端要负责数据挖掘流程的创建工作、所有功能模块参数的设定以及各种可视化结果的显示。用户可以根据自己的要求任意创建各种形式的挖掘流程,同时按照需要执行某部分流程,获取相应的可视化分析结果,其系统体系结构如图所示。
面向电子商务的数据挖掘系统体系结构图
2.面向电子商务的数据挖掘系统功能设计。面向电子商务的数据挖掘系统主要以下几大功能模块:(1)用户信息分析。运用分类和聚类挖掘方法对用户的信息分析,可以得到用户的些特征。对用户分类相当于对具有某些公共属性的用户群体建立了概要特征描述,这些特征可以用来对新增的用户进行分类,可以发现未来的潜在用户并开展有针对性的商务活动,如自动给一类特定的用户发送销售邮件,当属于同一类的用户再次访问站点时为其动态地改变站点的内容等。通过这些举措使商务活动能够在一定程度上满足用户的要求,实现目标营销。(2)商品信息分析。运用关联规则挖掘发现商品访问中所有关联和相联系的规则,可以从交易事务数据库中发现商品间的相互联系。这对电子商务公司组织站点网页结构、开展有效的营销策略非常有帮助。(3)物流信息分析。采用神经网络预测技术,根据各物流配送点接到的网站用户订单来预测其库存数量。预测信息可以给物流配送中心以参考,用来合理地确定各配送点仓库的库存量,使各配送点的补货能更加合理有序,降低物流成本,节约库存费用。
四、结束语
数据挖掘是一个新兴的领域,具有广阔应用前景,目前,电子商务在我国正处于快速发展和应用阶段,利用数据挖掘技术,能够强化对客户的服务、促进市场最优化、加速资金周转、实现企业的创新发展。电子商务平台上的数据挖掘技术有待人们去进行更深入的研究工作,这将不断的推动数据挖掘技术的深入发展和广泛应用,创造出更多的社会和经济价值。
参考文献:
[1]张云涛龚铃:数据挖掘原理与技术.北京,电子工业出版社,2004年1月
2数据挖掘实现过程
通常,数据挖掘过程包括4个步骤,即选择数据、预处理、实施挖掘以及吸收数据。数据挖掘整个过程具有交互性,有时数据需要重新选择,有时也要对数据预处理进行改进,也可能出现算法反复被调整现象,基于这种特征,数据挖掘时要设置反馈环。挖掘数据第1步是将管理和目标反映到1个(或多个)挖掘任务中,整个过程可主要划分成为六种:1)评估、预测。评估包括对软件产品、过程以及资源的属性进行相应检查就是整个评估过程,同时也需要根据这些属性,赋值给未知属性,当然这些未知属性需要进行量化。评估工作完成后,要对属性值进行预测。2)分类。检查1个特定实体属性,根据结果将其划分到另1个类别或范畴(事先定义好)中。3)关联发现。关联发现能够识别出特定内容中互相存在关联某些属性。如,可将找出在软件开发属性和产品属性相互关联的内容找出来。4)聚类。将1个结构不相同的群体划分到另1个具有相同结构的子群集合中,这个过程叫做聚类,它的划分依据是成员之间具有高度相似性。5)数据可视化。数据可视化是利用可视化描述方法来定义复杂信息。6)可视数据探察。可视化数据探察是对描述工作的相应拓展,可利用数据可视化交互控制来分析和检视海量数据[3]。它应用具有可视化功能和数据挖掘技术来对数据进行处理。
3挖掘技术在软件工程中应用
上文提及到软件工程度量,部分可利用信息已在海量数据中被提取出来,但普遍认为更为有效且数量众多的数据依然在软件工程相关数据库中隐藏,而没有被发现。实际上,数据挖掘就是1种被公认为提升软件工程度量的技术。图1为数据挖掘在软件工程中的应用。
3.1数据挖掘繁荣原因1)计算机硬件系统和软件系统的基础设施建立具备发现驱动、分析数据等功能;2)每种技术都在实际应用中不断得到改进,其使用能力不断提升。如,模式识别、神经网络等有明显进步趋势;3)数据存储、贮藏、集成成本不高,海量数据可轻松获得。数据挖掘技术被人们认识,并在实践中逐渐被重视,同时也给研究和进一步提高数据挖掘技术提供了便利条件。
3.2面临挑战软件工程自身存在很多数据上的特殊性,给数据挖掘领域研究工作带来制约和影响,主要表现在以下三个方面:1)数据复杂。软件工程数据主要分为两个组成部分,即结构化数据、非结构化数据。结构化数据主要包括缺陷报告、版本信息等内容,而非结构化数据则包含数据代码、相应注释以及文档等内容。结构化数据、非结构化数据并不能同时适用一种算法,而且两种数据间还存在对应联系。如,1个缺陷报告中往往包括缺陷代码段。而结构化数据里常常涵盖部分非结构化信息,非结构化数据中亦是如此,这也是今后工作中需要重点解决的问题之一。2)非传统分析存在局限。数据挖掘最终想实现的目标就是将转化而来的信息传达给用户,实现信息共享。传统数据挖掘技术在使用过程中,信息手段比较单一,如文字、图表等表达形式。其实,软件开发商对信息的要求很高,1个统计结果根本不能满足其工作需求。为促进软件开发不断向上发展,开发人员需要相关信息作为参考依据,包括开发实际案例、编程所需模板、系统缺陷定位以及软件结构设计等。研究数据挖掘技术,提升其实际使用功能,需要不断提交新信息、新知识,并改进相应手方法。3)挖掘结果评价标准不够具体。软件工程数据挖掘尚未形成完善的结果表示体系,其评价体系也有待加强。人员在软件开发过程中需要大量信心,这些信息非常具体且复杂,表示方法不尽相同,互相之间难以做出对比,也很难用定量方法去分析挖掘结果。
中图分类号:TP391 文献标识码:A 文章编号:1009-3044(2012)30-7150-04
随着数字信息化社会的飞速发展,计算机技术和数据库管理系统被广泛应用于科学探索、商业、金融业、电子商务、企业生产等各种行业,已逐渐发展成为一种智能管理过程。数据挖掘作为一种新兴的数据分析技术,它的研究成果取得了令人瞩目的成就[1]。利用数据库技术,通过对教务管理的大量数据进行多层次、多维度的加工处理,从而实现人性化管理,为科学决策提供支持。
毕业论文在教学体系中占有十分重要的位置,是本科生培养计划中衡量教学质量的重要指标。提高毕业论文教学质量是一项系统工程,为研究在当前的教学条件下如何提高毕业论文教学质量,本文采用数据挖掘技术对影响毕业论文成绩管理的多方面因素进行了深入分析和挖掘,以期发现对学校毕业论文教学管理有用的知识,将这些知识应用于本科学生毕业论文教学实践中,为学校管理者提供有用的信息,进而获得更好的管理效益,为学校未来的发展提供更广阔的空间,发挥重要的作用。
1 数据挖掘简介
数据挖掘(Data Mining),又称数据库中的知识发现(Knowledge discovery in Database. KDD)[2],是通过分析每一个具体数据,从大量的、有噪声的、模糊的、随机的海量数据中寻找其规律的技术,它是数据库研究中的一个很有应用价值的新领域。
1.1 数据挖掘的定义
H包含如下功能:
综上所述,数据挖掘具有三大特点:其一是处理大型数据;其二应用数据挖掘的目的是发现未知的、有意义的模式或规律;其三是一个对大量数据处理的过程,有特定的步骤[3]。
1.2 数据挖掘的主要方法
数据挖掘是一个多学科交叉领域,它由人工智能、机器学习的方法起步,并与统计分析方法、模糊数学和可视化技术相融合,以数据库为研究对象,围绕面对应用,为决策者提供服务。
数据挖掘的方法主要可分为六大类:统计分析方法、归纳学习方法、仿生物技术、可视化技术、聚类方法和模糊数学方法。归纳学习法是目前重点研究的方向,本文根据给定的训练样本数据集,采用归纳学习法中的决策树技术构造分类模型,将事例分类成不同的类别。
2 决策树算法基本理论
2.1 决策树方法介绍
决策树[4]方法是以事例学习为基础的归纳推算法,着眼于从一组无序的,无规则的事例中推断出类似条件下会得到什么值这类规则的方法,它是一种逼近离散值函数的方法,也可以看作一个布尔函数[5]。决策树归纳方法是目前许多数据挖掘商用系统的基础,可以应用于分析数据,同样也可以用来作预测。建模过程中,即树的生长过程是不断的把数据进行切分,采用“自顶向下,分而治之”的方法将问题的搜索空间划分为若干个互不交叉的子集,通常用来形成分类器和预测模型。如图1所示,为决策树的示意图。
决策树一种类似流程图的树形结构,是一种知识的表现形式。为了对未知样本进行分类,生成具体的分类规则,信息样本的各个属性值要在决策树上进行测试。主要分为两个阶段:在第一阶段中生成树。决策树最上面的节点为根节点,是整个决策树的开始,然后递归的进行数据分区,每次切分对应一个问题,也对应着一个节点;在第二阶段中对树进行修剪,此过程中去掉一些可能是噪音或异常的数据,防止决策树的过匹配,进而保证生成决策树的有效性和合理性。当一个节点中的所有数据都属于同一类别,或者没有属性可以再用于数据进行分割时,分割工作停止。具体的工作流程如图2所示。
2.2 C4.5算法
1986年Ross Quinlan首次提出了ID3决策树算法,它是最早的决策树算法之一。ID3算法运用信息熵理论,选择当前样本中具有信息增益值的属性作为测试属性,对样本的划分则依据测试属性的取值[6]。C4.5算法是在ID3算法基础上发展起来的,它继承了ID3算法的全部优点,并增加了新的功能改进了ID3算法中的不足,可以进行连续值属性处理并处理未知值的训练样本。在应用单机的决策树算法中,C4.5算法不仅分类准确而且执行速度快。
C4.5通过两个步骤来建立决策树:第一阶段树的生成,第二阶段树的剪枝。C4.5算法采用信息增益率来记录字段不同取值的选择,首先计算各个属性的信息增益率,寻找到规则信息的优劣,选出信息增益率最大的属性作为结点,自顶向下生成决策树。C4.5算法构造决策树的基本策略如下:
首先计算出给定样本所需的期望信息,设S为一个包含s个数据样本的集合,对于类别属性,可以取m个不同取值,分别对应于m个不同的类别[Ci(i∈1,2,...,m)]。假设类别[Ci]中的样本个数为[si],期望信息为:
其中,[Pi]是任意样本属于[Ci]的概率,并用[sis]估计。
接着,计算当前样本集合所需用的信息熵,设一个属性A具有n个不同的值[(a1,a2,...an)],利用属性A可以将集合S划分为n个子集[S1,S2,...Sn],其中[Sj]包含了S集合中属性A取[aj]值的样本数据。如果属性A被选作测试属性,设[Sij]为[Sj]中属于[Ci]类别的样本集,根据A划分计算的熵为:
然后利用属性A对当前分支结点进行相应样本集合划分计算信息增益:
最后,求信息增益率,表达式为:
C4.5算法的伪代码如下:
输入:训练样本Samples;目标属性Target—attribute;候选属性的集合Attributes
输出:一棵决策树
1)创建根节点root;
2)If Samples都在同一类C Then;
3)返回label=类C的单结点树root;
4)If Attributes为空Then;
5)返回单结点树root,[label=Samples]中最普遍的Target-Atribute值;
6)Else;
7)For each测试属性列表Attributes中的属性;
8)IF测试属性是连续的Then;
9)对测试属性进行离散化处理,找出使其信息增益比率最大的分割阈值;
10)Else;
11)计算测试属性的信息增益比率;
20)添加子树Generate Tree C4.5;
21)对已建立的决策树计算每个结点的分类错误,进行剪枝,并返回根结点Root。
3 毕业论文成绩管理系统的设计和实现
利用数据挖掘技术对学生的成绩数据进行提炼,所产生的结果和信息会对以后的教学管理工作提供有用的信息,进而获得更好的管理效益。解决问题的重点在于怎样对学生的毕业论文成绩进行全面且深度的分析,从而挖掘出成绩与其他因素之间隐藏的内在联系。本文采用决策树技术挖掘信息时,主要操作步骤如下:
1)确定挖掘来源:清晰地定义挖掘对象,明确挖掘目标是数据挖掘所有工作中重要的一步。本文中应用于挖掘的数据信息是毕业生的毕业论文成绩,旨在通过对大量成绩数据进行各层次的挖掘,全面了解具体影响学生毕业论文成绩的各方面因素,正确的针对问题拟定分析过程。
2)获取相关知识:数据是挖掘知识最原始的资料,根据确定的数据分析对象,抽象出数据分析中所需要的特征信息模型。领域问题的数据收集完成之后,与目标信息相关的属性也随之确定。这些数据有些是可以直接获得的,有些则需要对学生进行调查才能的得到。
3)数据预处理:此过程中是对已收集的大量数据进行整合与检查。因为存放在数据库中的数据一般是不完整的、不一致的,通常还含有噪声的存在。因此就需要对数据库中数据进行清理、整理和归并,以提高挖掘过程的精度和性能。
4)数据转换:对预处理后的数据建立分析模型,对于特定的任务,需要选择合适的算法来建立一个准确的适合挖掘算法的分析模型。本文采用决策树技术进行分类建模来解决相应的问题。
5)分类挖掘知识和信息:此阶段的工作目的是根据系统最终要实现的功能和任务来确定挖掘的分类模型。选择合适的数据挖掘技术及算法,并采用恰当的程序设计语言来实现该算法,对净化和转换过得数据训练集进行挖掘,获得有价值的分析信息。
6)知识表示:将数据挖掘得到的分析信息进一步的解释和评价,生成可用的、正确的、可理解的分类规则呈现给管理者,应用于实践。
7)知识应用:将分析得到的规则应用到教学管理中,教师可以利用所得到的知识针对性的开展毕业设计的教学活动,进一步指导教学工作,提高教学水平和学生的毕业论文质量。
4 结论
最终发现影响学生毕业论文成绩主要的因素不是指导教师的职称,学生的基础及感兴趣程度,而是指导教师的学历高低。根据具体分类规则的结论,学校教学管理工作应加重对教师的素质及能力培养,合理的分配每个教师的毕业论文指导工作,不仅能够有效的完成毕业课题指导工作,更有助于学生整体论文质量的提高。
在高校教学数字化的时代趋势下,利用数据挖掘技术来挖掘提取教学工作中的全面而有价值信息,可以为教育管理者的教学工作提供有效的参考信息,改进教学管理方法,提高教学质量和学生的综合素质,是高校保持良好的可持续发展的有力工具。
参考文献:
[1] 刘玉文.数据挖掘在高校招生中的研究与应用[D].上海:上海师范大学,2008.
[2] 魏萍萍,王翠茹,王保义,张振兴.数据挖掘技术及其在高校教学系统中的应用[J].计算机工程,2003.29(11):87-89.
[3] 刘林东. Web挖掘在考试系统中的应用[J].计算机应用研究,2005(2):150-154.
云计算是并行计算和分布计算以及网格计算的发展,是一种在海量数据大规模的集合中能动态处理各种服务器数据资源的一类计算平台,在电子商务、商业金融、科研开发等领域能得到广泛的应用。它具有大规模、虚拟化、高效率、通用性、廉价等特点,能针对不同的用户的不同需求,动态透明地提供其所需的虚拟化计算和资源储存,并能及时动态回收当前用户暂不利用的数据资源以提供给其他用户,而其廉价、通用的特点,使得一般用户实现大规模的数据操作成为可能。目前来说,云计算的平台已得到良好的发展,日益成熟,基于云计算的应用已经可以相当方便的部署和操作其数据资源。
1.2数据挖掘
数据挖掘技术是现代知识发现领域的一个重要技术,它是指一个从随机的大量而不完整的模糊的实际数据中提取其中某些隐含着的具有潜在价值的实用知识与信息的过程。其具体技术有特征化、聚类、关联和预测分析等等,涉及到的高级技术领域有统计学、机器学习、模式识别、人工智能等方面。
2基于云计算的数据挖掘平台构架
网络云的发展给数据挖掘提出了新的问题和时代的挑战,同时,也为数据挖掘提供了新的计算平台和发展机遇。基于云计算的数据挖掘系统平台的发现,解决了传统的数据挖掘技术出现的时代滞慢、效率较低、功能落后、成本高昂等问题。云计算是一种商业计算模式,是网格计算与并行计算及分布式计算在一定程度上的商业实现,其动态、可伸缩的计算基于云计算的数据挖掘平台架构及其关键技术探讨文/张瑶刘辉云计算是一种在互联网时代中应运而生的新兴的网络技术,具有高效率、高容量、动态处理的特点,在社会的商业领域和科研领域表现出了其相当高的应用价值。将云计算应用于数据挖掘平台的构架之中后,将能在很大程度上为现代社会中越来越海量的数据挖掘提供一个高效率的技术平台。本文将结合云计算和数据挖掘的基本概念和现代意义,对数据挖掘的平台构架和相应的关键技术做出简要的分析探讨。摘要能力使得进行高效的海量数据挖掘的目标不再遥远。同时,云计算SaaS功能日益被理解和标准化,使得基于云计算SaaS化的数据挖掘有了理论和技术的指导,并具有了企业化与大众化的发展趋势。
2.1数据挖掘平台构架
建立在关系型数据库之上的传统的数据挖掘技术构架在现时代数据急剧膨胀和分析需求渐增的发展下已经难以应付社会的数据处理问题。而云计算的分布式存储与计算形式则接受了当代的数据挖掘难题,促成了适应时代的云计算数据挖掘平台构架的形成。其包含了面向组件的设计理念和分层设计的思想方法。其构架自下向上总共分为3层,分别为底层的云计算支撑平台层、中间的数据挖掘能力层和上层的数据挖掘云服务层。
2.2基于云计算的数据挖掘平台构架各层意义
云计算支撑平台层:顾名思义,该平台层是云计算数据挖掘平台的基础处理平台,其主要具有的功能是对分布式文件存储与数据库提供资源存储,以及实行对数据的有关处理和计算功能。数据挖掘能力层:该平台结构层主要是提供挖掘的基础能力,是数据挖掘的核心支撑平台,并对数据挖掘云服务层提供能力支撑。该平台层包含了算法数据并行处理、调度引起和服务管理的框架,该平台层可以提供系统内部的数据挖掘处理和推荐算法库,亦支持第三方的数据挖掘算法工具的进入。数据挖掘云服务层:数据挖掘云服务层的主要功能是对外提供数据挖掘操作的云服务,同时也能提供基于结构化查询的语言语句访问,提供相关的解析引擎,以便于自动调用云服务。对外数据挖掘云服务能力封装的接口形式多样,包含了基于简单对象访问协议下的Webservice、XML、HTTP以及本地应用程序的编程接口等多种形式。另外,在必要的时候,云服务层的各个业务系统可以进行数据挖掘云服务的调用和组装。
3基于云计算的数据挖掘平台构架的关键技术探讨
基于云计算的数据挖掘平台构架的形成,离不开现代先进的科技技术,其中几项关键的技术应用将在这里进行简要的阐述:
3.1云计算技术
3.1.1分布式储存技术
通过采用分布式存储的方式来存储数据,是云计算技术保证数据处理高可靠性和经济性的重要保证。用可靠的软件来弥补硬件的不足,是分布式存储技术提供廉价而又海量的数据挖掘支持的重要途径。
3.1.2虚拟化技术
在云计算的环境下,数据挖掘能实现对大量的可用的虚拟化技术的应用、整合,发展出一套全面虚拟化的运行战略。云计算和虚拟化的共同组合,使数据挖掘实现了跨系统下的资源调度,将海量的来源数据进行IT资源汇合,动态地实现对用户的虚拟化资源的供给,从而以高效率、海量动态的特点完成服务任务。
3.1.3并行云计算技术
并行云计算技术是一种对于高效执行数据挖掘计算任务极其重要的技术,并且它对云计算的某些技术细节做出了封装,例如任务并行、任务调度、任务容错和系统容错以及数据分布等。该功能代替了用户对这些细节的考虑,使得研发效率得到了提高。
3.2数据汇集调度中心
数据汇集调度中心的功能主要是完成对不同类型的数据进行汇集。它实现了对接入该云计算数据挖掘平台的业务数据收集汇合,能够解决与不同数据的相关规约问题,并能支持多样的源数据格式。
3.3服务调度与管理技术
对于基于云计算的数据挖掘平台,为了使不同业务系统能够使用本计算平台,必须要提供相应的服务调度与管理功能。服务调度解决云服务下的并行互斥以及隔离等问题,以保证安全、可靠的平台的云服务。服务管理功能要实现统一的服务注册与服务暴露功能,并且支持接入第三方的数据挖掘,以更好地扩展平台的服务能力。
2大数据挖掘的原理与优势
大数据是指数据量很大(一般是TB到PB数量级)的巨量资料,无法通过主流软件工具,在合理时间内完成数据处理并获取有价值的信息。数据大多以非结构化或者半结构化数据为主,大数据具有4V特点:Volume、Velocity、Variety、Veracity。大数据处理的一般思路是数据压缩、数据抽样、数据挖掘等。数据挖掘是一种新的信息处理技术,其主要特点是对商业数据库中的大量业务数据进行抽取、转换、分析和其它模型化处理,从中提取辅助商业决策的关键性数据。利用数据挖掘进行数据分析常用的方法主要有分类、回归分析、聚类、关联规则、推荐系统等,它们分别从不同的角度对数据进行挖掘。大数据挖据的数据源和处理方式对比。
3数据挖据流程和模型选取
3.1数据挖掘的主要流程
数据挖掘主要包括以下6大步骤。
(1)商业理解:确定挖掘目标以及产生一个项目计划。
(2)数据理解:知晓有哪些数据,以及数据的特征是什么。
(3)数据准备:对数据作出转换、清洗、选择、合并等工作。
(4)建模:根据挖掘目标确定适合的模型,建模并对模型进行评估。
(5)模型评估:评估建模效果,对效果较差的结果我们需要分析原因。
(6)结果部署:用所建挖掘模型去解决实际问题,它还包括了监督、维持、产生最终报表、重新评估模型等过程。
3.2垃圾短信治理指标体系设计
垃圾短信用户识别建模数据主要从信令监测系统、经营分析系统获取,所获取的用户行为数据主要包括用户通信行为信息、用户基础业务属性、用户通信业务信息等7个维度。其中,用户通信行为信息包括活动轨迹、终端IMEI和数据业务访问等信息。
3.3模型的选取
对白名单用户的识别可以利用社交网络模型与业务规则相结合的方法。利用社交网络进行白名单用户识别,重点考虑用户之间发生的通信行为、增值业务交互行为等群体行为,通过对用户之间关系的辨识。本文建模的重点着眼于垃圾短信用户的识别及其治理。
3.3.1现有垃圾短信识别模型的优势与不足
识别垃圾短信用户是数据挖掘中的分类问题,数据挖掘中常用的分类算法主要有逻辑回归、决策树、贝叶斯网络等算法。其中,神经网络因本身算法的复杂性,造成模型结果解释性较差,模型落地较困难而很少在实际项目中使用。目前识别垃圾短信的数据挖掘模型基本上为逻辑回归模型和决策树模型。决策树模型主要具有以下优势:模型非常直观,容易让人理解和应用;决策树搭建和应用的速度比较快;决策树对于数据分布没有严格要求;受缺失值和极端值对模型的影响很小。但是,使用决策树作为垃圾短信用户识别模型主要存在以下不足。
(1)决策树最大缺点是其原理中的贪心算法。贪心算法总是做出在当前看来最好的选择,却不从整体上思考最优的划分,因此,它所做的选择只能是某种意义上的局部最优选择。
(2)决策树缺乏像回归或者聚类那样丰富多样的检测指标和评价方法。
(3)容易出现过拟合。当某些自变量的类别数量比较多,或者自变量是区间型时,决策树过拟合的危险性会增加。
(4)决策树算法对区间型自变量进行分箱操作时,无论是否考虑了顺序因素,都有可能因分箱丧失某些重要信息。尤其是当分箱前的区间变量与目标变量有明显的线性关系时,这种分箱操作造成的信息损失更为明显。
相比于数据挖掘建模常用的其它算法如决策树、神经网络、支持向量机等,逻辑回归技术是最成熟,得到广泛应用,逻辑回归模型主要存在以下不足。
(1)变量之间的多重共线性会对模型造成影响。
(2)应删除异常值,否则它会给模型带来很大干扰。
(3)逻辑回归模型本身不能处理缺失值,所以应用逻辑回归算法时,要注意针对缺失值进行适当处理,或者赋值,或者替换,或者删除。
3.3.2垃圾短信识别预测模型选取
鉴于目前研究者对垃圾短信识别使用的决策树和逻辑回归模型存在较多不足之处,本文从模型算法上对其进行改进,力求得到更加科学合理的垃圾短信识别预测模型。本文使用的数据挖掘模型为随机森林模型。
3.3.2.1模型简介
随机森林(RandomForest)算法是一种专门为决策树分类器设计的优化方法。它综合了多棵决策树模型的预测结果,其中的每棵树都是基于随机样本的一个独立集合的值产生的。随机森林和使用决策树作为基本分类器的Bagging有些类似。以决策树为基本模型的Bagging在每次自助法(Boostrap)放回抽样之后,产生一棵决策树,抽多少样本就生成多少棵树,在生成这些树的时候没有进行更多的干预。而随机森林也是进行许多次自助法放回抽样,所得到的样本数目及由此建立的决策树数量要大大多于Bagging的样本数目。随机森林与Bagging的关键区别在于,在生成每棵树的时候,每个节点变量都仅仅在随机选出的少数变量中产生。因此,不但样本是随机的,就连每个节点变量产生都有相当大的随机性。随机森林让每棵树尽可能生长,而不进行修剪。随机森林算法主要包括决策树的生长和投票过程。随机森林中单棵树的生长可概括为以下几步。
(1)使用Bagging方法形成个别的训练集:假设原始训练集中的样本数为N,从中有放回地随机选取N个样本形成一个新的训练集,以此生成一棵分类树。
(2)随机选择特征(指评估指标,以下同)对分类树的节点进行分裂:假设共有M个特征,指定一个正整数m<M,在每个内部节点,从M个特征中随机抽取m个特征作为候选特征,选择这m个特征上最好的分裂方式对节点进行分裂。在整个森林的生长过程中,m的值保持不变。
(3)每棵树任其生长,不进行剪枝。Bagging方法形成新的训练集和随机选择特征进行分裂,使得随机森林能较好地容忍噪声,并且能降低单棵树之间的相关性;单棵树不剪枝能得到低偏差的分类树,同时保证了分类树的分类效能(Strength),分类树的分类效能是指分类树对新的测试数据的分类准确率。
3.3.2.2随机森林分类预测模型的主要优势
(1)随机森林的预测精度高,它可以产生高准确度的分类器。
(2)可以处理相当多的输入变量。随机森林不惧怕很大的维数,即使有数千个变量,也不必删除,它也会给出分类中各个变量的重要性。
(3)当在构建随机森林模型时候,对GenerlizationError估计是无偏估计。
(4)随机森林在设计上具有很快训练速度,训练出结果模型不必花费大量时间。
(5)对缺失值和极端值具有很强容忍能力,即使有较多缺失数据仍可以维持准确度。
(6)当遇到分类数据不平衡时,可以较好地平衡误差。
(7)随机森林算法并不会导致过拟合。定义组合分类器的总体分类效能s为:s=Ex,ymg(x,y)。若用ρ表示每棵分类树之间相关度的均值,则随机森林的泛化误差PE的上界可由下式给出:PE*≤ρ(1-s2)/s2。当随机森林有相当多的分类树时,随机森林的泛化误差几乎处处收敛于一个有限值。因此,随着森林中分类树数目的增长,随机森林算法并不会导致过拟合。
(8)随机森林在模型训练过程中,能够对特征之间的相互影响行为做出检测。随机森林算法具有以上优势,在垃圾短信治理预测中具有应用的优势,本文采用随机森林模型作为垃圾短信用户的分类预测。综上所述,随机森林模型主要在不会出现过拟合、训练精度高、能处理大量输入变量并输出变量重要性3个方面优越于决策树模型;在容忍缺失值和极端值方面明显优越于逻辑回归模型。随机森林模型在算法设计上有效弥补了决策树和逻辑回归模型的不足之处,在垃圾短信识别分类预测中具有较好的应用价值。
3.3.2.3垃圾短信数据挖掘模型构建
通过前述的商业理解确定了垃圾短信识别业务需求,并进行数据理解构建了垃圾短信识别指标体系,再抽取需要的数据,并进行数据清洗、转换、衍生变量计算等步骤,具备了建模的目标数据,接下来的任务就是通过随机森林模型构建垃圾短信分类预测模型,对垃圾短信用户进行识别。
3.4用户分类治理策略
通过随机森林模型的识别,根据用户是垃圾短信发送者的可能性评估,制定不同的治理策略,如图3所示。实际的执行过程中,需要根据清单的范围大小,适当的调整预测概率门限,以保证策略执行的效果,同时避免过多的正常用户的业务感知受到影响。
4垃圾短信治理平台的实现
4.1系统架构
垃圾短信治理平台的数据来源较多,需要处理的数据量也非常大,因此,数据采集和数据处理过程是相互影响的过程。垃圾短信治理平台的系统架构图如图4所示。
(1)数据采集层:是垃圾短信治理平台与多个数据库来源的安全访问接口,通过数据采集层实现数据挖掘和分析所需要的基础信息:用户属性信息、用户卡号信息、用户业务记录、用户的位置信息和消费记录。
(2)数据处理层:需要根据数据挖掘的需求,将采集的基础数据转换为业务服务层可以使用的数据,通过对基础数据进行整形、清洗和预处理,为后续的数据挖掘做好数据准备。
(3)业务服务层:主要包括应用和安全服务两个部分,应用包括数据查询统计服务、用户查询服务和GIS应用服务,同时,补充报表服务和文件管理服务以方便日常的工作。通过外部接口服务,可以部署相应的权限管理、数据管理维护以及注册服务等,降低系统的风险,保证信息的安全传递。
(4)功能模块:主要是根据客户需求,定制开发的功能单元,功能模块的个数以实际部署的情况为准。以图4垃圾短信治理平台的系统架构图某省公司的定制模块为例,主要包括指标查询模块、垃圾短信治理模块、用户综合信息分析模块和市场支撑应用模块4个部分。
4.2效果展现
针对不同的部门或用户,垃圾短信治理平台展现不同的数据,主要包括以下的结果展现方式。
(1)治理效果掌控:通过指标查询系统,及时掌握垃圾短信的治理效果,发现工作的成果和风险,达到及时发现问题并快速响应的目的。
(2)治理效率提升:通过垃圾短信治理模块,快速准确识别垃圾短信源头并定位区域,下发至地市公司快速处理,减小垃圾短信带来的不良社会影响。
(3)实现预先管控:通过用户综合信息分析模块,可以对潜在的具有垃圾短信源头特征的风险终端进行监控、通过外呼、资费信息等情况,提前发现和治理潜在垃圾短信源。
2基于大数据的计算机数据挖掘技术概述
基于大数据的计算机数据挖掘技术是当代新开发的一种数据处理技术,它可以从大数据中挑选出人们需要的数据。计算机数据挖掘是一个循环往复的过程,如果没有取得预期的效果,计算机数据挖掘信息处理系统就会返回上一层重新工作,直到完成目标任务为止,这种对目标的细化过程可以满足档案数据检索的需要。
3基于大数据的计算机挖掘技术在档案管理系统中的作用
3.1提高档案信息的安全性。无论是文字档案、图片档案还是其他形式的档案,都是一种宝贵的资料。越是意义重大的档案,档案管理人员就越要想方设法将其保存起来。档案的价值随着其保存时间的不断推移而增加,价值越高的档案,被使用的频率就越高,但是如果使用过于频繁的话,就会缩短档案资料的寿命,加大保存难度。除此之外,有的档案信息是保密的,在应用时如果监管不力就会导致机密泄露。由以上可见,档案的保存与使用俨然已互为对立面了。将计算机挖掘技术应用到档案管理中则对档案资料的完整性毫无影响,并且还可以提高档案信息的安全性。3.2提高档案信息管理的效率。在档案管理工作中应用计算机数据挖掘技术,可以极大改变传统档案管理模式低效率的弊端。使用计算机数据挖掘技术,大大提高了工作人员处理档案信息的速度,同样的工作使用的时间极大减少。鉴定档案是档案管理工作中的重要组成部分,传统的鉴定方式是由管理人员根据自己的经验进行主观鉴定,有时会存在有价值的档案丢失的现象。应用计算机数据挖掘技术,档案管理人员就可以利用计算机系统分析档案使用和保存的情况,促进了档案鉴定工作的发展。3.3提高了档案信息的使用效率。大部分档案信息具有一定的机密性,所以档案的借阅并不是向全社会公开的,而是有范围限制的,但是由于档案管理人员和借阅者对档案信息不熟悉,导致双方的沟通存在一定的问题,在借阅者提出申请之后,档案管理人员会将档案资料调出来,有时调出来的资料不是借阅者所需要的,还得重新调阅,类似的过程就严重浪费了双方的时间。应用计算机数据挖掘技术可以促进档案管理人员和借阅者之间的交流,让档案管理者明确借阅者需要的具体档案信息,从而形成专门的档案提供渠道,这就大大提高了档案信息的使用效率。3.4增强档案信息的服务性。加密档案信息会严重缩小它的适用范围,受当代信息化的影响,很多档案信息自身会出现一些问题,并且只能为一小部分人服务。将计算机数据挖掘技术应用到档案信息管理中,可以具体分析档案的使用情况,通过研究发现未来使用档案信息的人群,在此基础上提高档案信息的服务性。
4基于大数据的计算机数据挖掘技术在档案管理中的实际应用
4.1在档案分类管理中的应用。档案管理的基础工作就是将档案进行分类。传统的分类方法既费时又费力,工作效率极低。计算机数据挖掘技术中有一种决策树算法,它可以在最短的时间内按照一定的规则将不同属性的档案信息进行分类和整理,大大提高了档案分类工作的效率。计算机数据挖掘技术在档案分类工作中的具体流程是:从大量不同种类的数据集中选择一些数据组合成训练集,然后应用到没有进行分类的档案管理中,这样可以帮助管理者根据借阅者对档案信息的需求来对档案进行分类,同时还可以根据借阅者的需求为其推荐其他档案信息。通过这些针对性强的数据分析,可以极大缩短借阅者获取档案信息的时间,档案数据的利用价值就能充分发挥出来。4.2在档案收集管理中的应用。计算机数据挖掘技术可以根据数据库内部的数据信息描述来构建一个相应的数据模型,然后比较计算机数据样本和数据模型之间的差异,如果这二者互相吻合,就需要档案管理人员使用测试样本模型来对档案信息进行分类处理。计算机数据挖掘技术需要全面分析档案数据信息库中的数据,建立一个对已知数据有详细描述的概念模型,并与测试样本进行对比,如果一个模型测试通过,就证明这个模型可以应用在档案收集管理中。
5结语
综上所述,在科技技术不断进步的时代背景下,在档案信息管理中应用基于大数据的计算机数据挖掘技术已成为一种必然趋势,它可以极大提高档案信息管理的工作效率,促进档案管理的高效发展。除了在档案信息存储和利用上确保基本的信息查询服务外,还需要应用计算机数据挖掘技术整合档案信息,建立众多档案管理服务数据之间的关联,这样才能为档案信息管理提供更好的服务。
作者:陈皓颖 单位:昆明理工大学津桥学院
参考文献
[1]高燕飞,陈俊杰.试析计算机数据挖掘技术在档案信息管理系统中的运用[J].内蒙古师范大学学报:哲学社会科学版,2012(4):44-46.
[2]曾雪峰.计算机数据挖掘技术开发及其在档案信息管理中的运用研究[J].科技创新与应用,2016(9):285.
[3]李国强,曹巧莲,辛正宇,等.浅谈数据处理的新技术———数据挖掘[J].科技创新与生产力,2010(6).
随着现代商业经济和信息技术的发展,商业信息的增长速度呈现指数上升,积累了海量的、以不同形式存储的商业数据资料,原有的决策支持系统(DSS)和领导执行系统(EIS)已不能满足需要,这时出现数据挖掘技术,它能够去粗存精、去伪存真,从海量的商业信息中提取知识和有用信息的技术。现代信息技术处理商业信息经过一定的发展,逐步形成现在的商业数据挖掘技术。
1.数据挖掘方法在商业信息中应用的规则
数据挖掘技术在商业中的应用主要基于AI、机器学习、统计学等技术,高度自动化地分析商业原始数据,做出归纳性的推理,从中挖掘出潜在的模式,预测客户的行为,帮助商业决策者调整市场策略,减少风险,做出正确的决策,体现一种决策支持过程。
1.1商业信息泛化、简约和特征提取规则。商业信息泛化是为了商业数据更好的理解和掌握,将其具体一般的数据信息抽象到较高层次的过程;商业信息简约是为了采用一定的手段对信息进行描述;商业信息特征是找出这些信息的共同特征,寻找信息的通用性特征式。
1.2商业信息分类技术规则。商业信息分类是按照一组商业信息对象的特征给出信息对象划分的过程。其目的是学会一个分类函数或分类模型,该模型能把数据库的数据信息项映射到给定类别中的某一个。
1.3商业信息的聚类规则。聚类规则是识别一组信息对象的内在规则,从而将对象分组,构成相似的对象类,从而找出数据信息的分布规律,并进一步去发现隐含在一组混杂的数据信息集里的分类规则。聚类是把一组个体按照相似性归类,即"物以类聚"。使属于同一类别的个体之间的距离尽可能小,而不同类别的个体间的距离尽可能大。
1.4商业信息的关联规则。关联规则的商业数据挖掘已经从单一概念层次的关联规则发展到多概念层次的关联规则的发现。关联规则是如下的一种规则:"我们在研究大型商场的顾客在购买上衣和裤子的时候,发现其中在这些顾客中有10%的顾客同时买了帽子(上衣+裤子+帽子),这就形成简单的关联规则。除了具有上述关联规律,还有时间或序列上的规律,在不同的时间(春夏秋冬)所购的衣服、裤子以及帽子是不相同的,并且不同层次或者不同年龄的人所购商品又有一定的规律性。
2.数据挖掘技术在商业信息中的应用
数据挖掘技术是目前在商业信息处理中应用的比较多的一项技术,为了在商业领域中对海量数据库和大量复杂信息中提取有价值的知识,进一步提高信息的利用率,对公司及时制定相应的对策有非常重要的意义,在这里,讨论几个主要商业行业中的商业信息处理。
2.1数据挖掘技术在电子商务网站数据中的应用
随着Web技术的发展,电子商务网站正在成为现在商家的必争之地。如何让电子商务网站有效益要想有效益就必须吸引客户,增加能带来效益的客户忠诚度。电子商务网站每天都可能有上百万次的在线交易,生成大量的记录文件和登记表,如何对这些数据进行分析和挖掘,充分了解客户的喜好、购买模式,甚至是客户一时的冲动,设计出满足于不同客户群体需要的个性化网站,进而增加其竞争力,几乎变得势在必行。若想在竞争中生存进而获胜,就要比您的竞争对手更了解客户。
在对网站进行数据挖掘时,所需要的数据主要来自于两个方面:一方面是客户的背景信息,此部分信息主要来自于客户的登记表;而另外一部分数据主要来自浏览者的点击流,此部分数据主要用于考察客户的行为表现。但有的时候,客户对自己的背景信息十分珍重,不肯把这部分信息填写在登记表上,这就会给数据分析和挖掘带来不便。在这种情况之下,就不得不从浏览者的表现数据中来推测客户的背景信息,进而再加以利用。就分析和建立模型的技术和算法而言,网站的数据挖掘和原来的数据挖掘差别并不是特别大,很多方法和分析思想都可以运用。所不同的是网站的数据格式有很大一部分来自于点击流,和传统的数据库格式有区别。因而对电子商务网站进行数据挖掘所做的主要工作是数据准备。
2.2数据挖掘技术可以用在金融领域的应用
金融事务需要搜集和处理大量数据,对这些数据进行分析,发现其数据模式及特征,然后可能发现某个客户、消费群体或组织的金融和商业兴趣,并可观察金融市场的变化趋势。
数据挖掘在银行信息中的应用。商业银行业务的利润和风险是共存的。为了保证最大的利润和最小的风险,必须对账户进行科学的分析和归类,并进行信用评估,利用数据挖掘工具,可以根据客户的消费模式预测何时为客户提供何种产品。银行如何让一家新开的银行网点实现快速赢利呢?银行结合了GPS推理信息系统和商业智能应用系统,在银行的客户信息中,详细记录有客户的常驻地,并且,当银行客户到该银行网点办理业务时,银行商业智能系统将自动记录客户的操作信息,以及银行网点地址信息。经过大量的记录,客户的常驻地到银行网点的行动路线,将被通过数据分析而得出。大量的客户路线得出后,我们可能会发现,某个地区进行银行业务操作的客户特别多,但他们附近没有银行网点,而是要到离他们较远的地方去办理,于是银行就决定在这个地区开办一个银行网点。
数据挖掘在证券信息中的应用。上市公司定期公布的财务报告具有很强的信息含量,但是当期会计盈余数据的信息会在披露前后在股票市价中迅速得以体现。因此对于中长期投资者来说,重要的是预见未来。质地优良且未来具有较高盈利增长能力的公司是中长期投资者(包括普通投资者,证券投资基金和券商)普遍关注的对象,因为只有这类公司才能给投资者带来持续的回报。而财务报告包含了大量描述公司经营状况的数据。这些数据应能为投资者提供关于公司未来盈利能力的信息。对于中长期投资者而言,需要做的就是利用这些信息挖掘出未来能够具有较高盈利水平同时又具有较好的成长性公司。采用数据挖掘技术来发掘这些财务报告中是否包含关于公司未来盈利情况的信息,获得较精确的预测效果,选出的投资组合能否获得超额收益,这对于投资者来说是非常重要的。
2.3数据挖掘技术在企业市场营销中的应用
数据挖掘技术在企业市场营销中得到了比较普遍的应用,它是以市场营销学的市场细分原理为基础,其基本假定是"消费者过去的行为是其今后消费倾向的最好说明"。通过收集、加工和处理涉及消费者消费行为的大量信息,确定特定消费群体或个体的兴趣、消费习惯、消费倾向和消费需求,进而推断出相应消费群体或个体下一步的消费行为,然后以此为基础,对所识别出来的消费群体进行特定内容的定向营销,这与传统的不区分消费者对象特征的大规模营销手段相比,大大节省了营销成本,提高了营销效果,从而为企业带来更多的利润。这些来自各种渠道的数据信息被组合,应用超级计算机、并行处理、神经元网络、模型化算法和其他信息处理技术手段进行处理,从中得到商家用于向特定消费群体或个体进行定向营销的决策信息。4数据挖掘技术在民用通信部门中的应用
中图分类号TP392 文献标识码A 文章编号 1674-6708(2013)92-0211-02
1 概述
在面对海量的情报信息资源时,如何高效、准确的开展分析工作,为管理决策人员提供支持,已成为当今科技工作的重要组成部分。可以说,情报分析方法和相关工具的合理使用决定了情报获取的准确性和有效性,并将直接影响制定战略决策的有效性和科学性。
技术情报分析系统主要进行与技术相关科技论文、专利、互联网情报数据的分析,实现分析方法、算法、分析结果的表现形式以及分析报告自动生成等技术。该情报分析系统除了基本的维度统计分析外,更多的侧重于利用知识发现、数据挖掘等技术进行情报数据的深度处理与分析。通过情报分析系统开发设计,结合数据挖掘等技术的合理使用,使得系统使用者能够快速、有效、全面地获取技术的情报信息。
2 系统的设计与功能描述
2.3 数据挖掘技术设计
2.3.1数据文本特征表示
在进行文本挖掘时,对文本特征进行处理,实现对非结构化的文本向结构化转换。情报分析系统采用向量空间模型(Vector Space Model,VSM)进行文本的表示,并利用倒排文档频率TFIDF进行专利文本的特征提取,以此作为论文、专利文本挖掘的基础。
2.3.2关联算法
在挖掘论文专利作者之间、机构之间、国家之间的研究内容关联性上,采用了基于文本挖掘的关联算法。通过对技术关键词的共生关系(Terms Co-occurrences)计算来识别、确定一组文献内部所包含的技术组(群)。
2.3.3 层次结构可视化算法
情报分析系统中关于论文和专利的引证分析、专利同族分析采用了层次结构可视化算法Hyperbolic Tree,即双曲树算法。其主要原理是将树结构在双曲空间进行布局,然后映射到欧式空间的庞莱卡圆盘进行显示。欧式空间中两个相同大小的区域离庞莱卡圆盘中心越近,在双曲空间中所占用的空间越小;反之,双曲空间中两个大小相同的区域离原点越近在庞莱卡圆盘中所占用的空间越大。
4 结论
本文提出运用数据挖掘方法实现对大量数据的分析和判断,可有效帮助科技情报机构和人员提高综合情报分析能力和决策的质量。同时,该方法可按照不同需要进行功能拓展,实现向更多的技术情报领域延伸。
参考文献
[1]Dongpeng Yang. Application of Data Mining in the Evaluation of Credibility, 第十一届亚太地区知识发现与数据挖掘国际会议(PAKDD),IOS Press出版, 2007.
[2]乐明扬.公安情报分析中的数据挖掘应用研究.信息与电脑.2012(8).
1 前言
现代远程开放教育的全过程基本上都是通过浏览网站的形式进行的,学生在Web上的行为都会产生大量的信息,这些信息在远程教育的全过程中十分宝贵,充分挖掘这些信息及其背后潜在的信息,反馈来指导远程教育中的各个环节,以此来为学生提供个性化的服务内容,增强远程开放教育的竞争力。利用数据库技术来存储管理数据,利用网络和计算机学习的方法来分析数据,从而挖掘出大量的隐藏在数据背后的知识,即数据库中的知识发现---KDD(Knowledge Discovery in Databases),其中,数据挖掘技术便是最为关键的环节。论文参考网。基于远程开放教育将是当前和未来教育的重要辅助系统,本文提出并介绍信了把数据挖掘技术应用于现代远程开放教育系统中。
2 数据挖掘概述
2.1数据挖掘(DataMining)定义
数据挖掘就是从大量存储的数据中,利用模式识别、统计和数学的技术,筛选发现新的有意义的关系、模式和趋势的方法。就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。它主要依靠人工智能、机器学习和统计学技术,对数据进行归纳推理,从中挖掘出潜在的模式,预测未来趋势,为决策提供支持。
2.2数据挖掘的主要任务
(1)关联分析。两个或两个以上变量的取值之间存在的规律性称为关联。数据关联是数据库中存在的一类重要的、可被发现的知识。关联分析的目的是找出数据库中隐藏的关联网。
(2)聚类分析。聚类是把数据按照相似性归纳成若干类别,同一类中的数据彼此相似,不同类中的数据相异。
(3)分类。分类就是找出一个类别的概念描述,它代表了这类数据的整体信息。
(4)预测。预测是利用历史数据找出变化规律,建立模型,并由此模型对未来数据的种类及特征进行预测。
(5)时序模式。时序模式是指通过时间序列搜索出的重复发生概率较高的模式。它是用己知的数据预测未来的值,但这些数据的区别是变量所处时间的不同。
(6)偏差分析。在偏差中包括很多有用的知识,数据库中的数据存在很多异常情况,发现数据库中数据存在的异常情况是非常重要的。偏差检验的基本方法就是寻找观察结果与参照之间的差别。
2.3数据挖掘对象
根据信息存储格式,用于挖掘的对象有关系数据库、面向对象数据库、数据仓库、文本数据源、多媒体数据库、空间数据库、时态数据库、异质数据库以及Internet等。
2.4数据挖掘技术实施的步骤
(1)确定业务对象。清晰地定义出业务问题,认清数据挖掘的目的是数据挖掘的重要一步。挖掘的最后结构是不可预测的,但要探索的问题应是有预见的,为了数据挖掘而数据挖掘则带有评价,并以用户能理解和观察的方式将发现的知识呈现给用户。
(2)数据准备。这个阶段的工作包括数据集成、数据选择、预分析和转换。要对Web服务器上的数据进行挖掘,必须研究站点之间异构数据的集成问题,只有将这些站点的数据都集成起来,提供给用户一个统一的视图,才有可能从巨大的数据资源中获取所需的东西。
(3)数据挖掘。这个阶段就是利用数据挖掘工具对经过转换的数据进行挖掘和发现知识的过程。不同的数据挖掘工具有不同的算法,面向不同的分析需求,并且当具体使用操作时,也在一定程度上受到数据分析人员的思维方式和行为习惯的影响。数据挖掘利用人工智能领域中一些已经成熟的算法和技术。如:人工神经网络、遗传算法、决策树方法、邻近搜索算法、规则推理、模糊逻辑、公式发现等来进行数据的挖掘。
(4)结果分析。论文参考网。数据挖掘的结果由分析人员根据发现知识的领域重要性、可信度和支持度等阀值来对发现结果进行评价,并以用户能理解和观察的方式将发现的知识呈现给用户。通常会用到可视化技术。
(5)知识的同化。将分析所得到的知识集成到业务信息系统的组织结构中去。
3 现代远程开放教育系统简介
远程开放教育系统能实现个性化学习、实时教学、实时考试和智能答疑。为每一个接受网络远程教育的学习者提供个性化的学习进程。能根据与当前学习者相类似的学生的学习模式自动地对其后继知识的学习进行预测以及合理推荐,并对学习者的学习过程进行分阶段的评价,依据其绩效信息动态调整其学习难度、练习与测试内容,对学生提出的问题实现智能化答疑,对该学习者薄弱环节进行有效指导,做到因材施教和全天候学习。
远程开放教育系统由用户系统、WEB服务器、应用服务器、数据服务器、用户数据库和资源数据库组成。
用户系统用于实现远程开放教育系统的显示功能,其功能是:实现信息的和接受,管理员通过它来实现系统的管理、更新、维护等,主要是通过XML语言和HTTP协议实现WEB浏览器与WEB服务器的链接和信息通讯。WEB服务器用于完成远程开放教育系统的事务处理,用于处理学习过程中的各种事务。应用服务器直接为WEB服务器提供相关服务,处理WEB服务器以及XML文档组成的用户的事务请求信息。论文参考网。数据库服务器用于完成数据处理,为应用服务器提供相关服务,完成数据查询、修改和更新等服务,并把运行结果反馈给应用服务器。资源数据库中主要由远程开放教育系统中要使用的课件库、答疑库、作业库、试题库和必要的超级链接等构成。用户数据库主要用于存储远程开放教育系统中要使用的的注册档案、用户目前的学习内容、学习进展、作业情况和考试情况等信息。
4 数据挖掘技术在远程开放教育中的应用
现代远程开放教育是随着现代信息技术的发展而产生的一种新型教育形式,其基本特征是利用计算机网络和多媒体技术,提供丰富的教学资源供学习者选用,教学形式由原来的以教为主变为以学为主。数据挖掘技术在现代远程开放教育中的应用主要有以下几方面:
(1)在个性化学习方面的应用
由于每个学习者的知识背景、学习习惯和学习目标都不一样,故个性化学习在远程开放教育中就显得非常重要。为了实现此功能,基于WEB的智能远程开放教育系统首先要根据学习者的特点和学习目标来收集学习者的数据信息,然后对收集到的信息进行预处理,再应用一种合理的挖掘算法或综合应用不同的算法,如关联规则分析、聚类和分类技术、统计分析以及时序模式技术等,来处理此数据,最终发现用户的访问模式,但是通过模式挖掘后,生成的规则数目大、表达晦涩且不好用,这时就需要用到智能查询机制、可视化和联机分析等技术对模式进行分析评价,经过模式分析和应用技术处理后,选择一种学习者易于理解和接受的表达方式将知识数据显现出来。利用数据挖掘与学习内容绑定的技术,系统就可以以可视化方式来指导学习者学习和个性化发展,这样系统就实现了个性化学习功能。
(2)在资源库建设方面的应用
资源库建设在整个系统中至关重要,为了建立覆盖面广、功能齐全的资源库,我们就必须编制信息资源目录,征集种类资源信息,并进行资源、资源信息筛选、资源信息整理和存储;同时按学科门类建设积件库。当老师在系统内制作课件,为了有针对性和避免重复,我们可以对所有学习者已选的课程进行聚类,并通过聚类学习算法来自动确定每门课程的类别标记。接着利用数据挖掘中的关联规则,估计出一组相关同位类课程,再利用泛化关联规则,找到其上位类课程,或利用序列模式,预测出与之有关的学生未来可能选择的同级课程,最后围绕学习者的需求权限进行课程设置。
(3)在实时教学方面的应用
在本系统中,由于引入了互联网技术、人工智能技术、数据库技术和知识发现技术,通过机器学习、统计分析等方法设计出了个性化处理引擎,从大量的数据中进行数据挖掘,提取有用的、潜在的信息。学生可以通过网络实现每天24小时的学习,而且本系统可以更多且及时的了解到学生的学习学习进度、需求、能力、兴趣爱好等方面的信息,并动态地根据这些信息调整学习计划和进度,让学生得到针对其“个性”的教育,实现因材施教。
(4)在智能答疑方面的应用
基于WEB的远程教学系统中的智能答疑系统只要用户能上网,就可解答学生在学习过程中产生的问题。它能根据学生用户访问日志、问题记录等数据进行数据挖掘,用智能抽取的方法实现智能答疑。从用户访问日志和提问信息里面可以分析出学生的行为。智能答疑系统后台存储了大量的由经验丰富的教师精心挑选的问题答案,对于用户提出的问题.系统首先通过对问题的分析自动在数据库中寻找最适合的答案。这样通过数据挖掘,针对学生用户提问记录、日志不断更新和调整学生用户知识库,使问题的回答更加精确。
(5)在实时考试方面的应用
本系统的实时考试系统是一个基于数据库和WEB的远程在线式实时的测试系统。它能考虑个别学习者的能力和特性,按照考试的目的和必要性,提供各种问项信息,如难易程度、辨别程度等。并且还能同步打分,提供成绩进展情况,根据个人特性解释问题,按个人及科目对考试结果进行各种统计分析和评价,并存入学生用户数据中。这些功能的实现是由于系统采用关联规则、聚类和分类工具对数据库中抽取的数据进行处理,分析出学生的特性及其对课程各知识点的掌握程度,并结合学生的考试目的恰当地反馈给学生,这样提高了学生学习的效率。
5 结束语
在现代远程开放教育网站设计中,基于XML(ExtensibleMarkup Language,可扩展标记语言)的新一代系统设计环境,可以更好地描述半结构化和结构化的数据,更有利于进行数据搜索和挖掘。如何整合XML和Web服务技术,以此为契机开展数据挖掘和知识获取,在现代远程开放教育网站的设计中以学习者为中心,提供一种基于资源的学习,教学资源可以适应各种学习者的需要和背景进行不同的组合,提供更加优良的、个性化的服务。
参考文献:
[1]李爽,陈丽.国内外网上智能答疑系统比较研究[J].北京,中国电化教育,2003(5)
[2]苏新宁.数据挖掘理论与技术[M].北京:科学技术文献出版社,2003
[3]赵丹群.数据挖掘:原理、方法及其应用[J].现代图书情报技术,2000,(6)
[引言]随着我国信息技术的进步,数据挖掘技术得到广泛应用,在软件工程中需要对数据信息进行搜集、分类与整理,通过数据挖掘技术的应用可以有效提高工作效率,推动软件工程的有序发展。我国对数据挖掘技术的应用与研究虽然处于初级阶段,但通过不断的经验积累也能够发挥技术的更多价值。
1数据挖掘技术概述
数据挖掘技术指的是在信息技术发展背景下,对信息数据展开处理的技术。与过去的信息处理技术相比,数据挖掘技术功能更加强大,可以应用在各个领域,无论是数据处理、数据转换还是数据分析,都能够完成相互之间的联系,并对数据进行最终评估。将数据挖掘技术应用在软件工程中,能够提高企业处理信息数据的效率,避免操作失误,保护企业数据准确[1]。
2数据挖掘技术在软件工程中的重要性分析
2.1高效整合多样化信息数据
由于数据挖掘技术的功能比较多,其中包含了传统处理技术的功能,实现多样化信息的收集与分类,并将数据按照类别存储与整理。数据挖掘技术可以在多样化数据中实现数据的系统化管理,为人们进行数据查阅工作带来方便。在软件工程中应用该技术,方便信息数据的高效整合,帮助企业全方位了解信息与数据[2]。
2.2保证信息数据的准确率
数据挖掘技术拥有强大数据运算功能,以往的数据信息系统运算数据时需要耗费大量时间与成本。如果信息数据体系庞大,系统运算时会面临瘫痪问题。在软件工程中,一旦系统发生瘫痪,系统将无法正常使用,数据也会受到破坏。应用数据挖掘技术之后可以有效解决以上问题,实现系统的优化,使系统可以在最短时间内处理数据,防止信息数据发生丢失现象,提高数据处理的时效性。面对大量的信息数据,有的数据得不到利用,但长期处于系统中会影响系统运行效率,应用数据挖掘技术可以将无价值的数据剔除,留下有用的信息数据,保证系统的运行效率和数据质量。
2.3缩短信息数据处理时间
在软件工程中应用数据挖掘技术可以分类处理杂乱无章的数据,实现数据的转换与调用。对数据进行深入挖掘处理时也可以应用数据挖掘技术进行数据的分类,并对模糊数据及时清理,提高系统内现存数据的实用价值。人们获取到的信息数据需要进行反复核对,以此保证数据真实性,通过数据挖掘技术的应用减少时间浪费,提高数据核对效率。
3数据挖掘技术在软件工程中的应用分析
3.1系统结构
数据挖掘技术应用流程主要分为三个阶段:数据预处理、数据挖掘、模式评估与知识表示。在数据预处理阶段中,高效得到原始数据的根本原因在于确定任务处理对象,得到符合软件工程需求的数据。通过数据清洗弥补原始数据存在的缺陷,确保数据的完整性。数据抽取需要从数据库中选择与软件工程任务相符合的信息。数据转换需要将数据格式加以转化,实现数据的适用性。在数据挖掘中需要制定一定的挖掘任务,通过对数据的分类与评价总结,合理应用运算方法进行数据推敲。在模式评估与知识表示中,其实际用途在于挖掘成功的表达,将兴趣度作为衡量标准,提高数据表达的识别能力。
针对软件工程中数据挖掘技术的优化应用,可以从系统结构方面入手,具体如下:(1)检测软件工程中的克隆代码。以软件工程为标准,将一部分代码复制,结合实际情况更改一部分代码,并对这些代码进行检测,代码检测与更改可以同时进行,能有效提高检测效率,实现系统的维护工作。当前应用数据挖掘技术进行克隆代码检测的方式一共有四种,具体为比较标识符、对比文本、检测系统程序结构与度量圈。在实际操作中,要求人们结合实际情况选择相应的克隆代码检测方法。(2)数据信息挖掘法。这是以横切关注点为主的挖掘方法,在软件工程中应用该方法可以改造系统,对数据信息达到良好的处理效果[3]。
3.2软件管理
为了让数据挖掘技术更好地应用在软件工程中,需要从软件管理角度入手,采用以下两方面举措。一方面,深入挖掘数据的组织关系,另一方面,挖掘版本控制信息。软件工程系统比较繁琐,挖掘组织关系时较为困难,人们需要合理调配各项信息,以此作为挖掘的依据。如果以软件工程管理流程作为主题,对电子邮件与共享文件展开组织关系挖掘,可以有效避免系统流程发生混乱,保护软件管理的秩序。当信息数据发生变化时,应用数据挖掘技术进行软件管理,将版本控制作为重要依据,将数据挖掘技术与版本控制相联系,降低系统运行成本,并达到警示的效果,提高软件工程的管理水平。
3.3软件开发
在软件工程初期阶段,人们将数据挖掘技术看成数据库,随着技术的发展,软件工程发展到现实应用,系统和现实共同发展。软件工程将各项指标与要求紧密结合,研发出最新产品,以往的软件工程中软件开发十分困难,而如今应用数据挖掘技术,可以将其与数据库相融合,发挥数据库内信息的最大价值,有效推动软件开发的进步。不仅如此,软件工程可以对信息进行更深层次的挖掘,充分发挥软件工程的价值,利用数据挖掘技术实现数据的更新,保证软件开发质量,优化软件操作流程。在技术的支持下,人们可以合理划分软件内部,方便及时发现问题,并展开积极有效的问题处理。利用数据挖掘技术可以进行网站设计,对网站内容进行挖掘,特别是对文本内容的挖掘,随后整合网站信息,通过自动归类技术实现信息的层次性组织。在软件或网站管理中,应用数据挖掘技术可以根据用户对网站的访问记录,进行记录信息挖掘,从中了解用户对该网站内容的兴趣,进而对用户提供信息推送服务和定制服务,以此吸引更多用户访问该网站。
在软件开发阶段,可以使用DataAnalytics轻量级业务数据可视化分析平台,这是数据挖掘技术的一项成果。该平台能够实现异构数据源的高效整合,可以兼容各种数据源类型,支持海量数据。可接入Excel/CSV等数据文件、企业各种业务系统、第三方互联网数据、公共数据服务平台等来源,轻松整合所有相关业务数据,帮助企业消灭数据孤岛。企业利用该平台可以完成数据的深度交互分析,DataAnalytics基于探索式分析,支持智能推荐图形与图表,二者可以协同过滤,帮助用户快速定位,通过数据挖掘找出问题,以拖拽式操作方法解决问题。
3.4聚类
在数据挖掘技术中聚类指的是对各个环节数据加以分析,结合软件工程的具体要求实现数据细化,以类型细化作为基础,为原始数据类型做出保障。通过聚类可以让同种类型数据具有相似性特点,在存在相似性的同时,也存在一定的差异,突出各自的特点。应用数据挖掘技术实现聚类划分时,面对的对象无法预测,与其他算法相比,聚类拥有更加广泛的应用范围,进行数据分析时更加独特,挖掘信息数据时可以确保检测结果的有效性与真实性。
4结论
总而言之,随着信息技术的深入发展,人们已经步入信息时代,数据挖掘技术也成为对信息数据展开处理和存储的有效方式。在软件工程中应用数据挖掘技术,有利于提高软件开发效率,提升软件管理质量,加强数据挖掘力度,使数据挖掘技术发挥巨大效果,人们可以应用数据挖掘技术完成数据的聚类和网站设计,为人们的生活带来便利。
[软件工程硕士论文参考文献]
[1]张立鉴.数据挖掘技术在软件工程中的应用研究[J].网络安全技术与应用,2019(6):47-48.