时间:2023-03-20 16:25:55
引言:寻求写作上的突破?我们特意为您精选了12篇数据挖掘技术分析论文范文,希望这些范文能够成为您写作时的参考,帮助您的文章更加丰富和深入。
随着信息技术迅速发展,数据库的规模不断扩大,产生了大量的数据。但大量的数据往往无法辨别隐藏在其中的能对决策提供支持的信息,而传统的查询、报表工具无法满足挖掘这些信息的需求。因此,需要一种新的数据分析技术处理大量数据,并从中抽取有价值的潜在知识,数据挖掘(DataMining)技术由此应运而生。
一、数据挖掘的定义
数据挖掘是指从数据集合中自动抽取隐藏在数据中的那些有用信息的非平凡过程,这些信息的表现形式为:规则、概念、规律及模式等。它可帮助决策者分析历史数据及当前数据,并从中发现隐藏的关系和模式,进而预测未来可能发生的行为。数据挖掘的过程也叫知识发现的过程。
二、数据挖掘的方法
1.统计方法。传统的统计学为数据挖掘提供了许多判别和回归分析方法,常用的有贝叶斯推理、回归分析、方差分析等技术。贝叶斯推理是在知道新的信息后修正数据集概率分布的基本工具,处理数据挖掘中的分类问题,回归分析用来找到一个输入变量和输出变量关系的最佳模型,在回归分析中有用来描述一个变量的变化趋势和别的变量值的关系的线性回归,还有用来为某些事件发生的概率建模为预测变量集的对数回归、统计方法中的方差分析一般用于分析估计回归直线的性能和自变量对最终回归的影响,是许多挖掘应用中有力的工具之一。
2.关联规则。关联规则是一种简单,实用的分析规则,它描述了一个事物中某些属性同时出现的规律和模式,是数据挖掘中最成熟的主要技术之一。关联规则在数据挖掘领域应用很广泛适合于在大型数据集中发现数据之间的有意义关系,原因之一是它不受只选择一个因变量的限制。大多数关联规则挖掘算法能够无遗漏发现隐藏在所挖掘数据中的所有关联关系,但是,并不是所有通过关联得到的属性之间的关系都有实际应用价值,要对这些规则要进行有效的评价,筛选有意义的关联规则。
3.聚类分析。聚类分析是根据所选样本间关联的标准将其划分成几个组,同组内的样本具有较高的相似度,不同组的则相异,常用的技术有分裂算法,凝聚算法,划分聚类和增量聚类。聚类方法适合于探讨样本间的内部关系,从而对样本结构做出合理的评价,此外,聚类分析还用于对孤立点的检测。并非由聚类分析算法得到的类对决策都有效,在运用某一个算法之前,一般要先对数据的聚类趋势进行检验。
4.决策树方法。决策树学习是一种通过逼近离散值目标函数的方法,通过把实例从根结点排列到某个叶子结点来分类实例,叶子结点即为实例所属的分类。树上的每个结点说明了对实例的某个属性的测试,该结点的每一个后继分支对应于该属性的一个可能值,分类实例的方法是从这棵树的根结点开始,测试这个结点指定的属性,然后按照给定实例的该属性值对应的树枝向下移动。决策树方法是要应用于数据挖掘的分类方面。
5.神经网络。神经网络建立在自学习的数学模型基础之上,能够对大量复杂的数据进行分析,并可以完成对人脑或其他计算机来说极为复杂的模式抽取及趋势分析,神经网络既可以表现为有指导的学习也可以是无指导聚类,无论哪种,输入到神经网络中的值都是数值型的。人工神经元网络模拟人脑神经元结构,建立三大类多种神经元网络,具有非线形映射特性、信息的分布存储、并行处理和全局集体的作用、高度的自学习、自组织和自适应能力的种种优点。
6.遗传算法。遗传算法是一种受生物进化启发的学习方法,通过变异和重组当前己知的最好假设来生成后续的假设。每一步,通过使用目前适应性最高的假设的后代替代群体的某个部分,来更新当前群体的一组假设,来实现各个个体的适应性的提高。遗传算法由三个基本过程组成:繁殖(选择)是从一个旧种群(父代)选出生命力强的个体,产生新种群(后代)的过程;交叉〔重组)选择两个不同个体〔染色体)的部分(基因)进行交换,形成新个体的过程;变异(突变)是对某些个体的某些基因进行变异的过程。在数据挖掘中,可以被用作评估其他算法的适合度。
7.粗糙集。粗糙集能够在缺少关于数据先验知识的情况下,只以考察数据的分类能力为基础,解决模糊或不确定数据的分析和处理问题。粗糙集用于从数据库中发现分类规则的基本思想是将数据库中的属性分为条件属性和结论属性,对数据库中的元组根据各个属性不同的属性值分成相应的子集,然后对条件属性划分的子集与结论属性划分的子集之间上下近似关系生成判定规则。所有相似对象的集合称为初等集合,形成知识的基本成分。任何初等集合的并集称为精确集,否则,一个集合就是粗糙的(不精确的)。每个粗糙集都具有边界元素,也就是那些既不能确定为集合元素,也不能确定为集合补集元素的元素。粗糙集理论可以应用于数据挖掘中的分类、发现不准确数据或噪声数据内在的结构联系。
8.支持向量机。支持向量机(SVM)是在统计学习理论的基础上发展出来的一种新的机器学习方法。它基于结构风险最小化原则上的,尽量提高学习机的泛化能力,具有良好的推广性能和较好的分类精确性,能有效的解决过学习问题,现已成为训练多层感知器、RBF神经网络和多项式神经元网络的替代性方法。另外,支持向量机算法是一个凸优化问题,局部最优解一定是全局最优解,这些特点都是包括神经元网络在内的其他算法所不能及的。支持向量机可以应用于数据挖掘的分类、回归、对未知事物的探索等方面。
事实上,任何一种挖掘工具往往是根据具体问题来选择合适挖掘方法,很难说哪种方法好,那种方法劣,而是视具体问题而定。
三、结束语
中图分类号:G642.0 文献标志码:A 文章编号:1674-9324(2012)12-0218-02
一、背景
“数据仓库与数据挖掘”是国内外高等院校一门重要的课程,是国家基础教育较为重视的一门学科,受到不同专业学生的喜爱。其教学目标是提高学生的数据分析水平和能力,除了教授学生数据分析的常见方法之外,还将引导学生如何对实际的问题进行建模,如何对模型进行简化和求解。利用实例教学等方法,可以很好地将数据挖掘中的抽象概念、模型、公式等阐述清楚,让学生易于理解和接受。近年来,数据挖掘技术在医学领域中的应用越来越广泛。在疾病诊断、治疗、器官移植、基因研究、图像分析、康复、药物开发、科学研究等方面都获得了可喜的成果。运用各种数据挖掘技术了解各种疾病之间的相互关系、各种疾病的发展规律,总结各种治疗方案的治疗效果,以及对疾病的诊断、治疗和医学研究都是非常有价值的。因此,我们学院也把这门课程作为计算机专业及信息管理与信息系统专业的必修课。把计算机与医学结合,使得学生的培养方案全面包括了计算机与医学的知识点。由于该课程原本属于研究生阶段开设的专业课程,教材也大多侧重于介绍体系结构、算法原理、效率分析与改进等理论知识,其中所涉及的内容大多比较深,许多知识都超出了本科生的接受范围,此外,教材对相关理论在实际应用方面的说明也比较少,不利于安排实验教学。因此要实现“数据仓库与数据挖掘”课程的教学目标,必须在理论教学和实验教学环节综合考虑学时多少、教学条件以及学生的接受情况等因素,灵活地加以选择安排。
二、存在的问题
主要包括以下几方面:①课堂上以教师讲、学生听的教学形式为主,学生学习处于被动状态,他们的创造性因此被严重扼杀;②教师对专业课程体系和学生的知识体系不够重视,对课程体系的讲解不到位,造成学生在学习时课程之间联系不上,知识衔接不好,对知识的运用和融会贯通比较差;③实验与理论脱节。“数据仓库与数据挖掘”课程理论讲授的算法与实验软件中的算法有很大差距,使得学生难以理解。比如对于理论上讲授的关联规则算法,实验中使用SQL SERVER 2005中的商务智能工具做实验,学生发现有很多参数与理论上讲授的有很大不同;④医学院校的学生对纯粹计算机理论知识接受困难。由于该门课程是交叉学科,涉及计算机、数学、统计学等知识,如果学生的其他学科学得不好,就会对该课程的学习产生障碍;⑤教师讲授没有把理论课程结合到实际应用中。有很多学生不知道学习这门课的意义,老师没有很好引导学生,激活他们的学习热情。
三、目标驱动的教学框架
对于以上问题,本文提出了一个新的教学体系,设计了一套基于目标驱动的教学框架,把教师与学生紧密联系起来,从教学大纲的设置,教材的选择,理论教学,实验教学,课程设计及毕业论文,全面引导学生从初步了解到深入学习的过程。对于我们学校的实际情况,有两个专业的学生要学习这门课程。一个是计算机科学与技术专业,一个是信息管理与信息系统专业。对于两个不同的专业,我们设置不同的教学大纲。比如对于计算机专业的学生,数据仓库和数据挖掘教学总时数为72学时,其中理论为54学时,实验为36学时。
1.理论教学。对于信息管理与信息系统专业的学生,我们可以设置如下的教学计划,可分为三个主要部分。我们教材选择韩家炜的《数据挖掘概念与技术》,第一部分:第一至四章为数据挖掘的基础知识,包括数据仓库和数据挖掘的基本概念和相关知识介绍;第二部分:第五、六章介绍了数据挖掘的算法和工具;第三部分:第七章是数据挖掘的聚类分析的实际应用。本课程是信息管理与信息系统专业本科生专业必修课。通过该课程的学习,要求学生掌握数据仓库和数据挖掘的基本概念,了解基本方法和应用背景。掌握数据仓库的设计和建立,掌握数据挖掘的主要步骤和实现方法,数据挖掘的常用算法,实现数据挖掘的具体操作。理论学时的安排,第一章绪论(6学时);第二章数据仓库(4学时);第三章数据预处理(8学时);第四章数据挖掘发现知识的类型(8学时);第五章数据挖掘中常用算法(12学时);第六章数据挖掘的工具及其应用(8学时);第七章数据挖掘应用实例(8学时)。
2.实验教学。本课程配合理论教学,通过系统的实践教学锻炼,着重培养学生的独立分析问题和解决问题的能力,熟练掌握数据仓库的设计和建立以及各类数据挖掘方法,使学生具有一定的数据分析和挖掘能力,能在认识基础上,提出有效的数据挖掘方法,依据实际例子,写出解决方案。学生应在实验课前明确实验的目的和要求,然后针对相关问题写出解决方案。实验时对实际方案的运行结果应能进行分析并提出改进方法,最终写出实验报告。通过实验教学应达到以下基本要求:①理解数据仓库的工作机理及其构建过程;②掌握典型的数据仓库系统及其开发工具的使用;③理解数据挖掘技术的工作原理与流程;④掌握典型数据挖掘工具的使用;⑤掌握几种典型的数据挖掘算法;⑥掌握使用SQL SERVER 2000和SPSS工具解决实际问题。实验成绩包括:实验教学过程成绩、实验报告成绩,各占50%。实验过程表现成绩包括:学习态度是否认真、实验操作是否正确规范、基本技能掌握程度是否具有创新意识等方面。实验报告成绩包括:实验报告格式是否正确、原理是否论述清楚、实验结果分析讨论是否符合逻辑,报告字迹是否清楚等方面。
3.课程设计。理论课和实验课接近结束时,我们把最后三周作为本门课程的课程设计。课程设计的目的是让学生进一步深刻理解所学知识。由于本门课程很多算法不容易理解,如何让学生把所学知识结合到医学应用中是课程设计的关键。比如我们对信息管理与信息系统专业的学生课程设计,要求学生每人选择一个老师给定的题目,课程设计有详细的要求,比如题目“数据挖掘在医学诊断中的应用”要求学生能把本门课程相关的算法结合使用,最后给出详细的分析。通过课程设计,我们发现,学生对本门课程更有兴趣。
4.毕业论文。我们把课程一般开设在大三的下学期,也就是说学生学完这门课程后,就做了该门课的课程设计,使得学生对数据挖掘相关知识有了比较深刻的认识。这样,我们可以引导学生毕业论文的选择。毕业论文毕竟是反映学生大学四年所学知识,也对他们将来就业起到提前培训的作用。把理论结合实践,老师对学生的引导也十分重要。
我们根据医学院校的特征,提出了一套目标驱动的教学理念,从学生认识这门课程到学生理论课的学习,实验课的学习,课程设计及毕业论文的完成,在老师的指导下,使用我们的考核体系,可提高学生对所学课程的兴趣。
1.引言
计算机网络技术的普及与应用给人们的生活带来了翻天覆地的变化,同时在网络上产生了大量杂乱无章的数据。而网格技术、Web技术的发展,为人们从分布的网络资源中寻找有价值的信息提供了新的技术支持,同时也产生了许多基于网格的数据挖掘系统。而数据挖掘算法又是决定一个数据挖掘系统性能的主要衡量指标。任何软件系统的设计都离不开算法,数据挖掘技术的执行效率也与数据挖掘算法有关,随着数据库技术与数据挖掘技术的成熟与发展,像分类、聚类、决策树、关联等等数据挖掘算法已相当成熟,可以研究借鉴现有数据挖掘方法、数据挖掘模式、数据挖掘流程,建立一个基于网格的数据挖掘系统。笔者以众多数据挖掘算法中的聚类分析算法为例,介绍基于GT4(Globus Tookit 4.0的简称,GT4的核心开发工具包(Java Web Service Core))的数据挖掘算法的设计过程。
聚类分析(Clustering Analysis)是一个应用比较广泛的数据挖掘算法,算法的理论研究与实践应用都已经很成熟,把这一成熟的理论应用于基于网格的分布式系统中,会大大提高数据挖掘的效率。本文主要研究如何将聚类分析的CURE(Cluster Using Representation)算法和K-平均方法算法应用于基于GT4数据挖掘系统中。
2.系统结构设计
基于GT4数据挖掘系统的数据源是分布式数据源,分布式数据源是指在物理上分布而逻辑上集中的数据源系统。在该系统中,处在这个网格中的每台计算机就是这个网格的一个节点,称之为网格节点。在众多的节点中,要有一个网格节点来控制和管理其他的节点,这个节点就叫做网格中心控制节点,决策支持都是由网格中心控制节点完成的。如果要完成某个数据挖掘任务,则可以由空闲的网格节点先按挖掘需求来完成本节点的挖掘任务,再由网格中心控制节点来汇总每个节点的数据挖掘情况。局部网格节点管理的信息具有局限性,涉及的范围较小,主要完成单个节点数据的管理,对局部的数据挖掘结果进行汇总分析,但是这些局部节点的数据与全局节点的数据又是有一定关联的。根据以上的分析可知,网格平台下的数据挖掘任务由全局数据挖掘与局部数据挖掘共同完成。
3.算法的Web Service设计
3.1 全局聚类算法的Web Service设计
网格环境下的全局控制网格节点与局部网格节点间的关系我们可以理解为上下层的关系,这样就可以借鉴基于层次的聚类分析算法,按照层次的自底向上的聚类方式,把全局控制节点当成是层次聚类的顶层。本课题全局聚类算法借鉴传统的利用代表点聚类算法CURE。
CURE算法将层次方法与划分方法结合到一起,选用有代表性的、固定数目的空间点来表示一个聚类。算法在开始时,每个点都是一个簇,然后将距离最近的簇结合,一直到簇的个数为要求的K。首先把每个数据点即局部网格节点看成一个聚类,然后再以一个特定的收缩因子向中心收缩它们。
CURE算法的主要执行步骤如下:
(1)从数据源样本对象中随机抽取样本集,生成一个样本集合S;
(2)将样本集合S分割为一组划分,每个划分大小为S/p;
(3)对每个划分部分进行局部聚类;
(4)通过随机采样剔除聚类增长太慢的异常数据;
(5)对局部聚类进行聚类,落在每个新形成的聚类中的代表性点,则根据用户定义的收缩因子收缩或移向聚类中心;
(6)用相应的标记对聚类中的数据标上聚类号。
有了数据挖掘算法,就可以完成数据挖掘任务了。全局聚类算法的主要功能是响应用户的数据挖掘请求,将对应的请求发送给局部网格节点,将局部网格节点的挖掘结果整理输出。全局聚类算法Web Service资源的结构包括算法Web Service接口、算法资源属性文档、算法功能实现和算法功能四个部分。
利用传统的聚类算法完成全局的数据的并行挖掘最重要的一步就是将全局聚类算法部署到GT4中,完成全局聚类算法的Web Service设计要经过过以下几步:
第一步:用WSDL(Web Service描述语言,是Web Service提供的XLM语言)来描述数据挖掘服务接口,该服务接口可以用Java来定义,利用Java-to-WSDL工具把Java定义的接口转为WSDL文件。
第二步:用Java编写全局聚类算法(CURE)代码;
第三步:用WSDD配置文件和JNDI(GT4自带文件)部署文件;
第四步:用Ant工具打包上面的所有文件,生成一个GAR文件;
第五步:向Web Service容器部署全局数据挖掘服务。
3.2 局部聚类算法的Web Service设计
局部聚类算法的主要功能是完成局部网格节点的数据挖掘任务,并把数据挖掘结果上传到全局控制节点。局部网格节点的数据挖掘任务与传统的单机数据挖掘任务类似,本课题局部聚类算法使用传统的聚类算法K-平均方法,以K为参数,把N个对象分为K个簇,簇内具有较高的相似度,而簇间的相似度较低[34]。本论文的数据挖掘任务主要是由局部网格节点实现的,下面就详细的介绍K-平均算法的主要执行过程如下:
(1)从数据集中任意选择K个对象作为各个簇的初始中心。
(2)根据现有的簇中心情况,利用距离公式计算其他对象到各个簇中心的距离。(可选的距离公式有:欧几里、行德公式、距离公式、曼哈坦距离公式、明考斯基距离公式)。
(3)根据所得各个对象的距离值,将对象分配给距离最近的中心所对应的簇。
(4)重新生成各个簇的中心。
(5)判断是否收敛。如果收敛,即簇不在发生变化,那么停止划分,否则,重复(2)到(5)。
K-平均算法是一个经典的聚类算法,将K-平均算法部署到GT4中,完成局部聚类算法的Web Service设计,部署方法与全局算法相似。
4.结论
基于GT4的数据挖掘系统中的数据挖掘服务资源有网格的中心控制节点(即全局节点)进行统一的管理,在局部网格节点挖掘过程中,根据其处理能力分配最佳的数据集给局部节点,从而使整个系统的计算负载相对均衡。其数据挖掘系统的规模可随着服务的多少动态伸缩。当系统要增加新的局部挖掘节点时,只需部署局部Web Service资源即可。将网格应用到分布式数据挖掘系统中,建立一个基于网格的数据挖掘系统,必将使其在各个领域都得到广泛的应用。
参考文献
【引言】随着我国信息技术的进步,数据挖掘技术得到广泛应用,在软件工程中需要对数据信息进行搜集、分类与整理,通过数据挖掘技术的应用可以有效提高工作效率,推动软件工程的有序发展。我国对数据挖掘技术的应用与研究虽然处于初级阶段,但通过不断的经验积累也能够发挥技术的更多价值。
1数据挖掘技术概述
数据挖掘技术指的是在信息技术发展背景下,对信息数据展开处理的技术。与过去的信息处理技术相比,数据挖掘技术功能更加强大,可以应用在各个领域,无论是数据处理、数据转换还是数据分析,都能够完成相互之间的联系,并对数据进行最终评估。将数据挖掘技术应用在软件工程中,能够提高企业处理信息数据的效率,避免操作失误,保护企业数据准确[1]。
2数据挖掘技术在软件工程中的重要性分析
2.1高效整合多样化信息数据
由于数据挖掘技术的功能比较多,其中包含了传统处理技术的功能,实现多样化信息的收集与分类,并将数据按照类别存储与整理。数据挖掘技术可以在多样化数据中实现数据的系统化管理,为人们进行数据查阅工作带来方便。在软件工程中应用该技术,方便信息数据的高效整合,帮助企业全方位了解信息与数据[2]。
2.2保证信息数据的准确率
数据挖掘技术拥有强大数据运算功能,以往的数据信息系统运算数据时需要耗费大量时间与成本。如果信息数据体系庞大,系统运算时会面临瘫痪问题。在软件工程中,一旦系统发生瘫痪,系统将无法正常使用,数据也会受到破坏。应用数据挖掘技术之后可以有效解决以上问题,实现系统的优化,使系统可以在最短时间内处理数据,防止信息数据发生丢失现象,提高数据处理的时效性。面对大量的信息数据,有的数据得不到利用,但长期处于系统中会影响系统运行效率,应用数据挖掘技术可以将无价值的数据剔除,留下有用的信息数据,保证系统的运行效率和数据质量。
2.3缩短信息数据处理时间
在软件工程中应用数据挖掘技术可以分类处理杂乱无章的数据,实现数据的转换与调用。对数据进行深入挖掘处理时也可以应用数据挖掘技术进行数据的分类,并对模糊数据及时清理,提高系统内现存数据的实用价值。人们获取到的信息数据需要进行反复核对,以此保证数据真实性,通过数据挖掘技术的应用减少时间浪费,提高数据核对效率。
3数据挖掘技术在软件工程中的应用分析
3.1系统结构
数据挖掘技术应用流程主要分为三个阶段:数据预处理、数据挖掘、模式评估与知识表示。在数据预处理阶段中,高效得到原始数据的根本原因在于确定任务处理对象,得到符合软件工程需求的数据。通过数据清洗弥补原始数据存在的缺陷,确保数据的完整性。数据抽取需要从数据库中选择与软件工程任务相符合的信息。数据转换需要将数据格式加以转化,实现数据的适用性。在数据挖掘中需要制定一定的挖掘任务,通过对数据的分类与评价总结,合理应用运算方法进行数据推敲。在模式评估与知识表示中,其实际用途在于挖掘成功的表达,将兴趣度作为衡量标准,提高数据表达的识别能力。
针对软件工程中数据挖掘技术的优化应用,可以从系统结构方面入手,具体如下:(1)检测软件工程中的克隆代码。以软件工程为标准,将一部分代码复制,结合实际情况更改一部分代码,并对这些代码进行检测,代码检测与更改可以同时进行,能有效提高检测效率,实现系统的维护工作。当前应用数据挖掘技术进行克隆代码检测的方式一共有四种,具体为比较标识符、对比文本、检测系统程序结构与度量圈。在实际操作中,要求人们结合实际情况选择相应的克隆代码检测方法。(2)数据信息挖掘法。这是以横切关注点为主的挖掘方法,在软件工程中应用该方法可以改造系统,对数据信息达到良好的处理效果[3]。
3.2软件管理
为了让数据挖掘技术更好地应用在软件工程中,需要从软件管理角度入手,采用以下两方面举措。一方面,深入挖掘数据的组织关系,另一方面,挖掘版本控制信息。软件工程系统比较繁琐,挖掘组织关系时较为困难,人们需要合理调配各项信息,以此作为挖掘的依据。如果以软件工程管理流程作为主题,对电子邮件与共享文件展开组织关系挖掘,可以有效避免系统流程发生混乱,保护软件管理的秩序。当信息数据发生变化时,应用数据挖掘技术进行软件管理,将版本控制作为重要依据,将数据挖掘技术与版本控制相联系,降低系统运行成本,并达到警示的效果,提高软件工程的管理水平。
3.3软件开发
在软件工程初期阶段,人们将数据挖掘技术看成数据库,随着技术的发展,软件工程发展到现实应用,系统和现实共同发展。软件工程将各项指标与要求紧密结合,研发出最新产品,以往的软件工程中软件开发十分困难,而如今应用数据挖掘技术,可以将其与数据库相融合,发挥数据库内信息的最大价值,有效推动软件开发的进步。不仅如此,软件工程可以对信息进行更深层次的挖掘,充分发挥软件工程的价值,利用数据挖掘技术实现数据的更新,保证软件开发质量,优化软件操作流程。在技术的支持下,人们可以合理划分软件内部,方便及时发现问题,并展开积极有效的问题处理。利用数据挖掘技术可以进行网站设计,对网站内容进行挖掘,特别是对文本内容的挖掘,随后整合网站信息,通过自动归类技术实现信息的层次性组织。在软件或网站管理中,应用数据挖掘技术可以根据用户对网站的访问记录,进行记录信息挖掘,从中了解用户对该网站内容的兴趣,进而对用户提供信息推送服务和定制服务,以此吸引更多用户访问该网站。
在软件开发阶段,可以使用DataAnalytics轻量级业务数据可视化分析平台,这是数据挖掘技术的一项成果。该平台能够实现异构数据源的高效整合,可以兼容各种数据源类型,支持海量数据。可接入Excel/CSV等数据文件、企业各种业务系统、第三方互联网数据、公共数据服务平台等来源,轻松整合所有相关业务数据,帮助企业消灭数据孤岛。企业利用该平台可以完成数据的深度交互分析,DataAnalytics基于探索式分析,支持智能推荐图形与图表,二者可以协同过滤,帮助用户快速定位,通过数据挖掘找出问题,以拖拽式操作方法解决问题。
3.4聚类
在数据挖掘技术中聚类指的是对各个环节数据加以分析,结合软件工程的具体要求实现数据细化,以类型细化作为基础,为原始数据类型做出保障。通过聚类可以让同种类型数据具有相似性特点,在存在相似性的同时,也存在一定的差异,突出各自的特点。应用数据挖掘技术实现聚类划分时,面对的对象无法预测,与其他算法相比,聚类拥有更加广泛的应用范围,进行数据分析时更加独特,挖掘信息数据时可以确保检测结果的有效性与真实性。
4结论
总而言之,随着信息技术的深入发展,人们已经步入信息时代,数据挖掘技术也成为对信息数据展开处理和存储的有效方式。在软件工程中应用数据挖掘技术,有利于提高软件开发效率,提升软件管理质量,加强数据挖掘力度,使数据挖掘技术发挥巨大效果,人们可以应用数据挖掘技术完成数据的聚类和网站设计,为人们的生活带来便利。
软件工程硕士论文参考文献:
[1]张立鉴.数据挖掘技术在软件工程中的应用研究[J].网络安全技术与应用,2019(6):47-48.
[2]张玉亮.突发事件网络舆情的生成原因与导控策略――基于网络舆情主体心理的分析视阈[J].情报杂志,2012,31(4):54-57.
[3]许鑫,章成志,李雯静.国内网络舆情研究的回顾与展望[J].情报理论与实践,2009,32(3):115-120.
[4]Hua Zhao,Qingtian Zeng.Micro-blog Hot Event Detection Based on Dynamic Event Model.Lecture Notes in Artificial Intelligence 8041,2013:161-172.
[5]郑军.网络舆情监控的热点发现算法研究[D].哈尔滨哈尔滨工程大学,2007.
[6]陈耘可,李博,郑天翔.PDCA循环在煤炭企业质量标准化建设中的研究与应用[J].煤炭经济研究,2013,33(2):77-79.
在电子政务信息建设中已经有了成功的电子政务业务处理和信息管理系统,卓有成效的过程控制指挥系统和办公自动化系统。但从电子政务全局的高层次和大范围的分析角度去审视,则感到数据分散,难以整合。因此,研究电子政务数据仓库和数据挖掘很有必要。
1.电子政务信息建设的数据仓库
电子政务数据仓库是电子政务信息架构的新焦点,它提供集成化的和历史化的电子政务业务数据;它集成种类不同的电子政务应用系统;电子政务数据仓库从事物发展和历史角度来组织和存储电子政务数据,以供信息化和分析处理之用。它是对现有电子政务信息系统深刻认识的结果,来自异地、异构的电子政务数据源或数据库的数据经过加工后在电子政务数据仓库中存储、提取和维护。传统的电子政务数据库主要面向业务处理,而电子政务数据仓库面向复杂数据分析、高层决策支持。电子政务数据仓库提供来自种类不同的电子政务应用系统的集成化和历史化的数据,为全局范围的电子政务战略决策和社会治安长期趋势分析提供有效的支持。免费论文参考网。目前,经过近20年的建设,全国电子政务信息系统建设已经积累了大量数据,对于电子政务工作起了意义深远的推动作用,电子政务工作已经初步进入了数字化、电子化、信息化,极大地提高了电子政务工作的效率。以土地管理为例,现在的管理方式是以前不能比拟的。但是,如何将这些数据用于全局范围的战略决策和长期趋势分析,则是需要进一步解决的问题。例如,土地问题,近年来始终与住房问题、物价问题和就业问题一起,成为全国人民非常关心的问题,其问题有表面的原因,也有深刻的历史原因和现实原因。如何花较少的代价,将此问题解决得圆满一些,建设电子政务数据仓库是一重要手段。免费论文参考网。
电子政务数据仓库是一种全新的分布式异构数据系统的集成方法:把各个信息源中与决策支持有关的数据,预先经过提取、转换、过滤,并与相应信息源中其它数据进行合并,按主题存放在一个中央数据库中,当用户需要查询时,可以直接访问中央数据库,不必访问其它数据源。
电子政务数据仓库包括3个基本的功能部分。数据获取:从电子政务一线数据源获取数据,数据被区分出来,进行拷贝或重新定义格式等处理后,准备载入电子政务数据仓库。数据存储和管理:负责电子政务数据仓库的内部维护和管理,包括数据存储的组织、数据的维护、数据的分发。信息访问:属于电子政务数据仓库的前端,面向用户------提取信息、分析数据集、实施决策。进行数据访问的工具主要是查询生成工具、多维分析工具和数据挖掘工具等。
电子政务数据仓库的特点:针对全局电子政务业务战略分析,非常详细的数据,第三范式数据结构,高层次和大范围的分析,详细的历史信息,存储和管理大量的数据,整个数据结构统一,索引较少。
因此,原来对分布式异构数据的复杂访问变成直接在该仓库上进行即席查询的简单操作:用户需要某些指定信息和快速查询,但不一定要最新信息,在这个环境中需要高性能和访问信息源中不能长期保存的信息。
电子政务数据仓库是一个比传统解决方法更为有效的集成技术,即对感兴趣的数据及其变化预先提取并按公共模式集成到一个中央数据库中,由于分布和异构问题被提前解决,用户可以在中央数据仓库上进行高效的查询或分析。
由于电子政务数据仓库的体系结构,必须照顾电子政务已有的信息系统的体系结构,以及相关的基础设施,因此,确定电子政务数据仓库的体系结构,必须兼顾用户需求的多变性、基础设施的复杂性、技术更新的步伐。数据仓库本身可以使用通用的或者特别要求的数据库管理系统来实现。尽管在图中表示的是一个单独的、中央化的数据仓库,实际上,为了达到理想的性能,分布式和并行性往往是必然的选择。
电子政务数据仓库技术中一些比较重要的问题是:数据仓库管理,数据源和数据仓库的演化,复制带来的不一致,过期数据处理等。电子政务数据仓库管理涉及电子政务数据仓库开发的各个阶段,与之相关的问题涉及电子政务数据仓库设计、数据装载、元数据管理等。数据源和数据仓库演化,则是研究电子政务数据仓库体系结构如何顺利处理信息源的变化问题,如模式变化、新信息源加入,旧信息源删除等。复制不一致,是指从各个信息源拷贝来的同一信息或者相关信息出现的不一致,一般用集成器对这些数据进行清理。对于电子政务数据仓库中的数据,可能会保存很多年,但是一般不会永远保留下去,这就要求研究比较可靠的技术以保证过期的数据,可以自动而有效地从电子政务数据仓库中被清除出去。
2.电子政务数据挖掘一般方法
电子政务部门在过去若干年的时间里都积累了海量的、以不同形式存贮的数据资料,例如户籍资料、土地资料和规划管理资料等。此外,电子政务工作所涉及到的数据类型是相当复杂的,例如:用地指数,其特征抽取相当复杂;土地配置规律特点,其数据联系是非平面的,也是非标准立体的。由于这些资料十分繁杂,要从中发现有价值的信息或者知识,达到为决策服务的目的,成为非常艰巨的任务。电子政务数据挖掘一般方法的提出,让用户有能力最终认识数据的真正价值,即蕴藏在数据中的信息和知识。
电子政务数据挖掘是按照既定的电子政务业务目标,对大量的数据进行探索、揭示隐藏其中的规律性并进一步将其模型化的先进、有效的方法。数据是按照电子政务数据仓库的概念重组过的,在电子政务数据仓库中的数据、信息才能最有效的支持电子政务数据挖掘。因此,首先从正在运行的电子政务计算机系统中完整地将数据取出;其次各个环节的数据要按一定的规则有机、准确地衔接起来,以极易取用的数据结构方式,全面地描述该业务目标。
电子政务数据挖掘就是从大量的、不完全的、模糊的、有噪声的、随机的数据中,提取隐含在其中的、事前不知道的、但是潜在有用的信息和知识的过程。电子政务数据挖掘技术是面向应用的,不仅面向特定数据库的简单检索和查询调用,而且要对这些数据进行微观和宏观的分析、统计、综合和推理,从中发现事件间的相互关系,对未来的活动进行预测。
3.基于电子政务数据仓库的数据挖掘
基于电子政务数据仓库的数据挖掘的方法,是以电子政务数据仓库为中心,各信息源由原始数据库,经过打包和集成到电子政务数据仓库;基于电子政务数据仓库的数据挖掘,是通过模型库和方法库的协助,对电子政务数据仓库进行数据挖掘,从而获得分析预测结果和决策支持的。
基于电子政务数据仓库的数据挖掘的特点:1、规模: 电子政务数据仓库中集成和存储着来自若干分布、异质的信息源的数据。免费论文参考网。这些信息源本身就可能是一个规模庞大的电子政务数据库,可以想象数据仓库会有比一般数据库系统更大的数据规模。如何从如此巨量的数据中有效的提取有用信息,需要各方面技术的进步。从当前发展来看,支持并行处理的分布式DBMS、具有大规模并行处理(MPP)能力的计算机、超大规模的存储机构等技术的发展和协同将使电子政务数据仓库走向实用。2、历史数据:传统的电子政务数据库系统为了获得最大的执行效率,往往存储尽可能少的数据量。因为,拥有的数据越多,数据组织、重构、浏览、索引和监控的难度越大。传统电子政务数据库系统在“时间”方向的长度很有限。比较而言,电子政务数据仓库的根本特征之一就是进行长时间的历史数据存储,这使得可以进行数据长期趋势的分析。电子政务数据仓库为长期决策行为提供了独一无二的支持,电子政务数据仓库中的数据在时间方向上具有大的纵深性。3、数据集成和综合性:从全局的角度看,数据仓库集成了电子政务内各部门的全面的、综合的数据。电子政务数据挖掘面对的是关系更加复杂的全局模式的知识发现,能更好地满足高层战略决策的要求。在电子政务数据仓库中,数据已经被充分收集起来了,进行了整理、合并,有些还进行了初步的分析处理。另外,电子政务数据仓库中对数据不同粒度的集成和综合,更有效地支持了多层次、多种知识的挖掘。4、查询支持 电子政务数据仓库面向决策支持,电子政务数据仓库的体系结构努力保证查询(Query)和分析的实时性。电子政务数据仓库设计成只读方式,用户可以直接访问电子政务数据仓库,挖掘过程可以做到实时交互,使决策者的思维保持连续,挖掘出更深入、更有价值的知识。
电子政务数据仓库和数据挖掘是将来电子政务智能化的基础,可以帮助用户得到他们想知道的信息,有些数据也许隐藏人们意想不到的信息,数据挖掘就是让用户发现这些隐藏信息的工具。电子政务数据仓库和数据挖掘研究和应用所面临的主要问题:挖掘的对象:更大型的数据库、更高的维数和属性之间的复杂关系;多种形式的输入数据;用户参与和领域知识的融合;证实(Validation)技术;知识的表达和解释机制;知识的更新和维护;多平台支持、与其他系统的集成。
中图分类号TP392 文献标识码A 文章编号 1674-6708(2013)83-0184-02
在高校教育领域,就当前阶段数据挖掘还是一种较新的技术。如何在高校的学生成绩管理中合理的利用数据挖掘技术,对存放了大量学生的信息的数据库中的数据进行挖掘处理,从而提取出可以对教师的教和学生的学都起到积极促进作用的关键性规律,获得更加良好的教学效果是我们目前高校的教育工作者面临的一大急需解决的有价值的问题。随着数据挖掘技术的成熟,它的应用领域也在不断的扩展,被关注程度也不断提高,很多高校已经投入大量的人力物力在这项研究工作上,并逐渐的将其研究成果应用于日常的教学及管理工作中。比如,将其应用在学生信息的管理、学生的各门课的成绩分析和考试系统、教育教学的评估工作等,这些应用都将对提高高校的教学和管理水平等各方面都起到十分显著的的指导作用[1]。
1 当前很多高校学生的成绩管理面临的问题
目前大部分高校教务管理系统是采用联机的事务处理系统对学生成绩进行管理,成绩数据只能简单地存储于数据库中,而对数据的处理也停留在单纯的数据查询和插入修改等功能上,仅有的对成绩的分析可能也只是求总和、平均值、均方差和合格率等之类的统计。教务管理系统中的数据单纯的保存了相关数据信息而没有能够挖掘出这些数据背后所隐藏的可能有用信息――例如学生每门课程取得的成绩的可能原因、每门课程的诸多知识点之间以及课程和课程之间的联系。庞大的数据库里数据和数据之间存在着很多的关联,我们如何充分利用这些数据关联,为高校教育教学决策者提供一定的决策依据,从而科学的指导教学,提高高校的教学及管理水平,进一步提高办学效益和水平,是目前高校需要去面对和解决的问题。
2 利用数据挖掘技术管理学生成绩
数据挖掘技术就是从大量的、有噪声的、不完全的、随机的、模糊的应用数据中来提取隐藏在其中的潜在并且十分有用的信息过程[2]。利用数据挖掘对存储在高校成绩数据库中的学生成绩数据信息进行全面的深层次的分析和挖掘,达到全面地分析成绩数据的优劣及产生原因、各种因素之间隐含的内在联系的目的。挖掘分析这些数据所隐藏的有用信息,找到对指导教师教学和学生学习有用的知识,帮助高校管理者对未来高校的发展进步的决策。由此可见,数据挖掘技术一定会在教师提高教学质量、学生增加学习效率和学校强化管理水平等方面起到至关重要的引导作用[3]。
第一,使用计算机对高校学生成绩进行信息管理相对于传统管理方法有着十分明显优势:在现代的互联网时代,信息的管理早已经超越传统概念,使用计算机存储量大且成本低,可以长久保存,同时对信息的检索更迅速也更方便,结果的可靠性也是传统管理方法不可比拟的,这些也正是高校管理正规化和教育单位的科学化所必需的。
第二,学生成绩管理系统对于任何一个教育单位来说都是一个不可或缺的组成部分。它对于高校的管理者的办学思路的抉择来说是至关重要的。高校的成绩管理系统不仅应该做到为用户提供方便快捷的查询手段还用改能够提供充分的信息量以满足不同用户的不同查询需求。学生可以通过这个系统方便的查找自己到各门课的考试成绩及其他的教学相关信息;教师也能够通过系统提供的查询和分析工具非常准确的掌握学生的成绩变化,及时获取教学效果反馈信息,改进教学方式方法等;对高校的管理者来说,运用了最新的数据挖掘技术的学生成绩管理系统也可以让他们更及时快捷的从海量的数据中找到有用的信息,从而为不断提高高校的办学质量和管理水平提供保障。
3 学生成绩管理系统的设计
3.1数据挖掘的过程
数据挖掘是一个多阶段的复杂过程,如图1所示直接数据目标数据净化数据数据源知识数据选择清理与集成数据转换数据挖掘模式评价数据预处理数据挖掘解释和评价。
主要分为以下六个主要步骤[4]:
1)确定数据源。数据源的确立是整个系统的基础,是挖掘结果准确的保证。对学生成绩信息进行数据挖掘时,面向对象是各类不同的学生,例如教务处要挖掘的信息是面向全校学生的成绩,从而掌握全校学生的学习情况,而每个系所要掌握的学生的学习情况是针对本系的学生来说的,所以要挖掘的对象也只是每个系学生的成绩信息。他们面向对象和数据挖掘的目的都是不同的;
2)选定模型。为所挖掘的问题选择恰当的数据挖掘方法,并且针对该挖掘方法选择几种或是一种的算法。选择何种算法将直接影响挖掘信息的质量;
3)采集数据。这个阶段在整个开发过程中将会占用开发者大部分的工作量和时间。因为开发者需要收集在以往的教学实践中的数据信息,这些信息中,有些数据他们可以以直接的方式获得,而有些数据可能需要对学生以问卷调查等形式获得。
4)数据预处理。开发者在这一步需要将收集到的大量的不同的数据预处理,使其为一个分析数据模型;数据预处理是数据挖掘很重要的一步,数据只有经过预处理才能提高挖掘对象的质量;
5)数据挖掘。算法在这一步得到具体的实现,开发者将对经过预处理的数据信息进行挖掘;
6)解释和评价。分析和验证上一步的挖掘结果,并从中找到有价值的信息,将其集成到教师的教学环节和学生的学习环节中去,使教师和学生可利用所得信息改进教和学的策略,指导学生进一步更好的学习。
3.2数据挖掘的方法
在实际应用中需要根据对信息的实际需求选择恰当的挖掘算法。通过对几种常用的数据挖掘方法进行比较和分析,本文选择了以下两种适合的算法:关联分析方法以及决策树分类方法。
1)关联分析
利用关联分析对数据进行挖掘的目的就是挖掘出隐含在数据之间的关系。首先给定一组或一个记录的集合,然后,通过分析此记录集合从而推导出信息之间的相关性[5]。一个适用于关联规则的最有说服力的例子就是“90%客户在购买黄油和面包的同时也会选择购买牛奶”,即:规则“购买黄油和面包也会同时购买牛奶”的信息可信度高达90%。在大型的数据库系统中,类似的关联规则会产生很多,因此需要开发者进行筛选。一般来说,我们会采用 “可信度”和“支持度”这两个闽值去淘汰一些没有太多实际意义的规则。
关联规则算法主要有以下两个步骤:第一步要求开发者查找出所有的频繁项集。频繁项集就是指其支持度大于或是等于最小支持度的那些项目集。第二步是指由频繁项集所产生的强关联规则,即所产生的以上规则一定要满足最小置信度和最小支持度[6]。
在实际教学中应用关联分析的数据挖掘方法对学生成绩信息进行分析和处理,研究课程的开设先后关系以及各门课程的成绩相关性,分析的结果将对一些课程的教与学提供很多有用的信息,使高校的教学工作迈上一个新的台阶。
2)决策树算法对学生成绩的分析
决策树算法是以实例为基础的归纳学习算法,用来形成数据挖掘的预测模型和分类器,同时可以对大量未知数据进行预测或分类、数据的预处理以及数据挖掘等。通常包括两部分:树的生成和树的剪枝[7]。
使用决策树算法来提取分类规则时,规则使用以“if――then”的形式表示。决策树算法和其他算法相比具有以下的优势:处理速度较快;从结果上来说,分类准确率也更相近,算法更容易转换为SQL语句。
4 结论
利用数据挖掘技术进行高校学生的成绩、心理分析和德育评估、教学及管理决策、教学质量评估等,能够为学生、教师以及教学管理人员等用户提供相应的数据信息支持,对教务管理和教学过程有着极为重要的指导意义,同时也为高校教与学、管理与决策的服务提供了一种新的思路。
参考文献
[1]刘春阳,数据挖掘技术在高校成绩管理中的应用研究,学位论文大连交通大学,2009.
[2]J.Braehaan,T.Anand.The Proeess of Knowledge Diseovery in Databases.A Human一eentered APProaeh.1996:37-58.
[3]刘军.决策树分类算法的研究及其在教学分析中的应用[D].河海大学,2006.
[4]邓景毅.关联规则数据挖掘综述[J].电脑学习,2006(3):2-3.
1 数据挖掘的功能
数据挖掘是从大量的数据中四栋搜索隐藏于其中的具有特殊关系性的信息过程。它是数据库知识发现KDD中的一个步骤。知识发现KDD过程由以下3个阶段组成:数据准备、数据挖掘、结果表示和解释。数据挖掘跟许多学科都交叉关联,包括数据库技术、统计学、机器学习、人工智能、云计算和可视化等。
数据挖掘的实际应用功能可分为三大类和六分项:分类和聚类属于分类去隔类;回归和时间序列属于推算预测类;关联和序列则属于序列规则类。分类常被用来根据历史经验已经分好的数据来研究它们的特征,然后再根据这些特征对其他未经分类或是新的数据做预测。聚类是将数据分群,其目的是找出群间的差异来,同时找出群内成员间相似性。回归是利用一系列的现有数值来预测一个数值的可能值。基于时间序列的预测与回归功能类似,只是它是用现有的数值来预测未来的数值。关联是要找出在某一事件与数据中会同时出现的东西。
2 降维
从降维的角度讲,整个数据挖掘的过程就是一个降维的过程。在这个过程中,需要对数据删除线性关系比较强的特征数据,再用一些算法,如信号分析算法、傅里叶转换、离散小波转换等算法,从数据中提取特征,再对数据做主成分析处理,得到最后的特征,再用数据挖掘算法来将这些特征转化为人类可读取的数据或信息。
3 分布式数据挖掘解决方案
随着分布式计算技术、云计算技术、hadoop生态圈和非结构化数据库等技术的发展,以及对大数据挖掘的需求,出现了一批分布式数据挖掘,比较典型的有Apache推出的基于Hadoop的Mahout和加利福尼亚大学伯克利分校AMP实验室推出的基于Spark的MLBase。在Mahout中主要实现3种类型的数据挖掘算法:分类、聚类(集群)和协同过滤。相比Mahout而言,MLbase更好的支持迭代计算,它把数据拆分成若干份,对每一份使用不同的算法和参数运算出结果,看哪一种搭配方式得到的结果最优。
4 大数据下的具体应用实例――生物信息学的应用
生物信息学(Bioinformatics)是生命科学、计算机科学、信息科学和数学等学科交汇融合形成的一门交叉学科。近年来随着先进仪器装备与信息技术等越来越广泛和深入的整合到生物技术中来,生物医学研究中越来越频繁的涉及到大数据存储和分析等信息技术。在使用计算机协助生物信息时,处理仅有计算机辅助的方式存储数据很显然是不够的,生物信息学研究的目的是运用计算机强大的计算能力来加速生物数据的分析,理解数据中所包含的生物学意义。当前生物信息学研究的热点有:
(1)由以序列分析为代表的组成分析转向功能分析。
(2)由对单个生物分子的研究转向基因调控忘了等动态信息的研究。
(3)完整基因组数据分析。
(4)综合分析。
生物信息数据具有如下特点:高通量与大数据量;种类繁多,形式多样;异构性;网络性与动态性;高维;序列数据等特点[5]。针对这样的生物数据信息,要结合当前的大数据分析方法进行分析和理解。当前数据挖掘实现对生物信息分析的支持主要有:生物数据的语义综合,数据集成;开发生物信息数据挖掘工具;序列的相似性查找和比较;聚类分析;关联分析,生物文献挖掘等方面。
参考文献
[1]许凡.大数据时代的数据挖掘技术探讨[J].电子技术与软件工程,2015(08).
[2]洪松林.数据挖掘技术与工程实践[M].北京:机械工业出版社,2014(11).
[3]李荣.生物信息数据挖掘若干关键问题研究与应用[D].复旦大学(博士论文),2004(11).
[4]宋杰.生物信息数据挖掘中的若干方法及其应用研究[D].大连理工大学(博士论文),2005(04).
[5]孙勤红.基于梯度采样局部收敛的生物信息大数据挖掘[J].科技通报,2015(10).
作者简介
孙勤红(1979-),女,山东省人。现为三江学院计算机科学与工程学院讲师。研究方向为人工智能、数据挖掘。
数据挖掘技术作为当前计算机信息技术中的一项较为新兴的技术,综合运用了数理统计、模式识别、计算智能、人工智能等多项先进技术,主要是从大量的数据中来发现和挖掘一些隐含的有价值的知识,也就是从大型的数据库数据中挖掘一些人们比较感兴趣的知识,这些被提取的知识通常会表现为模式、规律、规则和概念,将数据挖掘的所有对象定义成数据库或者是文件系统以及其他的一些组织在一起的数据集合,数据挖掘技术也是现在智能理论系统的重要研究内容,已经开始被应用于行政管理、医学、金融、商业、工业等不同的领域当中,在保护设备故障信息管理方面发挥出了积极的作用。
一、数据挖掘技术的概念
随着数据库技术和人工智能技术的不断进步,数据挖掘技术逐步发展起来,主要是指从大量的数据中发现和挖掘一些隐含的有价值的有用信息和知识,这些被提取的知识通常会表现为模式、规律、规则和概念,将数据挖掘的所有对象定义成数据库或者是文件系统以及其他的一些组织在一起的数据集合,当前数据挖掘技术已经逐渐被应用于了医药业、保险业、制造业、电信业、银行业、市场营销等不同的领域,随着计算技术、网络技术以及信息技术的不断进步,在故障诊断过程中所采集到的数据可以被广泛地存储在不同的数据库当中,如果依然采用传统的数据处理方法来对这些海量的信息数据进行分析处理,不仅会浪费大量的实践而且也很难挖掘到有效的信息数据,同时,尽管智能诊断以及专家系统等方式在故障的诊断过程中已经被得到了广泛的应用,但是这些方法却仍然存在着很多推理困难、知识瓶颈等一些尚未完全被解决的问题,采用数据挖掘技术就可以比较有效地来解决这些难题,在故障诊断的过程中发挥其独特的优势。wWW.133229.Com从不同的角度进行分析,数据挖掘技术可以分为不同的方法,就目前的发展现状来看,常用的数据挖掘技术方法主要有遗传算法、粗集方法、神经网络方法以及决策树方法等。
二、数据挖掘技术在保护设备故障信息中的实现方法
1.基本原理。在设备出现故障时采用数据挖掘技术对设备进行一系列的故障诊断,也就是说根据这一设备的运行记录,对其运行的趋势进行预测,并对其可能存在的运行状态进行分类,故障诊断的实质就是一种模式识别方式,对机器设备的故障进行诊断的过程也就是该模式匹配和获取的过程。
2.对故障诊断的数据挖掘方法建模。针对机械故障的诊断来说,首先就应当获取一些关于本机组的一些运行参数,既要包括机器在正常运行以及平稳工作时的信息数据,也应当包括机器在出现故障时的一些信息数据,在现场的监控系统中往往就会存在着相应的正常工作状态下以及出现故障时的不同运行参数,而数据挖掘的任务就是从这些杂乱无章的信息样本库中找出其中所隐藏着的内在规律,并且从中提取各自故障的不同特征,在对故障的模式进行划分时,我们通常可以借助概率统计的方式,在对故障模式进行识别时可以采用较为成熟的关联规则理论,实现变量之间的关联关系,并最终得到分类所需要用到的一些规则,从而最终达到分类的目的,依据这些规则,就可以对一些新来的数据进行判断,而且可以准确地对故障进行分类,找出故障所产生的原因和解决故障的正确方法。
三、数据挖掘技术保护设备故障信息管理的基本功能
1.数据传输功能。数据挖掘技术保护设备故障信息管理与分析系统的主要数据来源就是故障信息的分站系统,而分站系统中的数据是各个子站的一个数据汇总,而保护设备故障信息管理与分析系统所采用的获取数据的主要方式就是一些专门的通信程序构建起系统与分站之间的联系,将分站上的一些汇总数据传输到故障信息系统的数据库中,分析系统所具有的数据传输功能,在进行数据的处理时又能做到不影响原先分站数据库的正常运行,并且具备抗干扰能力强、计算效率高的优点。
2.数据的分析功能。系统在正常运行时,会从故障信息子站或者是分站采集相关的数据并且对这些采集到的数据进行分析整理,最终得到有用的数据信息,利用数据挖掘技术对庞大的故障数据进行分析、分类以及整理,能够有效地找出有用的信息,归并一些冗余的信息,对信息进行有效地存储和分类。另外,数据挖掘技术还具有信息查询的功能,可以进行不同条件下的查询,例如按时间段、报告类型、设备型号以及单位等进行查询,实现查询后的备份转存等,根据故障信息系统所提供高的数据信息以及本系统库中所保存的一些整定阻抗值,可以通过逻辑判断生产继电保护动作的分析报告,主要包括对故障过程的简述、故障切除情况以及保护动作情况等,可以便于继电保护人员直观的对保护装置的动作情况进行分析。
四、结语
随着企业自动化程度的不断提高以及数据库技术的迅速发展,很多企业在一些重要的设备方面都安装了监测系统,对设备运行过程中的一些重要参数和数据进行采集,采用数据挖掘技术可以有效地解决设备故障诊断中的一些知识获取瓶颈,将数据挖掘系统充分应用到监控系统中,有效解决故障诊断中的一些困难,事实证明,将数据挖掘技术应用到故障诊断中是非常有效的,也是值得研究和学习的新型技术手段。
参考文献:
[1]李勋,龚庆武,杨群瑛,罗思需,李社勇.基于数据挖掘技术的保护设备故障信息管理与分析系统[j].电力自动化设备,2011,9
一、客户关系管理(CRM)
CRM是一种旨在改善企业与客户之间关系的新型管理方法。它是企业通过富有意义的交流和沟通,理解并影响客户行为,最终实现提高客户获取、客户保留、客户忠诚和客户创利的目的。它包括的主要内容有客户识别、客户关系的建立、客户保持、客户流失控制和客户挽留。通过客户关系管理能够提高企业销售收入,改善企业的服务,提高客户满意度,同时能提高员工的生产能力。
二、数据挖掘(DM)
数据挖掘(DataMining,简称DM),简单的讲就是从大量数据中挖掘或抽取出知识。数据挖掘概念的定义描述有若干版本。一个通用的定义是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中提取人们感兴趣的知识,这些知识是隐讳的、事先未知的、潜在有用的信息。
常用的数据挖掘方法有:(1)关联分析。即从给定的数据集中发现频繁出现的项集模式知识。例如,某商场通过关联分析,可以找出若干个客户在本商场购买商品时,哪些商品被购置率较高,进而可以发现数据库中不同商品的联系,进而反映客户的购买习惯。(2)序列模式分析。它与关联分析相似,其目的也是为了控制挖掘出的数据间的联系。但序列模式分析的侧重点在于分析数据间的前后(因果)关系。例如,可以通过分析客户在购买A商品后,必定(或大部分情况下)随着购买B商品,来发现客户潜在的购买模式。(3)分类分析。是找出一组能够描述数据集合典型特征的模型,以便能够分类识别未知数据的归属或类别。例如,银行可以根据客户的债务水平、收入水平和工作情况,可对给定用户进行信用风险分析。(4)聚类分析。是从给定的数据集中搜索数据对象之间所存在的有价值联系。在商业上,聚类可以通过顾客数据将顾客信息分组,并对顾客的购买模式进行描述,找出他们的特征,制定针对性的营销方案。(5)孤立点分析。孤立点是数据库中与数据的一般模式不一致的数据对象,它可能是收集数据的设备出现故障、人为输入时的输入错误等。孤立点分析就是专门挖掘这些特殊信息的方法。例如,银行可以利用孤立点分析发现信用卡诈骗,电信部门可以利用孤立点分析发现电话盗用等。
三、数据挖掘在客户关系管理中的应用
1.进行客户分类
客户分类是将大量的客户分成不同的类别,在每一类别里的客户具有相似的属性,而不同类别里的客户的属性不同。数据挖掘可以帮助企业进行客户分类,针对不同类别的客户,提供个性化的服务来提高客户的满意度,提高现有客户的价值。细致而可行的客户分类对企业的经营策略有很大益处。例如,保险公司在长期的保险服务中,积累了很多的数据信息,包括对客户的服务历史、对客户的销售历史和收入,以及客户的人口统计学资料和生活方式等。保险公司必须将这些众多的信息资源综合起来,以便在数据库里建立起一个完整的客户背景。在客户背景信息中,大批客户可能在保险种类、保险年份和保险金额上具有极高的相似性,因而形成了具有共性的客户群体。经过数据挖掘的聚类分析,可以发现他们的共性,掌握他们的保险理念,提供有针对性的服务,提高保险公司的综合服务水平,并可以降低业务服务成本,取得更高的收益。
2.进行客户识别和保留
(1)在CRM中,首先应识别潜在客户,然后将他们转化为客户
这时可以采用DM中的分类方法。首先是通过对数据库中各数据进行分析,从而建立一个描述已知数据集类别或概念的模型,然后对每一个测试样本,用其已知的类别与学习所获模型的预测类别做比较,如果一个学习所获模型的准确率经测试被认可,就可以用这个模型对未来对象进行分类。例如,图书发行公司利用顾客邮件地址数据库,给潜在顾客发送用于促销的新书宣传册。该数据库内容有客户情况的描述,包括年龄、收入、职业、阅读偏好、订购习惯、购书资金、计划等属性的描述,顾客被分类为是或否会成为购买书籍的顾客。当新顾客的信息被输入到数据库中时,就对该新顾客的购买倾向进行分类,以决定是否给该顾客发送相应书籍的宣传手册。
(2)在客户保留中的应用
客户识别是获取新客户的过程,而客户保留则是留住老顾客、防止客户流失的过程。对企业来说,获取一个新顾客的成本要比保留一个老顾客的成本高。在保留客户的过程中,非常重要的一个工作就是要找出顾客流失的原因。例如,某专科学校的招生人数在逐渐减少,那么就要找出减少的原因,经过广泛的搜集信息,发现原因在于本学校对技能培训不够重视,学生只能学到书本知识,没有实际的技能,在就业市场上找工作很难。针对这种情况,学校应果断的抽取资金,购买先进的、有针对性的实验实训设备,同时修改教学计划,加大实验实训课时和考核力度,培训相关专业的教师。
(3)对客户忠诚度进行分析
客户的忠诚意味着客户不断地购买公司的产品或服务。数据挖掘在客户忠诚度分析中主要是对客户持久性、牢固性和稳定性进行分析。比如大型超市通过会员的消费信息,如最近一次消费、消费频率、消费金额三个指标对数据进行分析,可以预测出顾客忠诚度的变化,据此对价格、商品的种类以及销售策略加以调整和更新,以便留住老顾客,吸引新顾客。
(4)对客户盈利能力分析和预测
对于一个企业而言,如果不知道客户的价值,就很难做出合适的市场策略。不同的客户对于企业而言,其价值是不同的。研究表明,一个企业的80%的利润是由只占客户总数的20%的客户创造的,这部分客户就是有价值的优质客户。为了弄清谁才是有价值的客户,就需要按照客户的创利能力来划分客户,进而改进客户关系管理。数据挖掘技术可以用来分析和预测不同市场活动情况下客户盈利能力的变化,帮助企业制定合适的市场策略。商业银行一般会利用数据挖掘技术对客户的资料进行分析,找出对提高企业盈利能力最重要的客户,进而进行针对性的服务和营销。
有些具有专业技术性的毕业论文写作,的确具有困难性,对于一些工程学科的学生而言,该毕业论文应当是结合设计进行的。
例如,计算机应用或者软件工程学科,就需要进行相关的系统设计,并且完成、能够成功运行才能够符合他们的毕业论文的标准。这样的毕业论文由于要基于真正的系统实现,意味着从一开始的系统框架的搭建以及数据的链接都要非常明了如何实现,才能够不断推动整体设计的进行。所以有很多工科学生因为无法独立完成这样的论文以及毕业设计内容,而尝试用多种方式进行转移。便会去寻找一些愿意有偿代做系统设计,且愿意提供毕业(设计)论文的人,这样做既可以帮助自己完成学业拿到相应的学分得以毕业,还能够学习更多的其他知识丰富人生。
但是在进行该类设计很多知识的工科毕业设计工作中,例如涉及数学小论文的知识内容、通信类相关技术论文等等,就需写作人员在开始构思整个系统的实现之前,进行必要的技术掌握,才能避免在实际研发过程中出现问题及错误。例如,在进行数据挖掘技术相关的系统设计或者模型分析的论文中,在材料准备阶段,就应当结合数据挖掘原理及技术应用的相关理论内容,探讨该类已经在期刊中所提到的相应的预警规则,针对网络安全方面的安全预警模型进行多维度的介绍。【提供】
1 引言
当前,随着网络技术的发展和数据库技术的迅猛发展,有效推动了商务活动由传统活动向电子商务变革。电子商务就是利用计算机和网络技术以及远程通信技术,实现整个商务活动的电子化、数字化和网络化。基于Internet的电子商务快速发展,使现代企业积累了大量的数据,这些数据不仅能给企业带来更多有用信息,同时还使其他现代企业管理者能够及时准确的搜集到大量的数据。访问客户提供更多更优质的服务,成为电子商务成败的关键因素,因而受到现代电子商务经营者的高度关注,这也对计算机web数据技术提出了新的要求,Web 数据挖掘技术应运而生。它是一种能够从网上获取大量数据,并能有效地提取有用信息供企业决策者分析参考,以便科学合理制定和调整营销策略,为客户提供动态、个性化、高效率服务的全新技术。目前,它已成为电子商务活动中不可或缺的重要载体。
2 计算机web数据挖掘概述
2.1 计算机web数据挖掘的由来
计算机Web数据挖掘是一个在Web资源上将对自己有用的数据信息进行筛选的过程。Web数据挖掘是把传统的数据挖掘思想和方法移植到Web应用中,即从现有的Web文档和活动中挑选自己感兴趣且有用的模式或者隐藏的数据信息。计算机Web数据挖掘可以在多领域中展示其作用,目前已被广泛应用于数据库技术、信息获取技术、统计学、人工智能中的机器学习和神经网络等多个方面,其中对商务活动的变革起到重大的推动作用方面最为明显。
2.2 计算机Web数据挖掘含义及特征
(1) Web数据挖掘的含义。
Web 数据挖掘是指数据挖掘技术在Web 环境下的应用,是一项数据挖掘技术与WWW技术相结合产生的新技术,综合运用到了计算机语言、Internet、人工智能、统计学、信息学等多个领域的技术。具体说,就是通过充分利用网络(Internet),挖掘用户访问日志文件、商品信息、搜索信息、购销信息以及网络用户登记信息等内容,从中找出隐性的、潜在有用的和有价值的信息,最后再用于企业管理和商业决策。
(2)Web数据挖掘的特点。
计算机Web数据挖掘技术具有以下特点:一是用户不用提供主观的评价信息;二是用户“访问模式动态获取”不会过时;三是可以处理大规模的数据量,并且使用方便;四是与传统数据库和数据仓库相比,Web是一个巨大、分布广泛、全球性的信息服务中心。
(3)计算机web数据挖掘技术的类别。
web数据挖掘技术共有三类:第一类是Web使用记录挖掘。就是通过网络对Web 日志记录进行挖掘,查找用户访问Web页面的模式及潜在客户等信息,以此提高其站点所有服务的竞争力。第二类是Web内容挖掘。既是指从Web文档中抽取知识的过程。第三类是Web结构挖掘。就是通过对Web上大量文档集合的内容进行小结、聚类、关联分析的方式,从Web文档的组织结构和链接关系中预测相关信息和知识。
3 计算机web数据挖掘技术与电子商务的关系
借助计算机技术和网络技术的日臻成熟,电子商务正以其快速、便捷的特点受到越来越多的企业和个人的关注。随着电子商务企业业务规模的不断扩大,电子商务企业的商品和客户数量也随之迅速增加,电子商务企业以此获得了大量的数据,这些数据正成为了电子商务企业客户管理和销售管理的重要信息。为了更好地开发和利用这些数据资源,以便给企业和客户带来更多的便利和实惠,各种数据挖掘技术也逐渐被应用到电子商务网站中。目前,基于数据挖掘(特别是web数据挖掘)技术构建的电子商务推荐系统正成为电子商务推荐系统发展的一种趋势。
4 计算机web数据挖掘在电子商务中的具体应用
(1)电子商务中的web数据挖掘的过程。
在电子商务中,web数据挖掘的过程主要有以下三个阶段:既是数据准备阶段、数据挖掘操作阶段、结果表达和解释阶段。如果在结果表达阶段中,分析结果不能让电子商务企业的决策者满意,就需要重复上述过程,直到满意为止。
(2)Web数据挖掘技术在电子商务中的应用。
目前,电子商务在企业中得到广泛应用,极大地促进了电子商务网站的兴起,经过分析一定时期内站点上的用户的访问信息,便可发现该商务站点上潜在的客户群体、相关页面、聚类客户等数据信息,企业信息系统因此会获得大量的数据,如此多的数据使Web数据挖掘有了丰富的数据基础,使它在各种商业领域有着更加重要的实用价值。因而,电子商务必将是未来Web数据挖掘的主攻方向。Web数据挖掘技术在电子商务中的应用主要包含以下几方面:
一是寻找潜在客户。电子商务活动中,企业的销售商可以利用分类技术在Internet上找到潜在客户,通过挖掘Web日志记录等信息资源,对访问者进行分类,寻找访问客户共同的特征和规律,然后从已经存在的分类中找到潜在的客户。
二是留住访问客户。电子商务企业通过商务网站可以充分挖掘客户浏览访问时留下的信息,了解客户的浏览行为,然后根据客户不同的爱好和要求,及时做出让访问客户满意的页面推荐和专属性产品,以此来不断提高网站访问的满意度,最大限度延长客户驻留的时间,实现留住老客户发掘新客户的目的。
三是提供营销策略参考。通过Web数据挖掘,电子商务企业销售商能够通过挖掘商品访问情况和销售情况,同时结合市场的变化情况,通过聚类分析的方法,推导出客户访问的规律,不同的消费需求以及消费产品的生命周期等情况,为决策提供及时而准确的信息参考,以便决策者能够适时做出商品销售策略调整,优化商品营销。