时间:2023-03-20 16:25:55
引言:寻求写作上的突破?我们特意为您精选了4篇数据挖掘技术分析论文范文,希望这些范文能够成为您写作时的参考,帮助您的文章更加丰富和深入。
随着信息技术迅速发展,数据库的规模不断扩大,产生了大量的数据。但大量的数据往往无法辨别隐藏在其中的能对决策提供支持的信息,而传统的查询、报表工具无法满足挖掘这些信息的需求。因此,需要一种新的数据分析技术处理大量数据,并从中抽取有价值的潜在知识,数据挖掘(DataMining)技术由此应运而生。
一、数据挖掘的定义
数据挖掘是指从数据集合中自动抽取隐藏在数据中的那些有用信息的非平凡过程,这些信息的表现形式为:规则、概念、规律及模式等。它可帮助决策者分析历史数据及当前数据,并从中发现隐藏的关系和模式,进而预测未来可能发生的行为。数据挖掘的过程也叫知识发现的过程。
二、数据挖掘的方法
1.统计方法。传统的统计学为数据挖掘提供了许多判别和回归分析方法,常用的有贝叶斯推理、回归分析、方差分析等技术。贝叶斯推理是在知道新的信息后修正数据集概率分布的基本工具,处理数据挖掘中的分类问题,回归分析用来找到一个输入变量和输出变量关系的最佳模型,在回归分析中有用来描述一个变量的变化趋势和别的变量值的关系的线性回归,还有用来为某些事件发生的概率建模为预测变量集的对数回归、统计方法中的方差分析一般用于分析估计回归直线的性能和自变量对最终回归的影响,是许多挖掘应用中有力的工具之一。
2.关联规则。关联规则是一种简单,实用的分析规则,它描述了一个事物中某些属性同时出现的规律和模式,是数据挖掘中最成熟的主要技术之一。关联规则在数据挖掘领域应用很广泛适合于在大型数据集中发现数据之间的有意义关系,原因之一是它不受只选择一个因变量的限制。大多数关联规则挖掘算法能够无遗漏发现隐藏在所挖掘数据中的所有关联关系,但是,并不是所有通过关联得到的属性之间的关系都有实际应用价值,要对这些规则要进行有效的评价,筛选有意义的关联规则。
3.聚类分析。聚类分析是根据所选样本间关联的标准将其划分成几个组,同组内的样本具有较高的相似度,不同组的则相异,常用的技术有分裂算法,凝聚算法,划分聚类和增量聚类。聚类方法适合于探讨样本间的内部关系,从而对样本结构做出合理的评价,此外,聚类分析还用于对孤立点的检测。并非由聚类分析算法得到的类对决策都有效,在运用某一个算法之前,一般要先对数据的聚类趋势进行检验。
4.决策树方法。决策树学习是一种通过逼近离散值目标函数的方法,通过把实例从根结点排列到某个叶子结点来分类实例,叶子结点即为实例所属的分类。树上的每个结点说明了对实例的某个属性的测试,该结点的每一个后继分支对应于该属性的一个可能值,分类实例的方法是从这棵树的根结点开始,测试这个结点指定的属性,然后按照给定实例的该属性值对应的树枝向下移动。决策树方法是要应用于数据挖掘的分类方面。
5.神经网络。神经网络建立在自学习的数学模型基础之上,能够对大量复杂的数据进行分析,并可以完成对人脑或其他计算机来说极为复杂的模式抽取及趋势分析,神经网络既可以表现为有指导的学习也可以是无指导聚类,无论哪种,输入到神经网络中的值都是数值型的。人工神经元网络模拟人脑神经元结构,建立三大类多种神经元网络,具有非线形映射特性、信息的分布存储、并行处理和全局集体的作用、高度的自学习、自组织和自适应能力的种种优点。
6.遗传算法。遗传算法是一种受生物进化启发的学习方法,通过变异和重组当前己知的最好假设来生成后续的假设。每一步,通过使用目前适应性最高的假设的后代替代群体的某个部分,来更新当前群体的一组假设,来实现各个个体的适应性的提高。遗传算法由三个基本过程组成:繁殖(选择)是从一个旧种群(父代)选出生命力强的个体,产生新种群(后代)的过程;交叉〔重组)选择两个不同个体〔染色体)的部分(基因)进行交换,形成新个体的过程;变异(突变)是对某些个体的某些基因进行变异的过程。在数据挖掘中,可以被用作评估其他算法的适合度。
7.粗糙集。粗糙集能够在缺少关于数据先验知识的情况下,只以考察数据的分类能力为基础,解决模糊或不确定数据的分析和处理问题。粗糙集用于从数据库中发现分类规则的基本思想是将数据库中的属性分为条件属性和结论属性,对数据库中的元组根据各个属性不同的属性值分成相应的子集,然后对条件属性划分的子集与结论属性划分的子集之间上下近似关系生成判定规则。所有相似对象的集合称为初等集合,形成知识的基本成分。任何初等集合的并集称为精确集,否则,一个集合就是粗糙的(不精确的)。每个粗糙集都具有边界元素,也就是那些既不能确定为集合元素,也不能确定为集合补集元素的元素。粗糙集理论可以应用于数据挖掘中的分类、发现不准确数据或噪声数据内在的结构联系。
8.支持向量机。支持向量机(SVM)是在统计学习理论的基础上发展出来的一种新的机器学习方法。它基于结构风险最小化原则上的,尽量提高学习机的泛化能力,具有良好的推广性能和较好的分类精确性,能有效的解决过学习问题,现已成为训练多层感知器、RBF神经网络和多项式神经元网络的替代性方法。另外,支持向量机算法是一个凸优化问题,局部最优解一定是全局最优解,这些特点都是包括神经元网络在内的其他算法所不能及的。支持向量机可以应用于数据挖掘的分类、回归、对未知事物的探索等方面。
事实上,任何一种挖掘工具往往是根据具体问题来选择合适挖掘方法,很难说哪种方法好,那种方法劣,而是视具体问题而定。
三、结束语
中图分类号:G642.0 文献标志码:A 文章编号:1674-9324(2012)12-0218-02
一、背景
“数据仓库与数据挖掘”是国内外高等院校一门重要的课程,是国家基础教育较为重视的一门学科,受到不同专业学生的喜爱。其教学目标是提高学生的数据分析水平和能力,除了教授学生数据分析的常见方法之外,还将引导学生如何对实际的问题进行建模,如何对模型进行简化和求解。利用实例教学等方法,可以很好地将数据挖掘中的抽象概念、模型、公式等阐述清楚,让学生易于理解和接受。近年来,数据挖掘技术在医学领域中的应用越来越广泛。在疾病诊断、治疗、器官移植、基因研究、图像分析、康复、药物开发、科学研究等方面都获得了可喜的成果。运用各种数据挖掘技术了解各种疾病之间的相互关系、各种疾病的发展规律,总结各种治疗方案的治疗效果,以及对疾病的诊断、治疗和医学研究都是非常有价值的。因此,我们学院也把这门课程作为计算机专业及信息管理与信息系统专业的必修课。把计算机与医学结合,使得学生的培养方案全面包括了计算机与医学的知识点。由于该课程原本属于研究生阶段开设的专业课程,教材也大多侧重于介绍体系结构、算法原理、效率分析与改进等理论知识,其中所涉及的内容大多比较深,许多知识都超出了本科生的接受范围,此外,教材对相关理论在实际应用方面的说明也比较少,不利于安排实验教学。因此要实现“数据仓库与数据挖掘”课程的教学目标,必须在理论教学和实验教学环节综合考虑学时多少、教学条件以及学生的接受情况等因素,灵活地加以选择安排。
二、存在的问题
主要包括以下几方面:①课堂上以教师讲、学生听的教学形式为主,学生学习处于被动状态,他们的创造性因此被严重扼杀;②教师对专业课程体系和学生的知识体系不够重视,对课程体系的讲解不到位,造成学生在学习时课程之间联系不上,知识衔接不好,对知识的运用和融会贯通比较差;③实验与理论脱节。“数据仓库与数据挖掘”课程理论讲授的算法与实验软件中的算法有很大差距,使得学生难以理解。比如对于理论上讲授的关联规则算法,实验中使用SQL SERVER 2005中的商务智能工具做实验,学生发现有很多参数与理论上讲授的有很大不同;④医学院校的学生对纯粹计算机理论知识接受困难。由于该门课程是交叉学科,涉及计算机、数学、统计学等知识,如果学生的其他学科学得不好,就会对该课程的学习产生障碍;⑤教师讲授没有把理论课程结合到实际应用中。有很多学生不知道学习这门课的意义,老师没有很好引导学生,激活他们的学习热情。
三、目标驱动的教学框架
对于以上问题,本文提出了一个新的教学体系,设计了一套基于目标驱动的教学框架,把教师与学生紧密联系起来,从教学大纲的设置,教材的选择,理论教学,实验教学,课程设计及毕业论文,全面引导学生从初步了解到深入学习的过程。对于我们学校的实际情况,有两个专业的学生要学习这门课程。一个是计算机科学与技术专业,一个是信息管理与信息系统专业。对于两个不同的专业,我们设置不同的教学大纲。比如对于计算机专业的学生,数据仓库和数据挖掘教学总时数为72学时,其中理论为54学时,实验为36学时。
1.理论教学。对于信息管理与信息系统专业的学生,我们可以设置如下的教学计划,可分为三个主要部分。我们教材选择韩家炜的《数据挖掘概念与技术》,第一部分:第一至四章为数据挖掘的基础知识,包括数据仓库和数据挖掘的基本概念和相关知识介绍;第二部分:第五、六章介绍了数据挖掘的算法和工具;第三部分:第七章是数据挖掘的聚类分析的实际应用。本课程是信息管理与信息系统专业本科生专业必修课。通过该课程的学习,要求学生掌握数据仓库和数据挖掘的基本概念,了解基本方法和应用背景。掌握数据仓库的设计和建立,掌握数据挖掘的主要步骤和实现方法,数据挖掘的常用算法,实现数据挖掘的具体操作。理论学时的安排,第一章绪论(6学时);第二章数据仓库(4学时);第三章数据预处理(8学时);第四章数据挖掘发现知识的类型(8学时);第五章数据挖掘中常用算法(12学时);第六章数据挖掘的工具及其应用(8学时);第七章数据挖掘应用实例(8学时)。
2.实验教学。本课程配合理论教学,通过系统的实践教学锻炼,着重培养学生的独立分析问题和解决问题的能力,熟练掌握数据仓库的设计和建立以及各类数据挖掘方法,使学生具有一定的数据分析和挖掘能力,能在认识基础上,提出有效的数据挖掘方法,依据实际例子,写出解决方案。学生应在实验课前明确实验的目的和要求,然后针对相关问题写出解决方案。实验时对实际方案的运行结果应能进行分析并提出改进方法,最终写出实验报告。通过实验教学应达到以下基本要求:①理解数据仓库的工作机理及其构建过程;②掌握典型的数据仓库系统及其开发工具的使用;③理解数据挖掘技术的工作原理与流程;④掌握典型数据挖掘工具的使用;⑤掌握几种典型的数据挖掘算法;⑥掌握使用SQL SERVER 2000和SPSS工具解决实际问题。实验成绩包括:实验教学过程成绩、实验报告成绩,各占50%。实验过程表现成绩包括:学习态度是否认真、实验操作是否正确规范、基本技能掌握程度是否具有创新意识等方面。实验报告成绩包括:实验报告格式是否正确、原理是否论述清楚、实验结果分析讨论是否符合逻辑,报告字迹是否清楚等方面。
3.课程设计。理论课和实验课接近结束时,我们把最后三周作为本门课程的课程设计。课程设计的目的是让学生进一步深刻理解所学知识。由于本门课程很多算法不容易理解,如何让学生把所学知识结合到医学应用中是课程设计的关键。比如我们对信息管理与信息系统专业的学生课程设计,要求学生每人选择一个老师给定的题目,课程设计有详细的要求,比如题目“数据挖掘在医学诊断中的应用”要求学生能把本门课程相关的算法结合使用,最后给出详细的分析。通过课程设计,我们发现,学生对本门课程更有兴趣。
4.毕业论文。我们把课程一般开设在大三的下学期,也就是说学生学完这门课程后,就做了该门课的课程设计,使得学生对数据挖掘相关知识有了比较深刻的认识。这样,我们可以引导学生毕业论文的选择。毕业论文毕竟是反映学生大学四年所学知识,也对他们将来就业起到提前培训的作用。把理论结合实践,老师对学生的引导也十分重要。
我们根据医学院校的特征,提出了一套目标驱动的教学理念,从学生认识这门课程到学生理论课的学习,实验课的学习,课程设计及毕业论文的完成,在老师的指导下,使用我们的考核体系,可提高学生对所学课程的兴趣。
1.引言
计算机网络技术的普及与应用给人们的生活带来了翻天覆地的变化,同时在网络上产生了大量杂乱无章的数据。而网格技术、Web技术的发展,为人们从分布的网络资源中寻找有价值的信息提供了新的技术支持,同时也产生了许多基于网格的数据挖掘系统。而数据挖掘算法又是决定一个数据挖掘系统性能的主要衡量指标。任何软件系统的设计都离不开算法,数据挖掘技术的执行效率也与数据挖掘算法有关,随着数据库技术与数据挖掘技术的成熟与发展,像分类、聚类、决策树、关联等等数据挖掘算法已相当成熟,可以研究借鉴现有数据挖掘方法、数据挖掘模式、数据挖掘流程,建立一个基于网格的数据挖掘系统。笔者以众多数据挖掘算法中的聚类分析算法为例,介绍基于GT4(Globus Tookit 4.0的简称,GT4的核心开发工具包(Java Web Service Core))的数据挖掘算法的设计过程。
聚类分析(Clustering Analysis)是一个应用比较广泛的数据挖掘算法,算法的理论研究与实践应用都已经很成熟,把这一成熟的理论应用于基于网格的分布式系统中,会大大提高数据挖掘的效率。本文主要研究如何将聚类分析的CURE(Cluster Using Representation)算法和K-平均方法算法应用于基于GT4数据挖掘系统中。
2.系统结构设计
基于GT4数据挖掘系统的数据源是分布式数据源,分布式数据源是指在物理上分布而逻辑上集中的数据源系统。在该系统中,处在这个网格中的每台计算机就是这个网格的一个节点,称之为网格节点。在众多的节点中,要有一个网格节点来控制和管理其他的节点,这个节点就叫做网格中心控制节点,决策支持都是由网格中心控制节点完成的。如果要完成某个数据挖掘任务,则可以由空闲的网格节点先按挖掘需求来完成本节点的挖掘任务,再由网格中心控制节点来汇总每个节点的数据挖掘情况。局部网格节点管理的信息具有局限性,涉及的范围较小,主要完成单个节点数据的管理,对局部的数据挖掘结果进行汇总分析,但是这些局部节点的数据与全局节点的数据又是有一定关联的。根据以上的分析可知,网格平台下的数据挖掘任务由全局数据挖掘与局部数据挖掘共同完成。
3.算法的Web Service设计
3.1 全局聚类算法的Web Service设计
网格环境下的全局控制网格节点与局部网格节点间的关系我们可以理解为上下层的关系,这样就可以借鉴基于层次的聚类分析算法,按照层次的自底向上的聚类方式,把全局控制节点当成是层次聚类的顶层。本课题全局聚类算法借鉴传统的利用代表点聚类算法CURE。
CURE算法将层次方法与划分方法结合到一起,选用有代表性的、固定数目的空间点来表示一个聚类。算法在开始时,每个点都是一个簇,然后将距离最近的簇结合,一直到簇的个数为要求的K。首先把每个数据点即局部网格节点看成一个聚类,然后再以一个特定的收缩因子向中心收缩它们。
CURE算法的主要执行步骤如下:
(1)从数据源样本对象中随机抽取样本集,生成一个样本集合S;
(2)将样本集合S分割为一组划分,每个划分大小为S/p;
(3)对每个划分部分进行局部聚类;
(4)通过随机采样剔除聚类增长太慢的异常数据;
(5)对局部聚类进行聚类,落在每个新形成的聚类中的代表性点,则根据用户定义的收缩因子收缩或移向聚类中心;
(6)用相应的标记对聚类中的数据标上聚类号。
有了数据挖掘算法,就可以完成数据挖掘任务了。全局聚类算法的主要功能是响应用户的数据挖掘请求,将对应的请求发送给局部网格节点,将局部网格节点的挖掘结果整理输出。全局聚类算法Web Service资源的结构包括算法Web Service接口、算法资源属性文档、算法功能实现和算法功能四个部分。
利用传统的聚类算法完成全局的数据的并行挖掘最重要的一步就是将全局聚类算法部署到GT4中,完成全局聚类算法的Web Service设计要经过过以下几步:
第一步:用WSDL(Web Service描述语言,是Web Service提供的XLM语言)来描述数据挖掘服务接口,该服务接口可以用Java来定义,利用Java-to-WSDL工具把Java定义的接口转为WSDL文件。
第二步:用Java编写全局聚类算法(CURE)代码;
第三步:用WSDD配置文件和JNDI(GT4自带文件)部署文件;
第四步:用Ant工具打包上面的所有文件,生成一个GAR文件;
第五步:向Web Service容器部署全局数据挖掘服务。
3.2 局部聚类算法的Web Service设计
局部聚类算法的主要功能是完成局部网格节点的数据挖掘任务,并把数据挖掘结果上传到全局控制节点。局部网格节点的数据挖掘任务与传统的单机数据挖掘任务类似,本课题局部聚类算法使用传统的聚类算法K-平均方法,以K为参数,把N个对象分为K个簇,簇内具有较高的相似度,而簇间的相似度较低[34]。本论文的数据挖掘任务主要是由局部网格节点实现的,下面就详细的介绍K-平均算法的主要执行过程如下:
(1)从数据集中任意选择K个对象作为各个簇的初始中心。
(2)根据现有的簇中心情况,利用距离公式计算其他对象到各个簇中心的距离。(可选的距离公式有:欧几里、行德公式、距离公式、曼哈坦距离公式、明考斯基距离公式)。
(3)根据所得各个对象的距离值,将对象分配给距离最近的中心所对应的簇。
(4)重新生成各个簇的中心。
(5)判断是否收敛。如果收敛,即簇不在发生变化,那么停止划分,否则,重复(2)到(5)。
K-平均算法是一个经典的聚类算法,将K-平均算法部署到GT4中,完成局部聚类算法的Web Service设计,部署方法与全局算法相似。
4.结论
基于GT4的数据挖掘系统中的数据挖掘服务资源有网格的中心控制节点(即全局节点)进行统一的管理,在局部网格节点挖掘过程中,根据其处理能力分配最佳的数据集给局部节点,从而使整个系统的计算负载相对均衡。其数据挖掘系统的规模可随着服务的多少动态伸缩。当系统要增加新的局部挖掘节点时,只需部署局部Web Service资源即可。将网格应用到分布式数据挖掘系统中,建立一个基于网格的数据挖掘系统,必将使其在各个领域都得到广泛的应用。
参考文献
【引言】随着我国信息技术的进步,数据挖掘技术得到广泛应用,在软件工程中需要对数据信息进行搜集、分类与整理,通过数据挖掘技术的应用可以有效提高工作效率,推动软件工程的有序发展。我国对数据挖掘技术的应用与研究虽然处于初级阶段,但通过不断的经验积累也能够发挥技术的更多价值。
1数据挖掘技术概述
数据挖掘技术指的是在信息技术发展背景下,对信息数据展开处理的技术。与过去的信息处理技术相比,数据挖掘技术功能更加强大,可以应用在各个领域,无论是数据处理、数据转换还是数据分析,都能够完成相互之间的联系,并对数据进行最终评估。将数据挖掘技术应用在软件工程中,能够提高企业处理信息数据的效率,避免操作失误,保护企业数据准确[1]。
2数据挖掘技术在软件工程中的重要性分析
2.1高效整合多样化信息数据
由于数据挖掘技术的功能比较多,其中包含了传统处理技术的功能,实现多样化信息的收集与分类,并将数据按照类别存储与整理。数据挖掘技术可以在多样化数据中实现数据的系统化管理,为人们进行数据查阅工作带来方便。在软件工程中应用该技术,方便信息数据的高效整合,帮助企业全方位了解信息与数据[2]。
2.2保证信息数据的准确率
数据挖掘技术拥有强大数据运算功能,以往的数据信息系统运算数据时需要耗费大量时间与成本。如果信息数据体系庞大,系统运算时会面临瘫痪问题。在软件工程中,一旦系统发生瘫痪,系统将无法正常使用,数据也会受到破坏。应用数据挖掘技术之后可以有效解决以上问题,实现系统的优化,使系统可以在最短时间内处理数据,防止信息数据发生丢失现象,提高数据处理的时效性。面对大量的信息数据,有的数据得不到利用,但长期处于系统中会影响系统运行效率,应用数据挖掘技术可以将无价值的数据剔除,留下有用的信息数据,保证系统的运行效率和数据质量。
2.3缩短信息数据处理时间
在软件工程中应用数据挖掘技术可以分类处理杂乱无章的数据,实现数据的转换与调用。对数据进行深入挖掘处理时也可以应用数据挖掘技术进行数据的分类,并对模糊数据及时清理,提高系统内现存数据的实用价值。人们获取到的信息数据需要进行反复核对,以此保证数据真实性,通过数据挖掘技术的应用减少时间浪费,提高数据核对效率。
3数据挖掘技术在软件工程中的应用分析
3.1系统结构
数据挖掘技术应用流程主要分为三个阶段:数据预处理、数据挖掘、模式评估与知识表示。在数据预处理阶段中,高效得到原始数据的根本原因在于确定任务处理对象,得到符合软件工程需求的数据。通过数据清洗弥补原始数据存在的缺陷,确保数据的完整性。数据抽取需要从数据库中选择与软件工程任务相符合的信息。数据转换需要将数据格式加以转化,实现数据的适用性。在数据挖掘中需要制定一定的挖掘任务,通过对数据的分类与评价总结,合理应用运算方法进行数据推敲。在模式评估与知识表示中,其实际用途在于挖掘成功的表达,将兴趣度作为衡量标准,提高数据表达的识别能力。
针对软件工程中数据挖掘技术的优化应用,可以从系统结构方面入手,具体如下:(1)检测软件工程中的克隆代码。以软件工程为标准,将一部分代码复制,结合实际情况更改一部分代码,并对这些代码进行检测,代码检测与更改可以同时进行,能有效提高检测效率,实现系统的维护工作。当前应用数据挖掘技术进行克隆代码检测的方式一共有四种,具体为比较标识符、对比文本、检测系统程序结构与度量圈。在实际操作中,要求人们结合实际情况选择相应的克隆代码检测方法。(2)数据信息挖掘法。这是以横切关注点为主的挖掘方法,在软件工程中应用该方法可以改造系统,对数据信息达到良好的处理效果[3]。
3.2软件管理
为了让数据挖掘技术更好地应用在软件工程中,需要从软件管理角度入手,采用以下两方面举措。一方面,深入挖掘数据的组织关系,另一方面,挖掘版本控制信息。软件工程系统比较繁琐,挖掘组织关系时较为困难,人们需要合理调配各项信息,以此作为挖掘的依据。如果以软件工程管理流程作为主题,对电子邮件与共享文件展开组织关系挖掘,可以有效避免系统流程发生混乱,保护软件管理的秩序。当信息数据发生变化时,应用数据挖掘技术进行软件管理,将版本控制作为重要依据,将数据挖掘技术与版本控制相联系,降低系统运行成本,并达到警示的效果,提高软件工程的管理水平。
3.3软件开发
在软件工程初期阶段,人们将数据挖掘技术看成数据库,随着技术的发展,软件工程发展到现实应用,系统和现实共同发展。软件工程将各项指标与要求紧密结合,研发出最新产品,以往的软件工程中软件开发十分困难,而如今应用数据挖掘技术,可以将其与数据库相融合,发挥数据库内信息的最大价值,有效推动软件开发的进步。不仅如此,软件工程可以对信息进行更深层次的挖掘,充分发挥软件工程的价值,利用数据挖掘技术实现数据的更新,保证软件开发质量,优化软件操作流程。在技术的支持下,人们可以合理划分软件内部,方便及时发现问题,并展开积极有效的问题处理。利用数据挖掘技术可以进行网站设计,对网站内容进行挖掘,特别是对文本内容的挖掘,随后整合网站信息,通过自动归类技术实现信息的层次性组织。在软件或网站管理中,应用数据挖掘技术可以根据用户对网站的访问记录,进行记录信息挖掘,从中了解用户对该网站内容的兴趣,进而对用户提供信息推送服务和定制服务,以此吸引更多用户访问该网站。
在软件开发阶段,可以使用DataAnalytics轻量级业务数据可视化分析平台,这是数据挖掘技术的一项成果。该平台能够实现异构数据源的高效整合,可以兼容各种数据源类型,支持海量数据。可接入Excel/CSV等数据文件、企业各种业务系统、第三方互联网数据、公共数据服务平台等来源,轻松整合所有相关业务数据,帮助企业消灭数据孤岛。企业利用该平台可以完成数据的深度交互分析,DataAnalytics基于探索式分析,支持智能推荐图形与图表,二者可以协同过滤,帮助用户快速定位,通过数据挖掘找出问题,以拖拽式操作方法解决问题。
3.4聚类
在数据挖掘技术中聚类指的是对各个环节数据加以分析,结合软件工程的具体要求实现数据细化,以类型细化作为基础,为原始数据类型做出保障。通过聚类可以让同种类型数据具有相似性特点,在存在相似性的同时,也存在一定的差异,突出各自的特点。应用数据挖掘技术实现聚类划分时,面对的对象无法预测,与其他算法相比,聚类拥有更加广泛的应用范围,进行数据分析时更加独特,挖掘信息数据时可以确保检测结果的有效性与真实性。
4结论
总而言之,随着信息技术的深入发展,人们已经步入信息时代,数据挖掘技术也成为对信息数据展开处理和存储的有效方式。在软件工程中应用数据挖掘技术,有利于提高软件开发效率,提升软件管理质量,加强数据挖掘力度,使数据挖掘技术发挥巨大效果,人们可以应用数据挖掘技术完成数据的聚类和网站设计,为人们的生活带来便利。
软件工程硕士论文参考文献:
[1]张立鉴.数据挖掘技术在软件工程中的应用研究[J].网络安全技术与应用,2019(6):47-48.