数据挖掘技术探讨论文范文

时间:2023-03-16 17:43:12

引言:寻求写作上的突破?我们特意为您精选了4篇数据挖掘技术探讨论文范文,希望这些范文能够成为您写作时的参考,帮助您的文章更加丰富和深入。

数据挖掘技术探讨论文

篇1

二、数据挖掘的方法

1.统计方法。传统的统计学为数据挖掘提供了许多判别和回归分析方法,常用的有贝叶斯推理、回归分析、方差分析等技术。贝叶斯推理是在知道新的信息后修正数据集概率分布的基本工具,处理数据挖掘中的分类问题,回归分析用来找到一个输入变量和输出变量关系的最佳模型,在回归分析中有用来描述一个变量的变化趋势和别的变量值的关系的线性回归,还有用来为某些事件发生的概率建模为预测变量集的对数回归、统计方法中的方差分析一般用于分析估计回归直线的性能和自变量对最终回归的影响,是许多挖掘应用中有力的工具之一。

2.关联规则。关联规则是一种简单,实用的分析规则,它描述了一个事物中某些属性同时出现的规律和模式,是数据挖掘中最成熟的主要技术之一。关联规则在数据挖掘领域应用很广泛适合于在大型数据集中发现数据之间的有意义关系,原因之一是它不受只选择一个因变量的限制。大多数关联规则挖掘算法能够无遗漏发现隐藏在所挖掘数据中的所有关联关系,但是,并不是所有通过关联得到的属性之间的关系都有实际应用价值,要对这些规则要进行有效的评价,筛选有意义的关联规则。

3.聚类分析。聚类分析是根据所选样本间关联的标准将其划分成几个组,同组内的样本具有较高的相似度,不同组的则相异,常用的技术有分裂算法,凝聚算法,划分聚类和增量聚类。聚类方法适合于探讨样本间的内部关系,从而对样本结构做出合理的评价,此外,聚类分析还用于对孤立点的检测。并非由聚类分析算法得到的类对决策都有效,在运用某一个算法之前,一般要先对数据的聚类趋势进行检验。

4.决策树方法。决策树学习是一种通过逼近离散值目标函数的方法,通过把实例从根结点排列到某个叶子结点来分类实例,叶子结点即为实例所属的分类。树上的每个结点说明了对实例的某个属性的测试,该结点的每一个后继分支对应于该属性的一个可能值,分类实例的方法是从这棵树的根结点开始,测试这个结点指定的属性,然后按照给定实例的该属性值对应的树枝向下移动。决策树方法是要应用于数据挖掘的分类方面。

5.神经网络。神经网络建立在自学习的数学模型基础之上,能够对大量复杂的数据进行分析,并可以完成对人脑或其他计算机来说极为复杂的模式抽取及趋势分析,神经网络既可以表现为有指导的学习也可以是无指导聚类,无论哪种,输入到神经网络中的值都是数值型的。人工神经元网络模拟人脑神经元结构,建立三大类多种神经元网络,具有非线形映射特性、信息的分布存储、并行处理和全局集体的作用、高度的自学习、自组织和自适应能力的种种优点。

6.遗传算法。遗传算法是一种受生物进化启发的学习方法,通过变异和重组当前己知的最好假设来生成后续的假设。每一步,通过使用目前适应性最高的假设的后代替代群体的某个部分,来更新当前群体的一组假设,来实现各个个体的适应性的提高。遗传算法由三个基本过程组成:繁殖(选择)是从一个旧种群(父代)选出生命力强的个体,产生新种群(后代)的过程;交叉〔重组)选择两个不同个体〔染色体)的部分(基因)进行交换,形成新个体的过程;变异(突变)是对某些个体的某些基因进行变异的过程。在数据挖掘中,可以被用作评估其他算法的适合度。

7.粗糙集。粗糙集能够在缺少关于数据先验知识的情况下,只以考察数据的分类能力为基础,解决模糊或不确定数据的分析和处理问题。粗糙集用于从数据库中发现分类规则的基本思想是将数据库中的属性分为条件属性和结论属性,对数据库中的元组根据各个属性不同的属性值分成相应的子集,然后对条件属性划分的子集与结论属性划分的子集之间上下近似关系生成判定规则。所有相似对象的集合称为初等集合,形成知识的基本成分。任何初等集合的并集称为精确集,否则,一个集合就是粗糙的(不精确的)。每个粗糙集都具有边界元素,也就是那些既不能确定为集合元素,也不能确定为集合补集元素的元素。粗糙集理论可以应用于数据挖掘中的分类、发现不准确数据或噪声数据内在的结构联系。

8.支持向量机。支持向量机(SVM)是在统计学习理论的基础上发展出来的一种新的机器学习方法。它基于结构风险最小化原则上的,尽量提高学习机的泛化能力,具有良好的推广性能和较好的分类精确性,能有效的解决过学习问题,现已成为训练多层感知器、RBF神经网络和多项式神经元网络的替代性方法。另外,支持向量机算法是一个凸优化问题,局部最优解一定是全局最优解,这些特点都是包括神经元网络在内的其他算法所不能及的。支持向量机可以应用于数据挖掘的分类、回归、对未知事物的探索等方面。

事实上,任何一种挖掘工具往往是根据具体问题来选择合适挖掘方法,很难说哪种方法好,那种方法劣,而是视具体问题而定。

三、结束语

目前,数据挖掘技术虽然得到了一定程度的应用,并取得了显著成效,但仍存在着许多尚未解决的问题。随着人们对数据挖掘技术的深人研究,数据挖掘技术必将在更加广泛的领域得到应用,并取得更加显著的效果。

参考文献:

篇2

入分析,提出了具体算法。

网络数据挖掘又称Web数据挖掘,是数据挖掘技术在网络信息处理中的应用,从与网络相关的资源和行为中抽取感兴趣的、有用的模式和隐含信息,是从Web网站的数据中发掘关系和规则。其挖掘对象是大量、异质、分布的Web文档,可以对数据库、Web服务器上的日志、读者信息等数据展开挖掘工作。同时,由于Web在逻辑上是一个由文档节点和超链接构成的图,因此Web挖掘所得到的模式可能是关于Web内容的,也可能是关于Web结构的,或者是关于用户行为模式的1。通过网络数据挖掘对每个用户的访问行为、频度、和内容等进行分析,能提取出每个用户的特征,给每个用户个性化的界面,提供个性化的Web信息服务。

本文以中国知网(CNKI)总库为统计源,以主题“We数据挖掘”、“网络数据挖掘”搜索到国内近六年的论文数量,从中可以看出相关领域的研究从2007年开始呈逐年上升趋势,2009年达到峰值后,逐年有所下降。具体数据如表2所示:

根据对这些文章内容的分析,研究网络数据挖掘算法及其实现的占大多数,国内关于网络数据挖掘在图书馆的应用研究不多,大多是作为电子商务中数据挖掘研究的一部分。网络数据挖掘在图书馆中的应用主要表现在以下几个方面:

(1)图书推荐系统。这类系统主要通过日志挖掘读者的借阅习惯,推测读者的阅读需求,从而为不同兴趣的读者提供相应的推荐内容。这种个性化推荐系统能够较好地把握读者需求,通过聚类和关联规则为读者推荐借阅过的相似图书或可能需要的其他文献。但它的缺点在于,推荐的相似图书,读者已经借阅过,再借阅的几率不大。因此,这个研究的重点和难点在使用的挖掘算法上2。

(2)网络学习平台。现代图书馆越来越重视读者的学习需求,从而推出各种学习服务3。这类应用主要是针对网络学习中的学习资源的挖掘。因为在图书馆提供的虚拟学习平台中,资源是庞大的,而读者的精力有限,同时每个人的兴趣不同,需要对不同的读者组织不同的教育资源。而网络数据挖掘在其中所起的重要作用就是对读者的借阅和浏览行为进行挖掘分析,根据分析结果为读者匹配学习资源。

(3)文献检索系统。网络数据挖掘技术也常见于文献检索系统的应用中,图书馆资源包含大量的文本、期刊、视频等。读者常常需要通过检索才能获取自己想要的信息,使用网络数据挖掘也是为读者提供高效获取信息的方式。

由以上分析看出,网络数据挖掘在图书馆中应用的主要目的就是为读者找到所需资源,满足读者的个性化需求。下面我们就针对网络数据挖掘在图书馆个性化推荐中的应用进行探讨。

1、 图书馆个性化推荐常用分析方法

1.1聚类算法

通常说来,许多图书馆的读者建模方法是基于统计的,即对所有读者的统计数据(比如基于平均值)进行分析。这样的后果是对读者的个性化行为视而不见,影响了读者专业性和个性化需求,忽略了隐含的读者信息的价值。而读者聚类建模,则是把一类读者聚集起来,分析他们的特性并对这类读者建模,在建模质量相同或接近的条件下,聚类建模所需的数据量将远远低于对单个读者建模的数据量,因为分类中的每个读者(知识背景和生活阅历贡献具有很大的相似度)都贡献了其数据。常用聚类算法如表3。

1.2 社会网络分析

社会网络分析已经有相当长的一段历史了,近60年来,相关研究人员做了大量的研究,由Brin和Page等人提出的PageRank算法,以及由Kleinberg说提出来的HITS算法开创了将社会网络研究应用在Web范畴的先河。这两种算法都来源于社会网络分析,都利用了网页的超链接结构并依据网页的“威望”或者“权威”级别来对网页进行分级排序。这在搜索引擎中得到了广泛的运用。图书馆也同样存在着这样的社会网络关系,这种关系主要通过读者浏览和获取文献行为体现。这种关系和活动可以用网络或图来表示,其中,每一个顶点(结点)用来表示一个读者,而一条边的连接用来表示两个读者之间的关系。利用网络图我们可以研究该网络的结构特征,以及每个读者威望性、中心性等属性。同时从中我们也可以找到各种类型的子图,即社区。

2、 基于网络数据挖掘的图书馆个性化推荐分析

2.1基于K-means聚类推荐分析

图书馆读者聚类可以通过两种方式进行聚类,建立二维推荐模型,即:查询聚类和借阅聚类。在此,只要实现查询信息和借阅信息的高效率、高准确率的自动分类,然后根据读者兴趣模型匹配,就可以完成其推荐过程。自动分类信息可以采用K-均值聚类算法实现,并根据图书馆相关信息结构的特点,对算法本身加以改进。具体流程如图1。

2.2 基于PageRank社会网络分析

在图书馆借阅场景下,读者浏览和借阅行为反应了读者的需求。PageRank算法关键在于测度每个对象的随机访问概率。我们假定读者借阅史就是读者推荐书目单,反应了读者对于图书的认可程度。在此,我们可以把访问概率转化为读者推荐书目单的紧密程度,因此,问题转化为求读者推荐书目单的紧密程度,然后通过PageRank算法,求出读者推荐书目单的权威度排名,进而推荐给兴趣模型相似的读者。

我们用dist(j, t)表示两个读者推荐书目单关系程度,使用其文本相似度 来度量,进而产生新的PageRank2算法。对于每个读者推荐书目单,其重要度PR2(i)可定义为:

其中DIS(j,i)定义为:

在实际应用中,由于某些读者推荐书目单可能与其他读者推荐书目单 值为0,故将公式2调整为:

其中a为衰减系数,设定为0和1之间,其本质是为了消除孤立读者,给每个读者增加一条指向所有其它读者的链接,并且给予每个链接一个由参数a控制的转移概率,在这里我们沿用PageRank中的取值a=0.8570。

3、 结语

本文主要探讨了网络数据挖掘在图书馆中的应用问题,并对于社会网络分析的应用进行了较为深入的分析,提出了具体算法。网络数据挖掘广泛应用于互联网。随着数字图书馆的不断兴起,其在图书馆领域的应用将更加广泛4。但是,图书馆相对封闭的信息环境制约着网络数据挖掘的应用。相信随着Web2.0和读者个性化需求不断得到重视5,数字图书馆技术的不断发展,网络数据挖掘将会发挥更加重要的作用。

参考文献

[1] 马费成,王晓光.信息资源管理研究及国际前沿[J].情报学研究进展.武汉大学出版社,2007.

[2] 刘晓忠.数据挖掘技术在图书馆建设中的应用[J].硅谷,2012(6).

篇3

一、商业银行的数据库营销

从营销的视角出发,数据库营销是市场主体通过其积累的历史信息,包括客户人口统计资料、消费数据、行为模式等,通过统计分析与趋势外推等方式来预测顾客未来的消费行为,包括可能消费的品类、产品、服务等。同时,市场主体可以据此通过聚类分析等统计学的方法对客户进行聚类分析,通过STP的模式来划分细分市场,根据企业的定位于特点来为某细分市场提供相应的市场供应物,以达到企业经营的目的。同时,利用数据库,企业可以进行客户关系管理。

从历史沿革上来看,数据库营销是有客户关系管理发展而来,其实质为以概率论与统计学为基础,以计算机技术、网络技术与数据库技术为支撑与实现手段。

其运用的基本原理为:作为市场主体的企业通过其记录的大量的消费数据信息,通过适当的算法、程序来对消费者的未来行为进行预测,并利用分析的结果来进行企业产品定位、设计针对性的营销方案,以实现企业的经营目标。数据库营销同时为企业对其经营的战略与策略提供了一个检核工具,使得企业能够不断检核企业的经营行为,并实现企业的长期价值最大化。

数据库营销是企业经营与运营的重要工具,具有普遍适用性。在具体的商业银行应用中,数据库营销可以理解为商业银行通过其积累和搜集的大量储蓄、信贷、理财、资信水平等信息,通过一定的分析方法预测包括居民个体、企事业等银行客户的行为,并对根据分析结果对客户进行分类,选择最适合的的客户作为重点服务对象,开发针对性的产品,提供特色的产品或者服务,并进行针对性的营销,实现商业银行的经营目标,即在较低风险水平上的可持续发展。

二、商业银行数据库营销的重要工具―数据挖掘技术

商业银行要有效的发挥数据库营销的威力,需要相应的技术手段来从商业银行庞大的数据库中“挖掘”有效信息用于指导银行的决策与实践。其中,数据挖掘技术是最重要的实现数据库营销的工具之一。

所谓数据挖掘是指通过设计一定的算法或者程序来从历史数据中来提取隐含的信息,此种隐含的信息能够指导实践与深入认识事物的基本规律。此种信息有几个特征:(一)隐含性。在其原始的呈现方式中,此种信息淹没在大量的无用数据之中,必须通过一定的算法或者程序使之显现出来;(二)价值性。数据挖掘出来的数据对于认识及实践具有直接或者间接的指导性,从而体现出其价值型;(三)科学性。数据挖掘是基于一定的数学与概率统计基础等基础科学之上,方法的科学保证了结论的科学。

数据挖掘区别于传统简单的统计回归,其更注重其商业应用。其能够对大量的隶属数据进行提取、转化、分析与建模等处理,并发掘其中的关键性的规律。

数据挖掘的基础是历史数据,记录历史数据的数据库、档案等为数据挖掘提供了“原料”,通过对“原料”的“精炼”,提取出对决策有帮助的信息。

在具体的应用中,数据挖掘主要应用于消费者行为预测、趋势分析、相关性分析、聚类分析等方面。

数据挖掘技术从应用来看,其主要包括分类、聚类分析、关联分析、以及概念描述、偏差检验和预测等。

(一)分类

通过对分析客体的特点,通过建立一定的标准来对总体进行细分,从而化大为小。比如银行可以通过对储户的行业特征进行分析,从而知道客户等级的划分或者制定针对性的营销策略。

(二)聚类分析

聚类分析基于大量的数据进行统计特征的分析,将不同的数据记录所体现的客体进行特征的计算,将大量的对象根据某些标准分成若干类别。对象分类之间具有较大的差异,而在类别之内的对象则具有较小的差异。比如银行根据其大量客户的信贷记录对企业的成长性进行评价,区分相应的类别,便于确定银行的信贷投放计划或者投放比例。

(三)关联分析

关联分析即相关性分析,其基本原理为一个事件的发生与另外一些事件的发生可能存在一定的联动性,此种联动性可能包括简单相关、因果相关、甚至是虚假相关等。如银行可以根据相关性的原理来开发某些信贷质量监测指标,当某个指标超过灵节点的时候,可以界定为信贷投放需要重点监管等。

(四)概念描述

对特定的对象的内涵与外延进行界定,并提炼出其共同点。并揭示出一种概念区别于另外一种概念的主要特征等。如商业银行在私人银行中对高风险承受能力与低风险承受能力的客户进行准确的界定,以开发针对性的产品和提供差别化的服务。

(五)偏差检验

在历史数据中可能有一些数据与其它数据存在重大的差异,即“孤点”,在数据处理的时候,这些数据被排除,因为其不能反映总体的状况,并可能给均值等指标带来较大的影响。但“孤点”也有其实践用途,如在贷款质量监测中,发现某些企业的现金流量急剧减少或者存货占总资产的比例过高,此种情况绩效出现,因为就需要分析,此项贷款是否存在难以按期偿付的风险,从而预防坏账的产生。

(六)预测

预测为根据历史数据提炼出相应的规律,在规律的假设条件没有变化的情况下,可以对未来的发展做出适当的推测。比如,银行可根据客户的定期存款情况或者基金定投的规律来推测客户的未来收益,从而为其信用授信提供计算依据。

三、商业银行利用数据挖掘进行数据库营销近期应推行的策略

(一)转变思路,提高认识

数据库营销是营销学的概念,而在传统的商业银行经营过程中,指导银行发展的主要经济学、金融学、财务学等学科,引入营销学,特别是营销学的前沿工具与思路对于传统的商业经营从业者来讲,需要思维的突破与视野的打开。商业银行的竞争格局已经要求所有的机构必须紧跟最前沿的各类思想与知识,吸纳数据库营销的理论、利用数据挖掘的方法是典型的跨界应用。

(二)预判环境变化,以市场为导向

商业银行经营的成功与国家政策密切相关,当信贷扩张的时候,商业银行的效益较好,而在信贷紧缩的时候,商业银行的经营相对比较有压力。但作为市场竞争主体而言的商业银行,其必须通过预判环境,提前进行业务布局的调整,是实现比较优势的关键点。利用其庞大的数据库与客户资源,接触数据库营销与数据挖掘,其完全可以实现业务格局的调整。

(三)加强科研与人才培养

数据库营销与数据挖掘属于典型的知识密集型的工作,要利用这两种工具,需要商业银行加强人才的培养与科研的重视力度,商业银行可以采用校企合作、建立科研机构等方式来实现人才的培养。

商业银行是一个复杂的系统,其经营的成功有赖于很多方面,但借用营销学中的数据库营销与数据挖掘技术能够为商业银行的经营成功提供一定程度的助力,从而使商业银行能够减少经营的风险,实现银行的可持续发展。

参考文献

篇4

 

一、数据挖掘的概念

1.1数据挖掘的定义

数据挖掘(Datamining 简称DM),可以说是数据库中的知识发现,它是指从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的,人们事先不知道的,但又是潜在的,有用的信息和知识的过程。它综合利用了统计学方法,模糊识别技术、人工智能方法,人工神经网络技术等相关技术,并对各行各业的生产数据,管理数据和经营数据进行处理、组织、分析、综合和解释,以期望从这些数据中挖掘并揭示出客观规律,反映内在联系和预测发展趋势的知识,例如医学研究人员希望从已有的成千上万份病历中找出患有某种疾病的病人的共同特征,从而为治愈这种疾病提供一些帮助。

从数据库中发现知识(KDD)一词首先出现在1989年举行的第一届国际联合人工智能学术会议上,到目前为止,美国人工智能协会主办的KDD国际研讨会已经召开了多次,规模由原来的专题讨论发展到国际学术大会,研究重点也逐渐从发现方法转向应用系统,注意多种发现策略和技术的集成,以及多种学科之间的相互渗透,数据挖掘与知识发现已成为当前国际上的一个研究热点。

1.2 数据挖掘的对象

数据挖掘常见的挖掘对象有:关系(Relational)数据库、事务(Transactional)数据库、面向对象(Objected-Oriented)数据库、主动(Active)数据库、空间(Spatial)数据库、时态(Temporal)数据库、文本(Textual)数据库、多媒体(Multi-Media)数据库、异质(Heterogeneous)数据库以及Web数据库等。

知识发现(KDD)被认为是从数据中发现有用知识的整个过程,数据挖掘只是数据库中知识发现的一个步骤,但又是最重要的一步,它用专门算法从数据中抽取模式,原始数据可以是结构化的,如关系型数据库中的数据,也可以是非结构化的,如文本、图形、图像数据,甚至是分布在网络上的异构型数据。

二、数据挖掘的意义

数据挖掘与传统的数据分析(如查询报表,联机应用分析)的本质区别是数据挖掘是在没有明确假设的前提下去挖掘信息,发现知识,数据挖掘所得到的信息应具有先未知,有效和应用三个特征。

先前未知的信息是指该信息是预先未曾预料到的,即数据挖掘是要 发现那些不能靠直觉发现的信息知识,甚至是违背直觉的信息或知识,数据挖掘通过预测未来趋势及行为,做出前摄的,基于知识的决策。

三、数据挖掘的分类:

数据挖掘的任务就是从数据集中发现模式,模式有很多种,按功能分为两大类:(1)描述性挖掘,主要刻画数据库中数据的一般特性;(2)预测性挖掘,主要任务在当前数据上进行推断,以进行预测,在实际应用中,往往根据模式的实际作用及数据挖掘的任务分为以下几类:

(1)关联分析(associationanalysis):关联分析以发现关联规则(association rules)为目标,关联分析的典型例子是购物篮分析,描述顾客的购买行为(哪些商品常在一起购买)。例如“啤酒和尿布的故事”。

(2)分类(classification):首先分析一个训练样本数据集,找到一组能够描述数据集合典型特征的模型(或函数),然后使用这个模型分类识别未知数据的归属或类别,即将未知事例映射到某种离散类别之一,分类的方法很多,主要有决策树法、贝叶斯法、神经网络法,近邻学习或基于事例的学习等方法。例如,利用教师的相关数据(如职称、学历教龄等)以及学生对教师的教学评估结果构建分类模型(如决策数),可用于预测某一位新教师未来教学评估的结果,相关知识可用于指导学校人事部门的教师引进工作。

(3)聚类分析(clusteringanalysis):聚类分析所分析处理的数据对象事先无确定的类别属性,聚类分析的基本原则是:各积聚类(clusters)内部数据对象间的相似度最大化,各聚类对象间的相似度最小化,按照选定的度量数据对象之间相似度的计算公式,遵循聚类分析的基本原则,将数据对象划分成为多个类或簇,在同一个簇中的对象之间具有较高的相似度,而不同簇中的对象差别较大,聚类分析主要应用于模式识别,数据分析,图像处理以及市场研究。

(4)序列分析(sequenceanalysis):序列分析是通过分析序列数据库寻找一定的规则和有趣的特征,广泛应用于对时间序列数据的分析,应用领域涉及经济学、生物医学、生态学、大气和海洋等。控制工程及信号处理,例如,web日志中的数据是典型的时间序列数据,它记录了用户与站点的交互信息及时间,对于商业网站而言,基于这些数据的挖掘对于其决策具有实用价值。

(5)孤立点分析:数据库中可能包含这样一些数据对象,它们与数据的一般行为或模型偏离很大,这些对象就是孤立点,大部分数据挖掘方法将孤立点视为噪声或异常而丢弃;而在一些应用中(如信用卡欺诈),罕见的事件可能比正常出现的更有趣,在市场分析中,可用于确定极低或极高收入的客户的消费行为。

四、数据挖掘的处理过程

数据挖掘来源于知识发现(KDD),是数据库发展和人工智能技术相结合的产物,因而数据挖掘包括KDD的全过程,类似于通常的一个开采过程,整个过程分为三个阶段来完成:数据准备阶段、数据挖掘阶段和结果显示阶段。

数据挖掘环境可示意如下图:

图1-1 数据挖掘环境框图

按工作流程包括以下几个步骤:

1、问题定义:对应用领域知识进行充分的理解和分析,明确挖掘对象和目标。

2、数据准备:

(1)搜索所有与业务对象有关的内部和外部数据信息,并从中选择出适用于数据挖掘应用的数据。

(2)数据净化和预处理包括去噪声,填补丢失的域,删除无效数据等。

(3)判断数据挖掘的功能类型,数据挖掘的功能类型分为验证型和发现型。验证型是指由用户首先提出假设;发现型是指用数据挖掘工具从数据中发现用户未知的事实、趋势、分类等。

(4)选择适宜的数据挖掘的算法。根据数据功能的类型和数据的特点选择相应的算法。常用的算法有人工神经元网络、决策树算法、集合论算法和遗传学算法等。

(5)进行数据转换。根据数据挖掘的目标、功能及数据挖掘算法,按指定方法组织数据,根据已了解的知识的出限定变量,转换数据类型并且映射数据到易于找到解的特征空间。

3、数据挖掘。在净化和转换过的数据集上进行数据挖掘。

4、结果的分析和同化。输出挖掘结果对数据挖掘出的结果进行解释和评价,转换成为能够最终被用户理解的知识。综合分析把已得到的知识和已有的知识进行综合,检查和处理它们之间的冲突,通过简明直观的方法把最终结果报告给用户,并且评价整个处理流程的性能。

五、结语

数据挖掘是目前国际上数据库和信息决策领域的前沿研究方向之一,也是当前计算机领域的一大热点,其研究的重点也逐渐从理论转移到了系统应用,随着技术的不断成熟,未来的应用领域也会更加广泛。只有更加深入的研究透了数据挖掘相关的理论,才能使其对未来社会的发展起到更积极的作用。

参考文献:

[1]朱明,数据挖掘[M],中国科学技术大学出版社,2002

[2]乔永生,数据挖掘的探讨[J],科技情报开发与经济,2006.16

[3](加)JiaweiHan, Micheline Kamber 著.范明 孟小峰等译.数据挖掘-概念与技术.北京:机械工业出版社.2001.15

友情链接