数据挖掘技术探讨论文范文

时间:2023-03-16 17:43:12

引言:寻求写作上的突破?我们特意为您精选了12篇数据挖掘技术探讨论文范文,希望这些范文能够成为您写作时的参考,帮助您的文章更加丰富和深入。

数据挖掘技术探讨论文

篇1

二、数据挖掘的方法

1.统计方法。传统的统计学为数据挖掘提供了许多判别和回归分析方法,常用的有贝叶斯推理、回归分析、方差分析等技术。贝叶斯推理是在知道新的信息后修正数据集概率分布的基本工具,处理数据挖掘中的分类问题,回归分析用来找到一个输入变量和输出变量关系的最佳模型,在回归分析中有用来描述一个变量的变化趋势和别的变量值的关系的线性回归,还有用来为某些事件发生的概率建模为预测变量集的对数回归、统计方法中的方差分析一般用于分析估计回归直线的性能和自变量对最终回归的影响,是许多挖掘应用中有力的工具之一。

2.关联规则。关联规则是一种简单,实用的分析规则,它描述了一个事物中某些属性同时出现的规律和模式,是数据挖掘中最成熟的主要技术之一。关联规则在数据挖掘领域应用很广泛适合于在大型数据集中发现数据之间的有意义关系,原因之一是它不受只选择一个因变量的限制。大多数关联规则挖掘算法能够无遗漏发现隐藏在所挖掘数据中的所有关联关系,但是,并不是所有通过关联得到的属性之间的关系都有实际应用价值,要对这些规则要进行有效的评价,筛选有意义的关联规则。

3.聚类分析。聚类分析是根据所选样本间关联的标准将其划分成几个组,同组内的样本具有较高的相似度,不同组的则相异,常用的技术有分裂算法,凝聚算法,划分聚类和增量聚类。聚类方法适合于探讨样本间的内部关系,从而对样本结构做出合理的评价,此外,聚类分析还用于对孤立点的检测。并非由聚类分析算法得到的类对决策都有效,在运用某一个算法之前,一般要先对数据的聚类趋势进行检验。

4.决策树方法。决策树学习是一种通过逼近离散值目标函数的方法,通过把实例从根结点排列到某个叶子结点来分类实例,叶子结点即为实例所属的分类。树上的每个结点说明了对实例的某个属性的测试,该结点的每一个后继分支对应于该属性的一个可能值,分类实例的方法是从这棵树的根结点开始,测试这个结点指定的属性,然后按照给定实例的该属性值对应的树枝向下移动。决策树方法是要应用于数据挖掘的分类方面。

5.神经网络。神经网络建立在自学习的数学模型基础之上,能够对大量复杂的数据进行分析,并可以完成对人脑或其他计算机来说极为复杂的模式抽取及趋势分析,神经网络既可以表现为有指导的学习也可以是无指导聚类,无论哪种,输入到神经网络中的值都是数值型的。人工神经元网络模拟人脑神经元结构,建立三大类多种神经元网络,具有非线形映射特性、信息的分布存储、并行处理和全局集体的作用、高度的自学习、自组织和自适应能力的种种优点。

6.遗传算法。遗传算法是一种受生物进化启发的学习方法,通过变异和重组当前己知的最好假设来生成后续的假设。每一步,通过使用目前适应性最高的假设的后代替代群体的某个部分,来更新当前群体的一组假设,来实现各个个体的适应性的提高。遗传算法由三个基本过程组成:繁殖(选择)是从一个旧种群(父代)选出生命力强的个体,产生新种群(后代)的过程;交叉〔重组)选择两个不同个体〔染色体)的部分(基因)进行交换,形成新个体的过程;变异(突变)是对某些个体的某些基因进行变异的过程。在数据挖掘中,可以被用作评估其他算法的适合度。

7.粗糙集。粗糙集能够在缺少关于数据先验知识的情况下,只以考察数据的分类能力为基础,解决模糊或不确定数据的分析和处理问题。粗糙集用于从数据库中发现分类规则的基本思想是将数据库中的属性分为条件属性和结论属性,对数据库中的元组根据各个属性不同的属性值分成相应的子集,然后对条件属性划分的子集与结论属性划分的子集之间上下近似关系生成判定规则。所有相似对象的集合称为初等集合,形成知识的基本成分。任何初等集合的并集称为精确集,否则,一个集合就是粗糙的(不精确的)。每个粗糙集都具有边界元素,也就是那些既不能确定为集合元素,也不能确定为集合补集元素的元素。粗糙集理论可以应用于数据挖掘中的分类、发现不准确数据或噪声数据内在的结构联系。

8.支持向量机。支持向量机(SVM)是在统计学习理论的基础上发展出来的一种新的机器学习方法。它基于结构风险最小化原则上的,尽量提高学习机的泛化能力,具有良好的推广性能和较好的分类精确性,能有效的解决过学习问题,现已成为训练多层感知器、RBF神经网络和多项式神经元网络的替代性方法。另外,支持向量机算法是一个凸优化问题,局部最优解一定是全局最优解,这些特点都是包括神经元网络在内的其他算法所不能及的。支持向量机可以应用于数据挖掘的分类、回归、对未知事物的探索等方面。

事实上,任何一种挖掘工具往往是根据具体问题来选择合适挖掘方法,很难说哪种方法好,那种方法劣,而是视具体问题而定。

三、结束语

目前,数据挖掘技术虽然得到了一定程度的应用,并取得了显著成效,但仍存在着许多尚未解决的问题。随着人们对数据挖掘技术的深人研究,数据挖掘技术必将在更加广泛的领域得到应用,并取得更加显著的效果。

参考文献:

篇2

入分析,提出了具体算法。

网络数据挖掘又称Web数据挖掘,是数据挖掘技术在网络信息处理中的应用,从与网络相关的资源和行为中抽取感兴趣的、有用的模式和隐含信息,是从Web网站的数据中发掘关系和规则。其挖掘对象是大量、异质、分布的Web文档,可以对数据库、Web服务器上的日志、读者信息等数据展开挖掘工作。同时,由于Web在逻辑上是一个由文档节点和超链接构成的图,因此Web挖掘所得到的模式可能是关于Web内容的,也可能是关于Web结构的,或者是关于用户行为模式的1。通过网络数据挖掘对每个用户的访问行为、频度、和内容等进行分析,能提取出每个用户的特征,给每个用户个性化的界面,提供个性化的Web信息服务。

本文以中国知网(CNKI)总库为统计源,以主题“We数据挖掘”、“网络数据挖掘”搜索到国内近六年的论文数量,从中可以看出相关领域的研究从2007年开始呈逐年上升趋势,2009年达到峰值后,逐年有所下降。具体数据如表2所示:

根据对这些文章内容的分析,研究网络数据挖掘算法及其实现的占大多数,国内关于网络数据挖掘在图书馆的应用研究不多,大多是作为电子商务中数据挖掘研究的一部分。网络数据挖掘在图书馆中的应用主要表现在以下几个方面:

(1)图书推荐系统。这类系统主要通过日志挖掘读者的借阅习惯,推测读者的阅读需求,从而为不同兴趣的读者提供相应的推荐内容。这种个性化推荐系统能够较好地把握读者需求,通过聚类和关联规则为读者推荐借阅过的相似图书或可能需要的其他文献。但它的缺点在于,推荐的相似图书,读者已经借阅过,再借阅的几率不大。因此,这个研究的重点和难点在使用的挖掘算法上2。

(2)网络学习平台。现代图书馆越来越重视读者的学习需求,从而推出各种学习服务3。这类应用主要是针对网络学习中的学习资源的挖掘。因为在图书馆提供的虚拟学习平台中,资源是庞大的,而读者的精力有限,同时每个人的兴趣不同,需要对不同的读者组织不同的教育资源。而网络数据挖掘在其中所起的重要作用就是对读者的借阅和浏览行为进行挖掘分析,根据分析结果为读者匹配学习资源。

(3)文献检索系统。网络数据挖掘技术也常见于文献检索系统的应用中,图书馆资源包含大量的文本、期刊、视频等。读者常常需要通过检索才能获取自己想要的信息,使用网络数据挖掘也是为读者提供高效获取信息的方式。

由以上分析看出,网络数据挖掘在图书馆中应用的主要目的就是为读者找到所需资源,满足读者的个性化需求。下面我们就针对网络数据挖掘在图书馆个性化推荐中的应用进行探讨。

1、 图书馆个性化推荐常用分析方法

1.1聚类算法

通常说来,许多图书馆的读者建模方法是基于统计的,即对所有读者的统计数据(比如基于平均值)进行分析。这样的后果是对读者的个性化行为视而不见,影响了读者专业性和个性化需求,忽略了隐含的读者信息的价值。而读者聚类建模,则是把一类读者聚集起来,分析他们的特性并对这类读者建模,在建模质量相同或接近的条件下,聚类建模所需的数据量将远远低于对单个读者建模的数据量,因为分类中的每个读者(知识背景和生活阅历贡献具有很大的相似度)都贡献了其数据。常用聚类算法如表3。

1.2 社会网络分析

社会网络分析已经有相当长的一段历史了,近60年来,相关研究人员做了大量的研究,由Brin和Page等人提出的PageRank算法,以及由Kleinberg说提出来的HITS算法开创了将社会网络研究应用在Web范畴的先河。这两种算法都来源于社会网络分析,都利用了网页的超链接结构并依据网页的“威望”或者“权威”级别来对网页进行分级排序。这在搜索引擎中得到了广泛的运用。图书馆也同样存在着这样的社会网络关系,这种关系主要通过读者浏览和获取文献行为体现。这种关系和活动可以用网络或图来表示,其中,每一个顶点(结点)用来表示一个读者,而一条边的连接用来表示两个读者之间的关系。利用网络图我们可以研究该网络的结构特征,以及每个读者威望性、中心性等属性。同时从中我们也可以找到各种类型的子图,即社区。

2、 基于网络数据挖掘的图书馆个性化推荐分析

2.1基于K-means聚类推荐分析

图书馆读者聚类可以通过两种方式进行聚类,建立二维推荐模型,即:查询聚类和借阅聚类。在此,只要实现查询信息和借阅信息的高效率、高准确率的自动分类,然后根据读者兴趣模型匹配,就可以完成其推荐过程。自动分类信息可以采用K-均值聚类算法实现,并根据图书馆相关信息结构的特点,对算法本身加以改进。具体流程如图1。

2.2 基于PageRank社会网络分析

在图书馆借阅场景下,读者浏览和借阅行为反应了读者的需求。PageRank算法关键在于测度每个对象的随机访问概率。我们假定读者借阅史就是读者推荐书目单,反应了读者对于图书的认可程度。在此,我们可以把访问概率转化为读者推荐书目单的紧密程度,因此,问题转化为求读者推荐书目单的紧密程度,然后通过PageRank算法,求出读者推荐书目单的权威度排名,进而推荐给兴趣模型相似的读者。

我们用dist(j, t)表示两个读者推荐书目单关系程度,使用其文本相似度 来度量,进而产生新的PageRank2算法。对于每个读者推荐书目单,其重要度PR2(i)可定义为:

其中DIS(j,i)定义为:

在实际应用中,由于某些读者推荐书目单可能与其他读者推荐书目单 值为0,故将公式2调整为:

其中a为衰减系数,设定为0和1之间,其本质是为了消除孤立读者,给每个读者增加一条指向所有其它读者的链接,并且给予每个链接一个由参数a控制的转移概率,在这里我们沿用PageRank中的取值a=0.8570。

3、 结语

本文主要探讨了网络数据挖掘在图书馆中的应用问题,并对于社会网络分析的应用进行了较为深入的分析,提出了具体算法。网络数据挖掘广泛应用于互联网。随着数字图书馆的不断兴起,其在图书馆领域的应用将更加广泛4。但是,图书馆相对封闭的信息环境制约着网络数据挖掘的应用。相信随着Web2.0和读者个性化需求不断得到重视5,数字图书馆技术的不断发展,网络数据挖掘将会发挥更加重要的作用。

参考文献

[1] 马费成,王晓光.信息资源管理研究及国际前沿[J].情报学研究进展.武汉大学出版社,2007.

[2] 刘晓忠.数据挖掘技术在图书馆建设中的应用[J].硅谷,2012(6).

篇3

一、商业银行的数据库营销

从营销的视角出发,数据库营销是市场主体通过其积累的历史信息,包括客户人口统计资料、消费数据、行为模式等,通过统计分析与趋势外推等方式来预测顾客未来的消费行为,包括可能消费的品类、产品、服务等。同时,市场主体可以据此通过聚类分析等统计学的方法对客户进行聚类分析,通过STP的模式来划分细分市场,根据企业的定位于特点来为某细分市场提供相应的市场供应物,以达到企业经营的目的。同时,利用数据库,企业可以进行客户关系管理。

从历史沿革上来看,数据库营销是有客户关系管理发展而来,其实质为以概率论与统计学为基础,以计算机技术、网络技术与数据库技术为支撑与实现手段。

其运用的基本原理为:作为市场主体的企业通过其记录的大量的消费数据信息,通过适当的算法、程序来对消费者的未来行为进行预测,并利用分析的结果来进行企业产品定位、设计针对性的营销方案,以实现企业的经营目标。数据库营销同时为企业对其经营的战略与策略提供了一个检核工具,使得企业能够不断检核企业的经营行为,并实现企业的长期价值最大化。

数据库营销是企业经营与运营的重要工具,具有普遍适用性。在具体的商业银行应用中,数据库营销可以理解为商业银行通过其积累和搜集的大量储蓄、信贷、理财、资信水平等信息,通过一定的分析方法预测包括居民个体、企事业等银行客户的行为,并对根据分析结果对客户进行分类,选择最适合的的客户作为重点服务对象,开发针对性的产品,提供特色的产品或者服务,并进行针对性的营销,实现商业银行的经营目标,即在较低风险水平上的可持续发展。

二、商业银行数据库营销的重要工具―数据挖掘技术

商业银行要有效的发挥数据库营销的威力,需要相应的技术手段来从商业银行庞大的数据库中“挖掘”有效信息用于指导银行的决策与实践。其中,数据挖掘技术是最重要的实现数据库营销的工具之一。

所谓数据挖掘是指通过设计一定的算法或者程序来从历史数据中来提取隐含的信息,此种隐含的信息能够指导实践与深入认识事物的基本规律。此种信息有几个特征:(一)隐含性。在其原始的呈现方式中,此种信息淹没在大量的无用数据之中,必须通过一定的算法或者程序使之显现出来;(二)价值性。数据挖掘出来的数据对于认识及实践具有直接或者间接的指导性,从而体现出其价值型;(三)科学性。数据挖掘是基于一定的数学与概率统计基础等基础科学之上,方法的科学保证了结论的科学。

数据挖掘区别于传统简单的统计回归,其更注重其商业应用。其能够对大量的隶属数据进行提取、转化、分析与建模等处理,并发掘其中的关键性的规律。

数据挖掘的基础是历史数据,记录历史数据的数据库、档案等为数据挖掘提供了“原料”,通过对“原料”的“精炼”,提取出对决策有帮助的信息。

在具体的应用中,数据挖掘主要应用于消费者行为预测、趋势分析、相关性分析、聚类分析等方面。

数据挖掘技术从应用来看,其主要包括分类、聚类分析、关联分析、以及概念描述、偏差检验和预测等。

(一)分类

通过对分析客体的特点,通过建立一定的标准来对总体进行细分,从而化大为小。比如银行可以通过对储户的行业特征进行分析,从而知道客户等级的划分或者制定针对性的营销策略。

(二)聚类分析

聚类分析基于大量的数据进行统计特征的分析,将不同的数据记录所体现的客体进行特征的计算,将大量的对象根据某些标准分成若干类别。对象分类之间具有较大的差异,而在类别之内的对象则具有较小的差异。比如银行根据其大量客户的信贷记录对企业的成长性进行评价,区分相应的类别,便于确定银行的信贷投放计划或者投放比例。

(三)关联分析

关联分析即相关性分析,其基本原理为一个事件的发生与另外一些事件的发生可能存在一定的联动性,此种联动性可能包括简单相关、因果相关、甚至是虚假相关等。如银行可以根据相关性的原理来开发某些信贷质量监测指标,当某个指标超过灵节点的时候,可以界定为信贷投放需要重点监管等。

(四)概念描述

对特定的对象的内涵与外延进行界定,并提炼出其共同点。并揭示出一种概念区别于另外一种概念的主要特征等。如商业银行在私人银行中对高风险承受能力与低风险承受能力的客户进行准确的界定,以开发针对性的产品和提供差别化的服务。

(五)偏差检验

在历史数据中可能有一些数据与其它数据存在重大的差异,即“孤点”,在数据处理的时候,这些数据被排除,因为其不能反映总体的状况,并可能给均值等指标带来较大的影响。但“孤点”也有其实践用途,如在贷款质量监测中,发现某些企业的现金流量急剧减少或者存货占总资产的比例过高,此种情况绩效出现,因为就需要分析,此项贷款是否存在难以按期偿付的风险,从而预防坏账的产生。

(六)预测

预测为根据历史数据提炼出相应的规律,在规律的假设条件没有变化的情况下,可以对未来的发展做出适当的推测。比如,银行可根据客户的定期存款情况或者基金定投的规律来推测客户的未来收益,从而为其信用授信提供计算依据。

三、商业银行利用数据挖掘进行数据库营销近期应推行的策略

(一)转变思路,提高认识

数据库营销是营销学的概念,而在传统的商业银行经营过程中,指导银行发展的主要经济学、金融学、财务学等学科,引入营销学,特别是营销学的前沿工具与思路对于传统的商业经营从业者来讲,需要思维的突破与视野的打开。商业银行的竞争格局已经要求所有的机构必须紧跟最前沿的各类思想与知识,吸纳数据库营销的理论、利用数据挖掘的方法是典型的跨界应用。

(二)预判环境变化,以市场为导向

商业银行经营的成功与国家政策密切相关,当信贷扩张的时候,商业银行的效益较好,而在信贷紧缩的时候,商业银行的经营相对比较有压力。但作为市场竞争主体而言的商业银行,其必须通过预判环境,提前进行业务布局的调整,是实现比较优势的关键点。利用其庞大的数据库与客户资源,接触数据库营销与数据挖掘,其完全可以实现业务格局的调整。

(三)加强科研与人才培养

数据库营销与数据挖掘属于典型的知识密集型的工作,要利用这两种工具,需要商业银行加强人才的培养与科研的重视力度,商业银行可以采用校企合作、建立科研机构等方式来实现人才的培养。

商业银行是一个复杂的系统,其经营的成功有赖于很多方面,但借用营销学中的数据库营销与数据挖掘技术能够为商业银行的经营成功提供一定程度的助力,从而使商业银行能够减少经营的风险,实现银行的可持续发展。

参考文献

篇4

 

一、数据挖掘的概念

1.1数据挖掘的定义

数据挖掘(Datamining 简称DM),可以说是数据库中的知识发现,它是指从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的,人们事先不知道的,但又是潜在的,有用的信息和知识的过程。它综合利用了统计学方法,模糊识别技术、人工智能方法,人工神经网络技术等相关技术,并对各行各业的生产数据,管理数据和经营数据进行处理、组织、分析、综合和解释,以期望从这些数据中挖掘并揭示出客观规律,反映内在联系和预测发展趋势的知识,例如医学研究人员希望从已有的成千上万份病历中找出患有某种疾病的病人的共同特征,从而为治愈这种疾病提供一些帮助。

从数据库中发现知识(KDD)一词首先出现在1989年举行的第一届国际联合人工智能学术会议上,到目前为止,美国人工智能协会主办的KDD国际研讨会已经召开了多次,规模由原来的专题讨论发展到国际学术大会,研究重点也逐渐从发现方法转向应用系统,注意多种发现策略和技术的集成,以及多种学科之间的相互渗透,数据挖掘与知识发现已成为当前国际上的一个研究热点。

1.2 数据挖掘的对象

数据挖掘常见的挖掘对象有:关系(Relational)数据库、事务(Transactional)数据库、面向对象(Objected-Oriented)数据库、主动(Active)数据库、空间(Spatial)数据库、时态(Temporal)数据库、文本(Textual)数据库、多媒体(Multi-Media)数据库、异质(Heterogeneous)数据库以及Web数据库等。

知识发现(KDD)被认为是从数据中发现有用知识的整个过程,数据挖掘只是数据库中知识发现的一个步骤,但又是最重要的一步,它用专门算法从数据中抽取模式,原始数据可以是结构化的,如关系型数据库中的数据,也可以是非结构化的,如文本、图形、图像数据,甚至是分布在网络上的异构型数据。

二、数据挖掘的意义

数据挖掘与传统的数据分析(如查询报表,联机应用分析)的本质区别是数据挖掘是在没有明确假设的前提下去挖掘信息,发现知识,数据挖掘所得到的信息应具有先未知,有效和应用三个特征。

先前未知的信息是指该信息是预先未曾预料到的,即数据挖掘是要 发现那些不能靠直觉发现的信息知识,甚至是违背直觉的信息或知识,数据挖掘通过预测未来趋势及行为,做出前摄的,基于知识的决策。

三、数据挖掘的分类:

数据挖掘的任务就是从数据集中发现模式,模式有很多种,按功能分为两大类:(1)描述性挖掘,主要刻画数据库中数据的一般特性;(2)预测性挖掘,主要任务在当前数据上进行推断,以进行预测,在实际应用中,往往根据模式的实际作用及数据挖掘的任务分为以下几类:

(1)关联分析(associationanalysis):关联分析以发现关联规则(association rules)为目标,关联分析的典型例子是购物篮分析,描述顾客的购买行为(哪些商品常在一起购买)。例如“啤酒和尿布的故事”。

(2)分类(classification):首先分析一个训练样本数据集,找到一组能够描述数据集合典型特征的模型(或函数),然后使用这个模型分类识别未知数据的归属或类别,即将未知事例映射到某种离散类别之一,分类的方法很多,主要有决策树法、贝叶斯法、神经网络法,近邻学习或基于事例的学习等方法。例如,利用教师的相关数据(如职称、学历教龄等)以及学生对教师的教学评估结果构建分类模型(如决策数),可用于预测某一位新教师未来教学评估的结果,相关知识可用于指导学校人事部门的教师引进工作。

(3)聚类分析(clusteringanalysis):聚类分析所分析处理的数据对象事先无确定的类别属性,聚类分析的基本原则是:各积聚类(clusters)内部数据对象间的相似度最大化,各聚类对象间的相似度最小化,按照选定的度量数据对象之间相似度的计算公式,遵循聚类分析的基本原则,将数据对象划分成为多个类或簇,在同一个簇中的对象之间具有较高的相似度,而不同簇中的对象差别较大,聚类分析主要应用于模式识别,数据分析,图像处理以及市场研究。

(4)序列分析(sequenceanalysis):序列分析是通过分析序列数据库寻找一定的规则和有趣的特征,广泛应用于对时间序列数据的分析,应用领域涉及经济学、生物医学、生态学、大气和海洋等。控制工程及信号处理,例如,web日志中的数据是典型的时间序列数据,它记录了用户与站点的交互信息及时间,对于商业网站而言,基于这些数据的挖掘对于其决策具有实用价值。

(5)孤立点分析:数据库中可能包含这样一些数据对象,它们与数据的一般行为或模型偏离很大,这些对象就是孤立点,大部分数据挖掘方法将孤立点视为噪声或异常而丢弃;而在一些应用中(如信用卡欺诈),罕见的事件可能比正常出现的更有趣,在市场分析中,可用于确定极低或极高收入的客户的消费行为。

四、数据挖掘的处理过程

数据挖掘来源于知识发现(KDD),是数据库发展和人工智能技术相结合的产物,因而数据挖掘包括KDD的全过程,类似于通常的一个开采过程,整个过程分为三个阶段来完成:数据准备阶段、数据挖掘阶段和结果显示阶段。

数据挖掘环境可示意如下图:

图1-1 数据挖掘环境框图

按工作流程包括以下几个步骤:

1、问题定义:对应用领域知识进行充分的理解和分析,明确挖掘对象和目标。

2、数据准备:

(1)搜索所有与业务对象有关的内部和外部数据信息,并从中选择出适用于数据挖掘应用的数据。

(2)数据净化和预处理包括去噪声,填补丢失的域,删除无效数据等。

(3)判断数据挖掘的功能类型,数据挖掘的功能类型分为验证型和发现型。验证型是指由用户首先提出假设;发现型是指用数据挖掘工具从数据中发现用户未知的事实、趋势、分类等。

(4)选择适宜的数据挖掘的算法。根据数据功能的类型和数据的特点选择相应的算法。常用的算法有人工神经元网络、决策树算法、集合论算法和遗传学算法等。

(5)进行数据转换。根据数据挖掘的目标、功能及数据挖掘算法,按指定方法组织数据,根据已了解的知识的出限定变量,转换数据类型并且映射数据到易于找到解的特征空间。

3、数据挖掘。在净化和转换过的数据集上进行数据挖掘。

4、结果的分析和同化。输出挖掘结果对数据挖掘出的结果进行解释和评价,转换成为能够最终被用户理解的知识。综合分析把已得到的知识和已有的知识进行综合,检查和处理它们之间的冲突,通过简明直观的方法把最终结果报告给用户,并且评价整个处理流程的性能。

五、结语

数据挖掘是目前国际上数据库和信息决策领域的前沿研究方向之一,也是当前计算机领域的一大热点,其研究的重点也逐渐从理论转移到了系统应用,随着技术的不断成熟,未来的应用领域也会更加广泛。只有更加深入的研究透了数据挖掘相关的理论,才能使其对未来社会的发展起到更积极的作用。

参考文献:

[1]朱明,数据挖掘[M],中国科学技术大学出版社,2002

[2]乔永生,数据挖掘的探讨[J],科技情报开发与经济,2006.16

[3](加)JiaweiHan, Micheline Kamber 著.范明 孟小峰等译.数据挖掘-概念与技术.北京:机械工业出版社.2001.15

篇5

中图分类号:G642 文献标志码:B 文章编号:1674-9324(2013)09-0253-03

一、引言

21世纪是国家全面推进学生素质培养的时期,计算机专业课既具有较强的理论性,又具有较深的实践性。目前,计算机专业的教学过程中往往理论教育与实际脱节,很多学生通过了专业理论课的考试,却不能将理论付诸于实践,学生对课程知识并没有深刻的理解和消化,对课程理论的实际应用没有感观上的体验。经调查显示,60%以上的学生认为在校期间的计算机理论课的学习对就业和实际工作帮助不大,这给学生学习计算机理论的积极性带来了消极的影响,更有很多学生热衷于参加社会上的计算机培训机构,放弃在高校的课程学习。因此,在培养学生的理论创新能力的同时,提高学生的动手操作能力,加强学生理论联系实际的能力是计算机教学十分紧迫和必要的任务。

随着信息技术和网络技术的快速发展,在短短几年内数据仓库和数据挖掘就已经成为IT信息领域广泛应用和热点研究的领域。该领域主要是研究如何从浩如烟海的海量数据中有效地提取并挖掘知识,对其进行自动分析和汇总,是计算机行业中最热门、最有前景的领域之一[1]。数据仓库与数据挖掘课程也顺应计算机发展的需要,进入到高校计算机教育的专业课课程列表中。

本论文在深入研究了数据仓库和数据挖掘课程的内容和特点的基础上,采用B/S(Browser/Server)架构,即浏览器/服务器架构,开发了web课程教学实验平台。

二、数据仓库与数据挖掘学科教学现状

随着数据仓库与数据挖掘课程在各大高校成功试教后,近年来各大高校都为计算机专业都设立了数据仓库和数据挖掘课程,时至今日,其课堂理论教学已经比较成熟。然而,绝大多数学生在经过该课程的学习后,普遍反映虽然基本了解了数据仓库和数据挖掘相关理论知识,却缺乏感性认识和实践应用能力。这主要是因为该课程的实验教学较难开展,缺乏一个符合以下特点的教学实验平台。

市场中通用数据仓库和数据挖掘软件昂贵且难以使用,大量的专业术语、专业业务理论、数学知识和挖掘模型让人无从下手。因此我们需要的仅仅是一个实验平台,并非大型企业应用软件,只要学生能通过它更简易地完成该课程的实验环节即可。

1.可视化、易操作。可视化和易操作可以提高学生的学习兴趣,让学生更直观的参与到教学活动中来,而不是苦恼于如何使用该平成实验。

2.交互性。一个好的教学平台不仅是一个可以提供给学生传授知识的平台,还应该是一个可以和学生及老师有交互性的平台,并且使学生和学生有交互性,老师和学生有交互性[2]。

3.教学与实验相结合。我们需要不仅仅是一个数据仓库与数据挖掘实验软件,而是综合课程教学和课程实验的平台。教学与实验相结合、理论与实践并重,这才是计算机专业教育的核心。

4.拥有合理和充足的实验数据。对于一个实验平台来说,数据的缺乏将使得实验无法进行。尤其是对于数据仓库与数据挖掘这个特殊的领域,数据不仅要足够的多而且要合理,否则会严重影响实验结果和教学效果。

三、数据仓库与数据挖掘学科教学实验平台的构建

为适应教育发展需要,秉承深化教学改革的方针,改革数据仓库和数据挖掘课程原有的普通教学模式,启动了“数据挖掘课程设计平台建设”教学改革项目。该平台依托我校电信学院985平台的优良硬件环境,由远程开放实验平台服务器和终端PC机组成,其成本低廉、维护方便、部署容易。该实验平台服务器直接部署于本校的学院985实验基地,具有操作稳定性、鲁棒性和容错性。通过该实验教学平台,学生对该课程的学习过程将不受场地限制,只要通过网络就可以登录该平台。该平台主要框架如图1所示。

1.用户管理模块实现了对不同用户的权限设置、登录和注册等功能,超级管理员可以为普通学生用户分配权限。

2.实验平台模块给学生提供了算法模拟和试验的平台,主要分为以下两个部分。

(1)数据仓库的维度建模设计模块。雪花模型设计案例;星型模型设计案例;ETL抽取操作平台。

(2)数据挖掘算法实验模块。数据预处理程序实现算法平台;Apriori算法实验平台;ID3算法实验平台;BP算法实验平台;K-Mean和K-Medoid算法实验平台;C4.5算法和决策树算法实验平台;KNN算法实验平台;贝叶斯算法实验平台。

维度建模设计平台和数据挖掘算法实验平台模块是该平台的核心模块。

3.实验课程模块主要向学生介绍该实验课程的相关内容、教学大纲和教学任务,也包含数据仓库环境的具体安装和配置视频演示。

4.作业提交模块更是改变了传统的提交纸质作业的模式,让学生将动手完成的实验和相关作业通过该平台提交,一个学生一个账户,避免了作业抄袭和拷贝。学生提交的作业只要运行正确,按题目要求编程,不论采用何种语言或者何种算法都是可以的,并没有唯一性的标准答案。当实验课程考核的时候,学生能够通过作业提交系统向服务器提交指定课程内容的作业,供教师在线评阅和打分。

5.教学资源下载提供给学生自学的资料,给感兴趣的学生提供了进一步学习的捷径。

6.当有学生对实验环节和该课程有任何疑问,都可以登录在线答疑系统,给授课老师留言,这些信息都会以邮件的形式发送到授课老师的收件箱,从而实现即时的答复,让学生在第一时间接受老师的指导。当有问题重复出现三次以上,系统就会自动识别,将问题和答复展示在FAQ中,提供给更多的学生共享该问题和该问题的解答,避免重复提问,也给还未遇到该问题的学生共享和学习。在线答疑给学生和教师提供了交互、交流和学习的平台。

7.数据挖掘实验平台的在线代码编译环境主要采用gcc编译器,能够对学生提交的各种代码进行实时编译,给用户的感觉就像是在本地执行一样。它能够支持的在线运行编程语言包括java、C和C++等,给学生提供多样化的语言实现方式,体现了非机械化的计算机应试理念。

四、数据仓库与数据挖掘学科教学实验平台的教学效果

在数据仓库和数据挖掘课程中使用该教学实验平台,具有教育的先进性和优越性。

(一)建设了数据仓库和数据挖掘课程的实验教学体系

1.数据仓库和数据挖掘模型。本平台可以培养学生自己动手创建多维星型模型、多维雪花模型、缓慢变化维、ETL模型、数据立方体模型及其实例等,还可以增加学生对各类重要挖掘算法的特点和应用场景的理解,让学生在实验平台上体验基于数据仓库的主要数据挖掘算法。

2.模型评估。当学生创建完毕自己的数据仓库和数据挖掘模型后,可以通过调整不同的参数值和更改数据集来检验算法的输出结果,并通过记录在不同的应用场景下的参数值和结果值得到最优值。

3.优化创建模型和算法的性能。学生通过使用计算机领域中的一些经典优化技术,如创建位图索引、哈希索引、S-tree索引等来优化模型和算法的性能,并记录和比较不同优化技术对模型和算法的效率和响应时间的影响。

4.定期对学生所学实验内容进行测试,根据学生的实验测试结果对平台的远程实验操作功能进行改进和完善。

(二)部署和实施了基于网络的数据仓库和数据挖掘课程远程实验教学环境

本项目通过构建基于网络技术的远程实验教学平台,不仅给学生和教师提供这样一个教学实验平台,而且还实现了实验教学的网上开放式管理,改革原有相对封闭的实验教学模式为开放的实验教学模式,构建了一个符合实践教学环节需求、虚拟和真实环境相结合、基于Web的多应用场景的远程开放实验平台。

(三)基于采样评估证明了远程网络实验教学的可行性和优越性

根据采样评估结果,该系统体现了远程网络实验的可行性和优越性。在该平台真正投入使用之前,我们将一批学生分为两个组进行数据仓库和数据挖掘课程的学习,A组学生使用现有的课程教学方法,而B组学生使用该平台的远程实验教学环境。具体教学内容为多维数据模型和数据立方体的概念以及k-means聚类和Apriori关联分析算法。两组学生通过不同的教学方式学习后,对他们进行了问卷调查和统计,结果如图2所示。

从图2的数据结果可以看到,无论是从学生兴趣程度、作业完成度还是考试成绩的角度对两组学生的学习效果进行评估,使用该数据仓库与数据挖掘课程教学实验平台的教学方式都具有明显的优势。在实验过程中学生是主体,用所学知识发挥创造性思维进行实践。当实验取得结果时,不论结果成功与否,都能带给学生一定的鼓励,从而在某种程度上激发学生的创造力和积极性,真正加速问题解决和理论创新。因此,我们有理由相信该平台的使用可以极大地提高学生的学习兴趣,促进教学目标的实现。

五、结论

在计算机专业的教学中,如何提高学生的实践能力和独立解决问题的能力是当前高等教育发展的新形势下所面临的主要问题。本文首先介绍了基于数据仓库和数据挖掘课程的实验平台的整体架构,展示了该平台的优点,证明了该平台可以将课堂学习和课后练习、理论教育与工程实践有机结合,为实施更加行之有效的教学组织和教学管理模式提供了可能。只有教育者和学生充分认识到计算机课程中实验环节的重要性,更有效地利用现有的社会资源和计算机技术为我们的教育服务,专业学科教学模式和方法才能不断推陈出新,不断进步和发展。

参考文献:

[1]Jiawei Han,Micheline Kamber.Data Mining Concept and Technology[M].Beijing:China Machine Press,2007:10-12

篇6

一、前言

LED是21世纪最具发展前景的高新技术领域之一,通过分析专利情况,寻找LED厂商之间形成竞合关系的前因,探究支撑竞合关系的关键资源。

二、专利信息分析方法

专利分析方法研究集中于竞争情报、创新模式方面,从不同角度划分专利分析方法,以及专利信息分析的智能化系统开发、各种新的技术手段在专利分析中的应用(如文本挖掘、数据挖掘技术及计算机辅助分析等)。彭爱东(2000)将专利分析方法分为定量分析与定性分析两种,他认为对专利文献的外表特征(专利文献上所固有的标引项目)进行统计分析属于定量分析,以专利文献的技术内容或按技术特征来归并的统计分析属于定性分析。暴海龙和朱东华(2002)按专利分析方法的发展历程,从技术创新管理角度,综述了专利情报分析方法,指出专利分析方法向自动化、智能化、可视化方向发展的趋势。方曙(2007)等通过专利分析实践,从传统的定性专利分析、定量专利分析两类型划分法中又抽取出拟定量分析法,拟定量分析法是专利定量分析与定性分析相结合的分析方法,从而形成了定量、定性、拟定量三种类型专利分析方法。专利引文分析方法与专利数据挖掘,都是常见的拟定量分析方法。张静(2008)等认为专利分析方法可分为基本统计分析、引证分析和聚类分析三种,并通过6华中科技大学硕士学位论文详细对比发现这些专利分析方法互相交叉融合,统计分析与聚类分析对应了定量分析,而引证分析则既有定性也有定量的成分。郭婕婷与肖国华(2008)则根据专利信息的特点,从专利信息挖掘的角度,将专利分析方法归为“点”、“线”、“面”、“立体”由浅入深的四个层次进行了介绍,讨论了专利分析方法的应用。其中“立体”层次中的TEMPST分析、鱼骨技术分析、技术监测方法能实现对专利情报进行深层次的挖掘。张娴(2007)等将专利地图(PatentMap)作为一种专利分析的研究方法和表现形式,并从专利地图的角度探讨了专利分析的主要方法,结合实证应用说明各分析方法的主要功能、作用及表现形式。董菲(2007)等将专利地图理论引入专利分析方法的研究以提高分析结果的可视性与整体性。从管理层面和技术层面研究基于专利地图的专利分析方法。黄圆圆(2007)等提出并介绍了一种专利情报的对比分析方法,这一专利对比分析方法可分为总体对比分析、国家对比分析、公司对比分析、技术对比分析和指标对比。研究中选取总体与技术对比分析,对DVD技术领域进行实证研究,对比分析构建的DVD中国专利数据库与美国专利数据库两者规模的大小、水平的高低、速度的快慢以及各种关系是否协调等,研究发现各自的区别与差距,最终提供客观全面地评价各个体系的依据。除了上述专利分析方法,吕一博和康宇航(2010)提出一个可视化的专利布局方法,将聚类方法与多维标度法有机结合,从专利地域和专利技术两个维度构建可视化的专利布局分析。翟东升(2006)等探讨了构建基于专利地图理论和Multi-Agent思想的一种自动化、计算机化、高效化作业的专利分析系统。侯筱蓉(2008)等将引文路径分析加入专利分析法中,以协助专利隐性信息的挖掘。

三、专利与竞合的关系

研究专利可以代表公司的技术能力和竞争优势,通过收集或监测一定的技术领域的专利发展,能够获得关键商业信息,了解公司的技术专长,探索某行业的技术轨迹和公司的战略计划。Mogee(2002)认为专利分析可应用于技术跟踪和预测,确定重要技术的发展。交叉授权以及合并与收购目标的选择等。Yen-SengHao(2010)利用网络分析法对拥有超过95%美国RFID专利的20家公司的专利数据实证研究,探讨企业如何在行业中确定合作伙伴和竞争对手。Narin(1987)等人基于专利引用数据总结出9华中科技大学硕士学位论文能揭示公司的相对技术强弱以及比较公司之间的创新活动的指标体系,并通过专利本身引用网络分析,识别技术的互补性和竞争性。Yu-ShanChen和Bi-YuChen(2009)利用专利分析探讨两个LED厂商(Nichia和Osram)之间在LED产业两个关键技术领域(LED元件及磷光剂)的合作竞争行为。研究结果表明,两大厂商的技术能力部分相辅相成,是促使LED产业的两个对手由完全竞争转向竞争合作的原因。因此,专利已被视为合作竞争最重要的工具之一。

四、竞合的动因

随着经济环境变化的加剧,企业越来越认识到其在不确定性面前的渺小。在企业运营过程中,存在着与自然界类似的“生物依存链”。因此,为了企业自身的生存和长期可持续发展,企业之间应该联合起来,共同营造一个共生的经济生态环境。纵观竞合方面的研究,风险分担、进入新市场、获取新技术、加速产品进入市场和汇聚技术互补等都是竞合产生的动因。具体来说,可以归纳出以下五个方面的主要动因:

(1)相互依赖性。竞合的产生是由于不同个体之间的相互依赖性的不断增加。两股截然不同的力量,即竞争压力和合作需求使得竞争者不得不采取协同获取租金的行为。

(2)把“饼”做大。企业越来越意识到只有通过合作的方式才能壮大自身,因而才能进行更深层次的竞争。在现如今最重要的已经不是从对手的口中掠取更多的市场份额,而是把整个“饼”做大,也就是所说的“竞合”。

(3)降低不确定性。竞合也会降低成本、风险与创新或者新产品开发相关的诸多不确定性。有时对于单个企业来说单独开发和进入新市场是需要耗费相当大的成本的,而与对目标市场有共同兴趣且对行业情况较为熟悉的业内竞争者分担这些成本、风险和不确定性是更佳的选择。

(4)战略灵活性增长。竞合是在战略灵活性的需求不断增长中产生的。企业采取竞合战略往往是由于更多样化的战略选择的需要,并且比纯竞争或者纯合作的情况下拥有更多的战略灵活性。

(5)技术标准的争夺。竞合是在对技术标准的争夺中发展壮大的。在发展产业内,不同技术可能会抢占市场份额,这场战斗的结果取决于采用某一项技术或者标准的企业数量。通过联盟网络或者集群的合作能够帮助企业提高它们的技术以应对竞争者,同时说服更多的商户使用它们的设计。

五、竞合的类型

从竞合的类型来看存在两种基本的形式即二元竞合和网络竞合。二元竞合指的是成对的企业或者简单的两个企业之间的关系,具体包括:第一,在单一层次价值链中的两个企业之间的竞合关系(如战略结盟在相同的两个企业之间的竞合关系),就是“简单二元竞合”。第二,在不同层次价值链上的相同两个企业之间的竞合关系(在企业产业内的两个企业他们在企业研发/生产领域内进行合作,同时也在汽车分销领域内进行竞争)。这也就是“复杂二元竞合”。网络竞合是指同时出现在两个以上企业中的复杂关系结构,其中又可细分为:第一,在单一层次价值链中的多个企业之间的竞合关系(买方-供应商之间的关系,也被称为“平行采购”),这也就是“简单网络竞合”。第二,在不同层次价值链上的多个企业之间的竞合关系(如产业区域,企业集群和多边协议)。

六、结束语

企业之间只有竞争没有合作的模式是发展不久的,企业之间相互竞争合作才会有更大的发展前景。

篇7

摘要:科学研究作为高等学校的主要职能之一,也是评价高校实力的重要指标,日益受到关注。图书馆作为高校的辅助机构,参与了科研工

>> 图书馆的建设在职业教育改革中的作用探讨 浅谈中小学图书馆建设在素质教育中的作用 学生社团建设在图书馆发展中的作用探讨 图书馆在高校建设中的作用 浅谈高校图书馆员科研能力提升的重要性 论高校图书馆在大学生科研素养培养中的作用 浅谈高校图书馆在教学科研中的作用 h指数视角的“211工程”高校图书馆科研能力测度与分析 高校图书馆文献资源建设中读者决策采购的障碍与对策 高校数字图书馆建设中的问题与对策研究 高校区域图书馆建设中存在的问题与对策 浅议高校图书馆科研产出及科研能力 图书馆的期刊管理在高职院校教学与科研中的作用 虚拟化图书馆在高校数字化图书馆建设中的作用 解析高校图书馆知识服务能力的影响因素及提升对策 高校图书馆提升社会大众信息意识的意义与作用分析 浅谈地方文献建设对高校图书馆建设的作用与影响 图书馆文化建设在体育院校图书馆的价值体现 浅谈环境建设在图书馆管理文化中的地位 论环境建设在图书馆管理文化中的地位 常见问题解答 当前所在位置:中国 > 政治 > 图书馆建设在高校科研能力提升中的作用与对策 图书馆建设在高校科研能力提升中的作用与对策 杂志之家、写作服务和杂志订阅支持对公帐户付款!安全又可靠! document.write("作者: 陈雪梅 暨铎")

申明:本网站内容仅用于学术交流,如有侵犯您的权益,请及时告知我们,本站将立即删除有关内容。 摘要:科学研究作为高等学校的主要职能之一,也是评价高校实力的重要指标,日益受到关注。图书馆作为高校的辅助机构,参与了科研工作,但未受到重视。本文就图书资源对科研工作全过程的作用进行了阐述,并提出加强图书馆建设的途径,使图书资源工作成为科研不可或缺的帮手。关键词:高校图书馆;科研能力;对策doi: 10.3969/j.issn.2095-5707.2014.02.013The Role and Strategies of Library Construction in Improving Scientific Research Ability in UniversitiesChen Xuemei, Ji Duo(Hunan University of Traditional Chinese Medicine, Changsha Hunan 410007, China)Abstract: Scientific research is one of the main functions of universities, and an important index to evaluate the strength of universities, which has attracted people’s increasing attention. As an auxiliary organization of universities, libraries participated in research work, but the effects were not emphasized. This article described the effects of library resources on the whole process of scientific research, and put forward the ways of strengthening library construction to make the library resources an indispensable assistance for scientific research.Key words: university library; scientific research ability; strategy 科学研究作为高校四大职能之一,是学科国际排名和学校办学实力的重要影响因子,也是高校服务于社会、推进创新性国家建设的重要动力。图书馆作为高校的教学辅助机构,通常被看成简单的借还书和期刊整理部门,处于边缘化、不被重视的尴尬地位,文章就图书馆工作在高校科研工作的作用及对科研能力提升的对策谈谈个人看法。1 科学研究的特点与环节科学研究是指对一些现象或问题经过调查、验证、讨论及思维,然后进行推论、分析和综合,来获得客观事实的过程,也是一种知识创新,是第一生产力和推动经济发展与增长的内在因素,可分为基础研究和应用研究两大类[1]。因此,它具有客观性、创新性、系统性等特点。科学研究是对客观现象和问题进行解决的过程,按其过程可以将它划分为问题的提出、假说的形成、研究的展开和结论的得出几个环节,每一个环节都与利用图书资源分不开。2 图书资源对科研能力提升的作用科研能力是指发现问题、分析问题、解决问题,基金项目:湖南省中医药管理局科研基金重点项目(2012103)第一作者:陈雪梅,助理馆员,研究方向:图书情报整理与分析。E-mail: 或在分析问题时,有所发明、有所创造的能力[2]。该能力的提升与图书资源有密切关系。图书馆作为收集文献、传递知识的场所,是信息的重要集散地。2.1 图书资源为问题的提出提供支持科学研究是一个提出问题、解决问题的过程,而问题的提出和解决均离不开信息支持,众多图书资源是信息的重要来源,其建设直接关乎科研质量的高低和科研水平的强弱,决定科学研究的成败。首先,在科研选题上,研究者在根据学科建设的发展走向和社会需求的同时,如何从众多的现象中提出问题,保证提出的问题符合现实的需要并具有创新性,这就要求我们收集和查阅大量文献,从不同角度对其进行深入分析和研究,通过演绎、归纳与推理找到尚待解决的关键问题,形成假说。2.2 图书资源为问题的解决提供支持假说的形成只是科学研究的起始,如何论证假说的成立是科研过程的主要环节。由于科学研究是客观的,是综合运用现有的研究手段在已知理论指导下,对假说进行论证。所涉及的研究对象(如模型选择与制作)、研究方法(如仪器操作、试剂的配置)、观察指标的选定与标准等均需查阅文献,如拟订实验方案时,通常要在综合现有文献方法的基础上,结合研究者现有条件及研究基础,提出切实可行的方案。2.3 图书资源为结论的评判提供支持通过研究得出的结论是否严谨,创新性如何,是否具有实际应用或理论指导价值,是否有深入研究的价值,同样均需研究者通过调研综合评判。3 如何加强图书馆建设3.1 强化信息化建设随着信息化时代的到来,知识爆炸式增长,获取知识的传统方式已不能满足要求。计算机技术的普及和发展、云技术的出现可以满足知识更新的需求。以网络通讯技术和信息储存技术为载体的数字图书馆迅猛发展,数字图书资源具有信息存储数字化、表现形式虚拟化、传播网络化、存储海量化和检索途径丰富、复本量无限、性价比高等特点[3],越来越受到读者,特别是广大科技工作者的喜爱。高校应适用时代变化,加大资金投入,优化硬件配置,选择先进的、符合学校要求的技术,如框架描述性RDF技术,将自有馆藏图书目录数字化,与市场化的数字化资源整合建立虚拟图书馆,在此基础上通过与电讯企业联合,以无线通信技术为支撑,建立学校图书馆移动服务平台,开发掌上图书馆,通过手机、平板电脑等手持移动终端设备登录,进行馆藏搜索和数字阅读服务。3.2 创新图书资源服务方式互联网时代信息资源的海量增长给科研工作者提出了更高要求,如何从众多信息中获取有价值的信息,对科研课题立项申请、科研工作的开展有着重要意义。而科研工作者由于岗位性质决定其时间和精力有限,无法有效对选题的先进性和准确性进行把握。图书馆应转变借还书被动服务理念,全方位主动服务,如标书撰写时,可充分利用CNKI、Pubmed、CMCC光盘数据库等检索查新,对选题的新颖性做出评价。在研究过程中,如何避免抄袭和剽窃也是科研工作者要把握的重点,图书馆也可对上述资源以及研究生毕业论文库进行服务。在后,为评价研究工作的效能及研究成果的影响力,可以为科研工作者提供论文引文分析。总之,图书馆可以为科研人员提供立题-结题全程服务,提高单位科研能力。烟台毓璜顶医院研究证实了该院图书馆学科信息共享建设大大提高了医院科研产出[4]。3.3 优化图书资源配置传统图书资源和数字资源是新时期图书资源的两大组成部分,传统图书资源是构成图书馆的实体,实体图书馆是虚拟图书馆的基础。如何从繁杂的历史借阅数据中获取潜在有价值的信息,将有限的经费和场地利用好,购置读者受欢迎的书籍,对图书馆品牌建设有重要意义。数据挖掘为此提供了技术保证。数据挖掘是近年来随着数据库技术和人工智能技术的发展而出现的一种全新的信息技术,它是从大量的、不完全的、随机的实际应用数据中提取隐含在其中的但不为人们所知、且又有潜在价值的信息和知识,如趋势、特征以及相关的过程等[5]。通过数据挖掘技术对借还记录、借出次数等进行分析,了解科研人员兴趣、学科关联等隐藏信息,决定图书的科学排架、合理摆放以及图书采购倾向,从而提高图书借阅效率和资金使用率,同时也可减轻工作人员的劳动量。3.4 提高人员综合素质新时期下,图书馆职能的变化对高校图书馆工作人员要求越来越高。除爱岗敬业、热情周到、服务至上的基本素养外,还需具备如下能力:①信息资源收集和整理能力。能通过传统的文献处理手段和计算机技术对纸质资料和数字信息进行收集挖掘、分门别类加以整理,进而建立数据库。②信息分析和科研能力。图书工作参与了科研工作的全过程,图书工作者应具有信息分析和图书科研能力,能为科研人员提供高质量的信息支撑和决策依据,能从繁多的信息资源中去伪存真、理顺头绪,在一定范围内对相关研究工作进行总结与预判。③信息技术应用技能。资源数据库建立、信息查询与、图书馆业务自动化和数字图书馆日常管理等均与信息应用技术密不可分,图书馆工作人员只有掌握了必要的计算机技术、多媒体操作、数据挖掘等技术才能提高优质高水平高效的服务。有为才能有位,尽管目前图书馆工作在高校没有被足够重视,但只要图书工作者积极参与教学研究工作,加强图书工作科学研究,尤其是探索新形势下如何拓展图书工作服务内容,探究其对教学科研的影响途径,可以预计,图书馆将在高校扮演着越来越重要的角色。参考文献[1]钱志明,陈敬良.我国科研支出的问题及政策选择[J].商场现代化,2007(14):359.[2]王缙.文献信息与科技创新:论文献信息工作在科技创新中的作用[J].西南民族大学学报(人文社科版),2004, 25(12):520-521.[3]路长兰.略论图书馆电子图书资源建设[J].山东广播电视大学学报,2011(3):63-64,70.[4]崔春玲,王丽丽,刘培波.图书馆学科IC实践对医院科研产出的影响[J].中国医院,2012,16(11):78-80.[5]李爱玲.数据挖掘为图书管理提供决策支持[J].中国管理信息化,2012,15(9):113-114.(收稿日期:2013-10-30,编辑:李琳)

篇8

采用计算机科学技术、现代信息技术和新的数学理论和工具处理复杂的信息,从各类文本、数据、表格、图像、视频等浩瀚的数据海洋中挖掘规律,发现有用的潜在知识,指导人们进行科学分类、预测、决策,是多年来美国及国际计算机、信息科学和数学家一直在探索的研究领域。知识获取、知识表示和智能化的人机交互,甚至实现计算机可视化信息处理,建立新颖的知识库,从而获得领域信息和知识分析结果,将有助于商业活动、生物信息处理、蛋白质结构分析、科技研究动态分析,有助于科学家在复杂的科研信息中开辟新的未知领域,提供快速独立科学判断的客观依据,探讨和预测学科知识的发展前沿,准确把握学科研究方向,从事科学创新和研究。

多年来,我一直在智能信息处理这一研究领域进行探索。这次联系到美国德雷克塞尔大学信息科学技术学院Tony• H教授,在他的指导下进行数据挖掘、生物信息挖掘以及Rough Set Theory等方向的研究。

Tony•H教授现担任国际学报《Data Mining and Bioinformatics》和《Granular Computing》等的主编和国际粒计算会议的程序委员会主席,他所研究的Rough Set Theory、Data mining、Bioinformatics和Data Management Systems等内容,是近年来在世界智能信息分析中最具特色和影响力的研究领域。从2000年至今,他在这一研究领域中发表的研究论文达60多篇,出版的研究专著为3部。在为期一年的时间里,我与Tony•H进行了很好的合作研究,采用新的研究方法,对前沿领域进行了有益的探索研究,并接受了Tony•H等教授们的研究思想、研究方法、教学思想和教学方法的熏陶,对相关课程的教学方法、教学手段、教学组织方式进行了深入的交流和探讨。此外,我还以志愿者的身份参加了在美国举办的两个大型的全球性国际会议:美国工业数学联合会举办的2006年国际知识发现与数据挖掘会议(Knowledge Discovery and Data Mining- KDD, by SIAM, Maryland April,2006);国际知识发现和数据挖掘会议(International Knowledge Discovery and Data Mining (KDD), Philadelphia August, 2006)。

这次访问研究使我开阔了眼界,接触到很多当今信息科学研究领域中最先进的思想和方法。对Rough Set Theory、Data mining、Bioinformatics等前沿性探索和预测的科学研究也有了更深入的认识。同时,能够有机会和这一研究领域的世界知名专家和教授进行面对面的学术交流与探讨,参加各种类型的学术研讨会,我觉得受益匪浅。我所感受的学术氛围、学到的教学思想和教学方法是一笔宝贵的精神财富,我会将他们直接应用到自己的教学和科研中。下面就我在访美期间印象深刻的几件事谈谈体会,以期对我们的工作有所启示。

2优秀的学习环境

2.1优美的校园环境

我所访问的德雷克塞尔大学地处美国费城的市中心西部,紧邻世界著名的宾法尼亚大学(世界上第一台电子计算机ENIAC在这里诞生,现在这里还保留有部分元件的展览)。虽然离市中心较近,校园也没有围墙与外界明显隔开,由跨南北东西几条街和大道的建筑组成,但校区及周边环境寂静优雅。校园中央有一座代表性的龙雕塑,路边插的许多旗杆上挂着印有龙的图案和Dragon字样的杏黄校旗,几只松鼠在校园内的树上自由地跳跃活动,小道边或树下都设有长凳,供教职工或学生休息、讨论。

教学楼、实验楼、办公楼、图书馆、体育馆内中央空调处于恒温状态,非常适合工作学习。每栋楼的大厅或较宽的走道边的墙壁上都贴有各种名言及名画,营造着好的学习环境,渲染着极其重要的文化氛围。大厅内布置有椅子和圆桌,在上课、实验或面谈之前,教师或学生可在此休息等待,这一点的确做到了以人为本,给我留下了十分深刻的印象。

体育馆内各种体育设施齐全,如健身、跑步、球类等,全年对学生免费开放。游泳也只需支付少量的费用(3个月只需25美元),全天多时段使用。

9月迎接新生、校际间的篮球比赛等活动举办得井井有条,充满生机。

2.2完备的信息化建设

首先,信息化建设表现在数字资源的建设上。图书馆大厅内设有很多计算机,学生可在此上网浏览,查阅资料。书架周边靠墙处设有自习的桌椅,供有网络插口,学生可链接自己的笔记本电脑。图书馆资料丰富,如果在本馆找不到相关资料,也可请图书管理员在馆际间查找,将返回的电子文档通过邮件发送到学生校园网内的电子邮箱中,十分方便。

校园无线网覆盖了整个校园,教室周围也预设了网线插口,在教室内上课或自习的学生均可免费无线或有线上网。在校的本、硕、博学生都有自己的校内学号,凭该学号可直接在自己的实验室登陆校园网的电子图书馆,查到仅在校园网上提供的论文资料。学生还可从校园网中心服务器上下载以学校或机构名义购买的正版软件,这一点国内很多高校还没能做到。

其次,信息化建设也体现在师生信息素养的建设上。无论在信息意识、信息知识、信息能力,还是在信息道德上,师生们都显现出十分成熟的高水平。良好的信息化数字资源建设为师生的教学科研提供了良好的保障,师生们利用简单的搜索机制或便捷的馆际服务就可查到需要的资源。虽然本校师生可从校园网上下载正版软件,但每个人都遵守不宜外拷的基本原则,这也体现了良好的信息素养。

3教师教学与学生学习

3.1教师教学情况

美国高校一般一年分为4个学期,每个学期大约3个月。按照校方的要求,每个教师至少3个学期要有教学任务,而且必须在每个学期完成平均3门课程的教学,个别教师甚至在一个学期要承担4门课程的教学任务。一门课的教学约32学时,这样,每个教师每学期(一学期不到3个月)约完成72~96学时的教学工作量。除非有科研课题,可以用科研任务充抵教学工作量,否则,教学任务就是相当饱满的。除了承担教学工作外,每个教师还要承担科研、指导硕士及博士生进行研究的工作。年轻教师除了要完成教学任务,还要进一步深造,提高自己的学位和水平。教师的教学情况由学生来评价,学生填写调查表格,收齐后交由学院教学秘书统计,最后由学院将统计结果通报给教师本人,类似国内高校的学生评教。所以教师同样很有压力,他们对教学一丝不苟、敬业,并非普通人所想象的美国教师工资高、工作轻松。

在课下,教师必须将所授课程的内容介绍、大纲、演示文档资料、习题等组织好,全部挂在校园网的个人主页上,以便学生随时浏览。备课、批改作业、设计实验题目等各个环节,教师都要十分认真地对待,每周有一次约定学生到办公室进行问题讨论或答疑,保证教学任务圆满完成。教师对实验项目的设计循循善诱,既不是全盘托出,也不是仅给一个题目,让学生冥思苦想地琢磨。除了将学生建立成团队,教师还布置与课程相关的大量文献和资料阅读,并要求学生写出读书报告。对于课程结束或评定成绩用的大作业,甚至要求每个学生制作成演示文稿,并加以汇报、讨论。我看到一位叫爱德华(中译名)的老师,他承担了数据库、软件工程等多门课程的教学任务,每天都在办公室工作到很晚,有时甚至在教学楼大厅的休闲式自习间伏案研究。

在课上,每门课程开始的第一节课,教师就将学生分组,形成一个一个团队。在布置学习和研讨课题后,教师要求学生先独立思考,不明白的东西可在团队内讨论,有问题还可及时问老师。也就是说,每门课都在培养学生的团队协作精神。教师在课堂上的演示文稿经过精心准备,图文并茂,层次分明,令人赏心悦目,但他们也不完全拘泥于演示稿,也在黑(或白)板上演绎关键的内容,突出重点,使学生感到他们备课充分,对教学内容十分精通。

3.2学生学习情况

在美国读书的学生,普遍感到课外阅读任务较重。学生不光要学好课内的基本教学内容,还要阅读文献,查找与主题相关的资料,并加以整理、归纳、汇总。这培养了学生自主学习的意识,清除他们完全靠老师课堂讲授的依赖心理。

课堂上,学生们会踊跃发言,认真记笔记,回答老师的提问,在老师的引导下完成课堂练习。下课后,学生到图书馆查阅资料或自习,也会在网上下载老师在主页上布置的作业,按时完成后及时提交给老师批改。如在课程结束时,教师会给学生布置大作业,学生要在一定时间内当面交给老师,并接受面试提问,作为考查依据的一部分。在接到作业任务后,学生要认真对待,完成后连带其他作业一起交给老师。老师根据学生的总体完成情况给出五级分制的成绩。

我曾遇到一位硕士生,她就接到这样一个大作业。老师给的任务是一个较大的程序,要求她调试运行通过。经过一周的调试,程序始终没能运行成功。在快要到期时,她正好碰到我,听说我是从事这方面教学工作的,就向我请教。我很想了解美国教师采用什么样的教学方法,出什么样的题目让学生做,于是答应帮他。我仔细阅读分析和反复测试网上下载的源代码,终于找出了问题所在。原来老师在程序中故意预设了两个问题,这是学生在学习此类程序设计语言时容易忽略或犯错的问题,程序在编译中并不报错,但就是运行结果不正确,得不到期望的结果,学生找不到出错的地方,感到很困惑。经过修改,程序很快调试运行通过,进一步优化和调整后,她交给了老师。老师看了她的程序运行结果,并问了她的体会,得到非常满意的回答后,表示十分高兴。

其实,这就是教师在主导学生去主动学习,自己找资料,自己研究问题,形象地讲,就是“逼”学生好好学习。这样可以解决学生遇到较难问题时无从下手的迷惑,循循善诱他们找到解决问题的方法,避免了“越俎代庖”。

4 硕士生和博士生的培养过程

在硕、博研究生的指导过程中,如何对学生加以良好的指导,始终是困扰国内外导师们的问题,至今仍无绝对规范。

从导师与学生一见面,指导工作就已开始。导师一般提供很多必要的帮助,如帮助开设相互联系的校园邮箱,确定联系方式和时间,根据学生的知识结构制定研究方向等。作为一项基本约定,指导教师每周要有一个下午与学生见面,由学生汇报学习和研究情况,导师当面给出指导意见。导师有时还会帮助学生查找并提供最相关的研究论文或资料,必要时将研究论文的电子稿发送给学生,甚至将论文复印件放在学生的信箱中――这绝对有别于国内有的指导老师因兼职过多或担任其他职务,指导缺乏或持久不到位现象。这种指导方式加强了导师与学生的交流,也便于将学生引导到相关研究领域的最前沿,而导师也始终站在研究的最高点。而通过不断的交流和指导,学生能很快系统地了解相关领域的研究进展,较早找到问题的抓手,有兴趣地开展有意义的研究,往往容易产生创新型成果,包括理论和应用性实验成果等,并能。

当学生或导师认识到某个研究点的价值所在时,就会着力加以深入研究。如导师要求学生认真阅读研究后再来参加讨论,甚至有时要求学生将讨论内容制成演示文档讲解,这样他们对重要的概念和研究结果的掌握就会更加透彻,文献跟踪程度和研究思路水平就会得到提升。这种有意识的训练大大强于“散放式”的指导方式。

5良好的学术氛围

学科建设和课程教学离不开学术研究。在德雷克塞尔大学,给人留下深刻印象的就是每个教授(正教授、副教授和助理教授)都将自己的研究方向和最新论文或成果以一幅画的形式贴在工作室的外墙上,上面有个人简介、主要方法和结果说明。这样就打出了自己的招牌,便于他人了解自己。此外,每个教授甚至普通教师都在校园网上建有自己的主页,对自己的教学科研工作进行介绍,并将研究论文、著作等目录列在其中,便于与他人交流或沟通。教师也经常根据教学内容联系国际国内的专家做学术报告,始终用新知识武装学生的头脑。

重视营造活跃的学术氛围,并使学术交流制度化、经常化,是我在美做访问学者期间感受最深的一点。每个系或学院基本上每周都举办1~2次学术研讨会,主讲者有来自世界各地的专家教授,也有某个研究领域资深的校内教师。每次学术研讨会的时间大都定在中午12:30,12:00就开始提供免费的午餐。这样既充分利用了时间,又解决了听报告者的午饭问题,也通过免费午餐吸引了不少听众,特别是一些来自第三世界国家的“穷”留学生们。通过网上邀请,大多数感兴趣的学生甚至老师都会来参加研讨会,在这里了解一些最新的研究进展和报告人的研究思路,并能与主讲人交流自己的研究体会,视野随之开阔,思想也随之富有。有时,一些大的跨国公司或政府部门(如安全部门)的技术专家也被邀请来做专题报告,这样学术交流的氛围就比较活跃,研究工作也不会是一潭死水。

6结语

在美国德雷克塞尔大学访问进修一年,我目睹了该大学在环境建设、教学科研等方面的好的做法,开阔了视野。回国后,我给我的学生们讲解我的所见所闻,也给他们留下了深刻印象。这次进修不仅使我在业务上得到进一步修炼,也获得了不少“精神财富”,如下所示:

(1) 抓实抓好教学工作的每个环节,是高校教师的永恒主题。任何一个环节,如教学方法、教学手段、实验项目设计、主导学生学习、提出学习要求、组织讨论答疑、批改作业等方面的提高,都会大大提高教学质量和教学效率,取得事半功倍的效果。

(2) 指导学生方向和过程并重,确保处于研究前沿。指导学生,特别是硕、博士生的导师,不仅在一开始就要帮助学生确定研究方向,而且要定期开展学习检查和交流活动,必要时还要为学生提供前沿性的研究论文或资料,以便将他们早日引导到国际国内的前沿阵地,保持在高新水平上从事研究工作,取得创新性的研究成果。

(3) 创造活跃的学术氛围和良好的学习环境,是高校各级领导及教师的基本责任。只有将教师和学生置于始终向前的滚滚波涛中,教学和研究才会具有不可估量的创造力,才会在科学的道路上获得可持续发展。

篇9

中图分类号:G643 文献标志码:A 文章编号:1674-9324(2013)01-0275-02

在管理学中,目标管理的概念为:组织的最高领导层与各级管理人员共同参与制订出一定时期内经营活动所要达到的各项工作目标,然后层层落实,要求下属各部门主管人员以至每个员工根据上级的目标制订出自己工作的目标和相应的保证措施,形成一个目标体系,并把目标完成情况作为各部门或个人考核依据的一套管理方法[1]。目标是努力的方向,目标能集中人的精力,激发人的潜能,增加战胜困难的动力,人为了达到目标,可以无穷尽地努力,极尽全力地去寻找达到目标的途径和方法。我国企业于20世纪80年代初开始引进目标管理,现在,目标管理已经成为一种卓有成效的企业管理制度。我国自2000年研究生扩大招生以来,研究生的培养规模较扩招前增加了数倍,研究生培养中教育管理工作日益繁重,管理方法对研究生培养质量的影响也愈发显著。将目标驱动管理应用于研究生教育,既能激发学生的潜能,发挥学生的主观能动性,增强研究生自我控制的能力,又能将导师从繁琐的管理事务中解脱出来,更为重要的是研究生培养质量得到很大提高。

一、研究生培养的特点分析

上海大学叶志明教授在《怎样当一名研究生》中强调,研究生教育的基本定义是:本科后以研究为主要特征的高层次的专业教育。研究生阶段的学习主要是通过研究为手段来掌握知识、运用知识[2]。这一特征表明,研究生的学习与本科生存在很大差异。本科生学习的是该专业最成熟、最常见的基础知识,主要通过教师课堂讲授获得知识。本科教学以老师为主,老师讲学生听,学生被动地接受,老师将问题提出来,分析给学生听,然后传授解决问题的方法。本科生的培养呈现群体性特征,有确定的班集体,有班主任、辅导员管理学生的学习和生活,同一个班级的同学学习的课程基本相同,在学习上,同学之间可以相互帮助、相互督促。研究生教育是在专业知识传授的基础上强化科研能力的培养,呈现个体培养特征。一般在导师的指导下,对某个问题进行研究,学习与研究课题相关的知识,这些知识一般通过自学来掌握,要从零散的论文、专著等文献中获取到系统的知识,要学会自己分析问题,并在纷繁复杂的环境里、在各种不同的条件下,探索解决问题的方法。因此,研究生的培养特点是,在导师的指导下,进行个性化学习。研究生学习要有很强的主动性,要主动搜集资料、阅读文献,寻找解决问题的办法。

二、目标驱动法是研究生进行自我管理的有效途径

研究生自我学习和研究的性质决定了他们应该积极主动地进行自我管理。研究生的自我管理是研究生根据学校培养目标和要求,对自己的思想和行为进行自我调节和自我控制的过程[3]。自我管理的方法有多种,目标驱动法是一种行之有效的方法。所谓目标驱动法,就是要摆脱本科期间被动接受知识的习惯,避免学习的盲目性,要有明确而具体的目标,有了目标就有了奋斗的方向和学习中战胜困难所需的动力。目标分近期目标和远期目标。研究生入学后首先要确定你要成为什么样的人,毕业后是参加工作还是继续深造;要制定每学年的学习目标,如第一学年主要是完成课程学习、参加学术活动,完成培养方案要求的一些必需环节;确定研究课题,跟高年级的同学学习实验方法与技术,等等;第二学年主要是确定研究方案,进行课题的研究实验;第三学年结束研究实验,整理数据,撰写论文,完成论文答辩及学位申请,办理毕业相关手续。近期目标可以分成学期目标、月度的目标、每周的目标任务,具体的指标应根据学生个人的具体情况、结合已经制定的远期目标来确定。近期目标不可过高,不要急于求成,要步步为营,螺旋上升。制定目标,通过努力达到目标,增强了自信,给自己带来继续前进的巨大动力,形成良性循环就会觉得学习很有意思,能从中得到很大乐趣,从而向更高的目标去努力。

三、目标驱动启发式教学是研究生课程教学的有效方式

目标驱动的教学方法,就是以目标为基础和核心,围绕目标的确定及其实现、评价而进行的一种课堂教学模式[4]。首先,教师要结合研究生课程教学的规律、国内外相关学科的研究进展、研究生的培养层次和培养要求,以及社会发展需要,制定每门课程切实可行的教学目标。有了明确的目标,课堂教学就能有的放矢。不再是单纯的教师讲授,可以采用讨论式、启发式、实践参与式等互动教学模式,教师在课堂上只需要讲一些重点、难点的知识,主要是学生课下的学习、消化吸收和运用[5]。钱伟长教授曾在上海工业大学做过一个试验,选择一个班,40多名学生,教师发一个指示性的大纲给学生,告诉学生这个星期应该看哪几段,然后提出几个问题让他们考虑。这个班学生自学了一年,开始时乱极了,学生意见很多,后来掌握了自学的方法,慢慢地意见少了,到三年级、四年级毕业的时候,这个班学生是全校最好[2]。广西大学也在《数据挖掘》这门课程的教学中做了目标驱动体验式授课的尝试。教师制定好《数据挖掘》课程教学目标,概要性介绍这门课程的主要内容、与其他课程的关系以及该课程在生产实践中的应用,根据教学目标布置给学生一个项目,引导学生围绕项目查看资料,运用所学知识完成项目。在项目完成过程中不仅能培养学生自主学习的能力、解决问题的能力,而且能很好地将所学的理论知识应用于实践,还能锻炼他们的沟通能力、组织协调能力和团队合作意识[4]。

目标驱动启发式教学,改变了传统的“填鸭式”、“满堂灌”的教学方法,学生有充分的自主学习、独立思考的空间,既能激发学生的学习积极性、发挥主观能动性、调动学生的潜在能力,还能培养学生发现问题、解决问题的能力,沟通、组织、协调等能力都能得到提高,从而提高研究生的综合素质。

四、目标驱动管理是导师指导研究生的高效模式

研究生在入学之初,导师根据学生的实际情况,与学生共同商议确定培养计划,可以制定三年总体计划和各个学年的阶段计划。总体计划应包括需要完成的学分,参加学术活动、实践活动及发表学术论文要求,学位论文需要达到的水平等。第一学年的计划包括修读的课程、参加学术活动、对实验室情况的了解、掌握实验仪器设备的性能及使用方法等,并初步选定研究方向,指导其完成该方向国内外文献的检索、阅读和总结,并在此基础上选题;第二学年的计划主要包括确定研究方案并撰写开题报告,开展试验研究并分析研究结果,学术论文撰写以及参与国内外学术交流活动等;第三学年的计划包括实验结果的进一步分析、整理和挖掘、学位论文和学术论文的撰写、职业规划等。根据培养计划,确定考核指标。在导师的指导下,研究生按照计划进行学习和开展科研工作,定期完成阶段性总结汇报,并进行自评和研究小组内的互评,导师结合研究生汇报、学习成绩和平时的表现情况给予评价;综合学生的自评、同学互评和导师的评定结果确定考核等级。每个季度或每学期考评一次,考核结果作为优秀奖学金、“三助”岗位助学金以及优秀毕业生评选的依据。导师还可以根据考核结果选拔优秀研究生提前攻读博士学位,对于考核不合格的研究生,进行批评教育,予以重点指导,多次考核不合格的,可以停发助学金,甚至劝其退学。博士生的基础知识学习和科研素质训练应在硕士阶段基本完成,对他们的指导,应以创新突破为目标,引导其涉足新领域、新技术、新方法,自主发现创新目标,确定技术路线,突破关键技术和撰写高质量论文。

导师采用目标驱动模式管理研究生,一方面,能尊重研究生的个性,充分发挥学生的主观能动性,给研究生成长留有足够的空间让其自由发展,这样,既锻炼研究生的能力,提高综合素质,导师也能提高工作效率。另一方面,在研究生中能形成激烈竞争机制,通过考核来确定优秀研究生奖学金的等级、“助研”岗位的资助与否,以及“助教”、“助管”岗位的分配,考核结果与研究生的切身利益挂钩,可促使研究生不断进取,充分调动其学习和科研的积极性。

目标驱动管理已成为现代企业管理的一种卓有成效方法,现在正逐步被应用到研究生教育管理中。目标管理的主旨是用“自我控制管理”代替“压制性的管理”,因此,对研究生实施目标管理,需要研究生要有较强的自我管理的能力,另外,制订具体的、切实可行的目标,制备完善的评定考核办法,建立有效的奖惩制度,是目标驱动管理的重要环节。

参考文献:

[1]刘雪梅,胡建宏.管理学原理与实务[M].北京:清华大学出版社,2011:87.

[2]叶志明.怎样当一名研究生[M].上海:上海大学出版社,2006:59.

篇10

中图分类号:TP391 文献标志码:A 文章编号:1006-8228(2014)04-30-04

Abstract: The factors influencing readers' borrowing amount are analyzed and different readers' borrowing demand are determined. The differential borrowing authority and service are customized. A decision tree classification model of reader borrowing frequency is built with C5.0 in mining tool of SPSS Clementine. The decision tree classifies readers into three groups: activing readers, common readers and silent readers. The mined data come from reader borrowing records of the library of university of international relations. The results show readers' identity, major, grade and gender have an important effect on borrowing amount. The borrowing demand of junior students is great, while that of senior students is small. The library readers may be classified by refering to decision tree classification to provide theoretical evident for adjusting borrowing authority.

Key words: decision tree; classification; library; Clementine; borrowing authority

0 引言

数据挖掘能从大量数据中发现有用的知识,目前己成功应用于各个领域。图书馆系统积累了大量读者数据,研究如何将数据挖掘有效地用于图书馆[1-4],变数据为知识,从而更好地为读者服务,是数据挖掘和图书馆工作者的共同责任。

决策树分类是数据挖掘中的一种重要方法,该方法通过对已有数据的学习,识别影响对象分类的若干因素,构建一个决策树分类模型,对对象进行分类。文献[5-6]为决策树在图书馆读者借阅数据中的应用实例,其中文献[5]利用C4.5算法,对306条读者借阅记录进行了分类建模,利用学历、专业和年级三个属性,构建借阅次数(高/中/低)分级模型,得出的结论为:学历是第一决定因素,其次是专业和年级,研究生和大四学生借阅量低等。笔者认为文献[5]挖掘的数据量过小,不具有足够的说服力,且借阅次数分级采取主观划分的方法,缺乏依据。文献[6]利用ID3算法,对1969条研究生的借阅记录进行了分类建模,利用读者是否为新生、是否为工程类学生、性别和距离图书馆的远近等属性,构建决策树模型,得出的结论为:读者是否为新生为第一决定因素,其次为是否工程类、距离远近和性别,一年级新生离图书馆近的、高年级工科学生为活跃读者等。笔者认为文献[6]的数据只覆盖研究生读者,样本不全,且模型仅从训练数据构建,没有测试数据测试,使模型的普适性受到怀疑。另外,文献[5-6]没有对具体所用挖掘工具的介绍。

针对上述研究背景,本文使用SPSS Clementine软件,采用基于C5.0的决策树分类算法,对国关图书馆的4366条读者借阅记录进行建模。建模过程综合考虑读者身份、专业、年级、性别、民族和索书号等因素,构建读者借阅频度决策树分类模型,分析影响读者借阅量的主要因素,给出针对不同读者群的借阅权限分配和服务建议。作为数据挖掘在图书馆的进一步应用探索,本文一方面可为国际关系学院图书馆开展实际业务工作提供帮助;另一方面可为其他高校图书馆开展挖掘实践,提供方法和过程指导。

1 需求分析及技术思路

1.1 需求分析

国际关系学院图书馆藏书37万余册,服务对象为全校师生员工、家属、成人教育学员、国际大学预科项目PCP学员(Pre-College Program)等。服务的部门涵盖法律系、公共管理系(简称公管)、国际经济系(简称国经)、国际政治系(简称国政)、日语法语系(简称日法)、文化与传播系(简称文传)、信息科技系(简称信科)、英语系共八个系。

长期以来,国关图书馆对于读者权限的设定按本科生、研究生和教工划分,见表1。这种划分一是没有结合读者的实际借阅需求,可能造成借阅需求量大的读者权限不足,借阅需求量小的读者权限过剩;二是划分不够细化,没有考虑到读者年级、专业、性别、成绩等因素对借阅量的影响。依据读者的现实个性化需求来确定借阅权限,已成为目前高校图书馆借阅权限改革的方向[7],问题在于:影响用户借阅量的因素有哪些,哪些是主要因素,如何确定这些因素,如何根据这些因素定制差异化权限和服务。本文针对这些问题展开讨论。

1.2 技术思路

本文收集国关图书馆的借阅数据,通过对历史数据的挖掘和分析找出影响读者借阅需求的若干因素,依靠这些因素进行借阅权限细分。具体地,本文借助于SPSS Clementine工具中的决策树挖掘方法对数据进行分析,借助于挖掘得到的决策树识别影响读者借阅量的主要因素,对借阅量按借阅频度进行分级,并构建一个判定用户借阅频度的决策树分类模型,然后基于决策树分类模型,给出针对国关图书馆读者的借阅权限建议。具体技术思路如图1所示。

2 具体的实现方案

2.1 数据源

数据源于国关图书馆金盘系统Oracle数据库,主要涉及原始数据库三个表:、、。其中流通日志表记录读者每次到馆的一项事务。笔者利用这三张表进行连接,从流通日志表抽取2009-2010完整一学年的数据,抽取后的数据存储在Excel表中,命名为 (格式见表2),该表共包含记录109609条,字段8个。其中操作类型为事务类型,如J:借书/H:还书/S:赔书等;读者级别为读者身份,如本科生、研究生、信科教职工等;源单位具体到班级,如:信科0601/国经0702/国政研二等。

2.2 数据预处理

⑴ 数据筛选

取出流通事务记录表中操作类型为“J”(借书)的全部记录。

⑵ 分组计数

取出的记录集按读者条码分组,统计每个读者出现的次数,将此数值记为读者在一学年中的“借书数”。将此属性添加到中具有相同读者条码的记录中。未在流通事务记录表中出现的读者条码的借书数记为0。

⑶ 空缺值的处理

一些记录在“单位”字段上取值为空,用“资料不全”填充空缺值。

⑷ “借书数”区间化

对“借书数”这一数值属性,在建模前对其区间化,把它划分为几个等级来描述读者的借阅频度,并让其作为输出属性,为读者建立分类决策树。该字段原先的数值分布如图2所示。在4366个读者中,一年中读者借书数最多的为174本,平均约12本,最少的为0本(约占50%,即一般读者该年没有借过书)。借过书的读者按照其累计借书量的增加,人数基本呈递减模式。

对“借书数”区间化时,先将没借过书的读者单分一个区间,即借书数等于0,记为“Null”。其余读者尽量按照等频,即相等人数的原则,分为高(high)、低(Low)两个区间,经过统计分析,发现“17”为较好的分界点,区间划分规则为:0

为记录区间化后的借阅频度,为读者库表添加列“借阅频度”,来储存每位读者的年借阅量,处理后的借阅频度属性不同区间的样本数量分布为:

Null:2187;Low:1103;High:1076;总计:4366。

⑸ 其他字段的概化

“读者级别”字段中,教职人员具体到各系和各行政部门,将该字段统一归为“教职工”。“源单位”字段中,学生的单位具体到班级,将其概化到年级。将“索书号”字段概化为索书号头一位。

将预处理后的数据导入到Microsoft Access数据库中,表名命名为,它共包含国关4366名读者09-10学年的借书统计数据,见表3。

2.3 模型构建

利用数据挖掘工具SPSS Clementine(版本11.1)中的C5.0建模节点构建决策树模型。将预处理后的Access数据库表文件作为数据源节点,先后连接工具中的“选择节点”、“抽样节点”和“C5.0节点”,形成如图3所示的读者借阅频度挖掘训练流程图。

将得到的分类模型加入到流程取代“借阅频度类别”建模节点,链接相关输出节点,检验训练样本的自检正确率。之后再用原样本剩下的30%做测试,具体流程如图7所示。其中测试路径抽样节点的配置跟图6基本相同,除了将单选按钮“包含”改为“丢弃。

执行图7流程,得到模型测试结果,其中训练样本上的测试正确率为69.1%,测试样本上的正确率为67.2%。

模型分类结果与测试样本的对比矩阵见表4。该矩阵记录了得到的决策树模型对不同属性取值的分类结果和所占总样本的比例等信息。例如表4,对于测试样本中原来标注为“High”的记录,决策树准确地将其中的203条记录归类为“High”,占所有标为“High”的样本数的60.237%,占总样本数的16.009%。在所有被决策树归类为“High”的记录中,正确归类的这432条占其中的59.882%。

2.4 模型优化

在创建决策树过程中,训练样本可能存在噪声和离群点,形成异常分支,异常分枝在训练模型中表现好,但会对预测带来不良影响。因此通常需对决策树剪枝,使树的复杂度降低,更易理解,预测分类时更快更好。

在SPSS Clementine中,C5.0模型通过“修剪严重性”指标控制对决策树的修剪程度,取值为0到100,该指标值越小剪枝越少;值越大剪枝越多。为保证模型精度,并使构建的决策树简单。笔者对“修剪严重性”指标进行了不同设置和反复测试,测试结果见表5。

从表5看出,当“修剪严重性”在50-85间变化时,测试样本准确率和训练样本自检率并没有出现较大变化,而树的复杂度降低了,深度从3变为2。为了在不增加决策树深度的情况下保留较完整的决策树信息,我们将“修剪严重性”值设为50,此时树的深度为2。

最终生成的国关读者借阅频度决策树分类模型如图8所示。

集合A={法律(大三,研一/研二),公管大三,国经(研一/研二),国政(大二/大三,研一/研二),日法(研一/研二),文传(大一/大二/大三,研一/研二),信科(大一/大二/大三,研一/研二),英语(大一/大三/大四,研一/研二),应用化学研一}

集合B={法律(大一/大二/大四),公管(大一/大四),国经(大一/大三/大四),国政(大一/大四),日法(大二/大三/大四),信科大四,英语大二,应用化学研二,家属,成人教育}

集合C={公管大二,信科研三,应用化学研三,教职工,外教,PCP}

需说明的是,公管系在2009年至2010学年还没有研究生,故相应信息未出现在决策树分支集合中。除信科系外,其他系的研究生学制均为两年,没有研三。

2.5 模型分析和建议

模型的准确度还不够高,这可能是由于源数据缺乏更多与“借阅频度”相关的属性,可继续收集一些有关读者学习成绩(如GPA、年级排名)、距离图书馆远近等信息来为建模服务。

从图8中看出,所在单位(包括身份、专业和年级)对其借阅量影响较大,其次是“性别”。具体如下。

⑴ 借阅量高的读者(活跃读者群):文传大四女生,集合A(特别是大三的学生)。约占总人数的25%。

⑵ 借阅量低的读者(一般读者群):国经大二女生,日法大一女生,集合B;约占总人数的25%。

⑶ 无借阅的读者(沉默读者群):国经大二、日法大一、文传大四的男生,集合C。约占总人数的50%。

按身份分析,大致地,本科生大二、大三的借阅需求较大,大一新生和大四毕业班学生借阅需求较小;研究生文科的借阅需求较大,理科非毕业班的借阅需求大,理科毕业班研三的借阅需求小;教职工借阅需求小。尤其是理科研三学生和教职工在09-10学年的借阅量为0,这可能是由于理科研三写论文所需要的文献大多从电子数据库中获取,而国关教职工每人每年都有充足的购书经费,使得他们更愿意自己购买图书的方式获取资料。

从上述分析结果看出,权限最低的本科生中很多群体借阅量高,而权限最高的教工的借阅量却为0,这跟表1的权限分配相悖,说明了表1权限分配的不合理性。针对国关图书馆读者的借阅权限分配,本文提出以下建议。

建议⑴:按决策树分类模型划分权限。模型中活跃读者群,借阅册数权限设为20;一般读者群,借阅册数权限设为10;沉默读者群,借阅册数权限设为5。权限划分的关键在于模型的构建和基于模型的读者分类,具体数值可根据藏书量、读者人数加以调整。

建议⑵:平均划分权限。按教育部规定,高校图书馆的生均藏书量应达到80-100册,按一个图书馆可经常利用文献量约为馆藏总量的20%计[8],理论上的每生借阅权限应在16-20之间。国关人均藏书量约为85册(37万册/4366人),因此理论上每人借阅权限应为20%×85册=17册,考虑到国关有约50%的人基本不到图书馆借书,理论上的借阅权限还有较大上调空间。保守计算,可将借阅册数权限统一设为17,以最大程度体现“平等服务”和最大限度满足读者借阅量。

建议⑴重视读者需求差异,有助于提高文献利用率和读者需求满足率,但未考虑读者对“平等借阅权”的诉求,然而相对于表1的权限设置更为合理和科学;建议⑵重视读者借阅权的平等。

除借阅权限,图书馆还可针对不同读者群提供针对,比如针对活跃读者群,图书馆可让其参与到图书购买、图书资源评价中,进行新书推荐,提供额外的培训,以提高文献资源利用率和最大限度满足读者需求。

3 结束语

图书馆的数据挖掘对提升图书馆服务质量,开发增值服务具有重要意义。本文从校图书馆的实际需求分析和数据出发,采用SPSS Clementine中的C5.O决策树算法,建立借阅频度决策树分类模型。建模结果显示,决策树模型可按借阅量对读者有效分类,读者身份、专业、年级和性别对借阅量有重要影响,本科大三学生借阅需求较大,大四学生借阅需求小。决策树模型能够帮助图书馆进行读者细分、调整借阅权限和提供差异化服务。

进一步的研究可从两个方面开展,一是收集更多年份、更多属性的数据,提高模型的准确率;二是以分析读者的借阅时长为目标,建立读者借阅时长分类模型,为图书馆针对不同读者群制定不同借阅期限提供帮助。

参考文献:

[1] 顾倩.数据挖掘应用于高校图书馆个性化服务的探讨[J].图书馆杂志,2013.32(8):63-65

[2] 郑斐,郭彦宏,郝俊勤,刘娜.数据挖掘技术如何在图书馆建设中体现价值[J].图书情报工作,2013.S1:263-264,212

[3] 王伟.基于数据挖掘的图书馆用户行为分析与偏好研究[J].情报科学,2012.30(3):391-394,418

[4] 冯研,王馨.国内图书馆数据挖掘技术实践应用进展分析[J].图书馆学研究,2011.20:2-4

[5] 吴修琴.决策树分类技术在图书馆管理中的应用[J].农业图书情报学刊,2007.19(5):24-26,35

篇11

人工智能(Artificial Intelligence,AI)是计算机科学与技术专业的一门重要专业课程,是一门研究运用计算机模拟和延伸人脑功能的综合性学科。它研究如何用计算机模仿人脑所从事的推理、证明、识别、理解、设计、学习、思考、规划以及问题求解等思维活动,并以此解决需要人类专家才能处理的复杂问题,例如咨询、诊断、预测、规划等决策性问题[1]。人工智能是一门涉及数学、计算机、控制论、信息学、心理学、哲学等学科的交叉和综合学科。目前,人工智能很多研究领域,如自然语言处理、模式识别、机器学习、数据挖掘、智能检索、机器人技术、智能计算等都走在了信息技术的前沿,有许多研究成果已经进入并影响了人们的生活。

2003年12月5日,国内第一个“智能科学与技术”本科专业在北京大学诞生[2],它标志着我国智能科学与技术本科教育的开始,对我国智能科学技术人才培养和智能科学与技术学科建设起到极大的带动作用。目前,人工智能课程的教学存在几个问题:首先,注重讲授理论知识,实验环节滞后,这不利于培养学生的实践能力,更谈不上实践创新。其次,人工智能是交叉学科,内容比较繁杂,各种教材的内容不一样,授课没有统一的体系,学生学习时抓不住重点,不能理解人工智能的根本方法和思想。一般说来,计算机专业的其他课程,如网络技术、数据库技术、算法分析与设计等,都是求解结构化问题的基本技术,而人工智能技术则是解决非结构化、半结构化问题的有效技术。最后,人工智能科学与技术飞速发展,但目前人工智能只被视为一门专业课,课程讲授和人工智能没有作为一个研究方向结合起来,也没有把传授课本知识和引导启发创新结合起来。

适应知识经济发展的高等教育,要把培养创造精神和创新能力摆在突出的位置。创新是基础研究的生命,而高等学校的教学只有与科研紧密结合,才能在培养学生的创新精神方面有所作为。为此,针对人工智能的课程特点,我们积极开展研究型教学、研究型学习,提高大学生的学习能力、实践能力和创新能力的研究与实践。在教材上,我们选用了清华大学出版社出版、马少平等编写的《人工智能》。我们的教学研究与实践的主要内容包括三个方面:启发式传授人工智能解决问题的非结构化的思想;成体系的实验训练;以及与毕业论文,学校大学生科研项目资助计划,国家大学生创新性实验计划相对接的科研训练。这三个主要方面,层层递进、环环相扣,是体系完整的创新型人工智能教学实践。下面,我们就这三个方面内容展开探讨。

1启发式传授人工智能解决问题的非结构化思想

现实世界的问题可以按照结构化程度划分成三个层次[1]:1)结构化问题,能用形式化(或称公式化)方法描述和求解的一类问题;2)非结构化问题,难以用确定的形式来描述,主要根据经验来求解;3)半结构化问题,介于上述两者之间。一般说来,计算机专业的其他课程如网络技术、数据库技术、算法分析与设计等,都是求解结构化问题的基本技术。而人工智能技术则是解决非结构化、半结构化问题的有效技术。人工智能的教学可以让学生在体验、认识人工智能知识与技术的过程中获得对非结构化、半结构化问题的解决过程的了解,从而达到培养学生多角度思维的目的。

我们使用的教材主要内容包括搜索和高级搜素、谓词逻辑和归结原理、知识表示、不确定性推理方法、机器学习等。这些主要内容也可以相应地归结为若干个典型算法,如启发式A*搜索算法、 剪枝算法、元启发式算法(模拟退火,遗传算法)、谓词逻辑归结算法、贝叶斯网络、决策树、神经网络(BP算法、自组织网络和Hopfield神经网络算法)。元启发式算法是一种启发式的随机算法,是用来解决非结构化问题的典型算法,其思想和传统的决定性算法如动态规划、分支限界完全不一样。学生在刚一接触到这些元启发式算法一时难以接受和理解其机理,对算法的有效性往往半信半疑。根据非结构化、半结构化问题的特点,讲解和演示算法在解决此类问题的具体步骤和详细过程,从而让学生掌握人工智能算法的基本思想。在讲解不同的元启发式算法的时候,学生会问,是模拟退火算法强,还是遗传算法强;在讲到机器学习算法的时候,学生会问到底哪个分类算法最好,这时候我们可以把搜索(优化)领域和机器学习领域的“没有免费午餐”定理进行适当的讲解和解释,从而把具体算法实现层面之上的一些人工智能的哲学思想进行传授。

在人工智能的具体教学中,采用问题教学法和参与式教学法。在问题教学法中,围绕人工智能的知识模块,在引导学生发现各种各样问题的前提下,传授知识。教学活动中,尝试使人工智能知识围绕实际问题而展现,使问题不仅成为激发学生求知欲的前提,也成为学生期盼、理解和吸收知识的前提,以此激发学生的创造动机和创造性思维。在参与式教学中,打破人工智能算法的枯燥、沉闷的传统教学法,尝试开放式教学内容;提问式讲课;无标准答案的课程设计;查找文献,分组动手实现人工智能算法等参与式教学方法,培养和发扬学生的参与意识,通过参与式教学提高学生学习的主动性、积极性和效率,培养学生的动手能力和创新能力。

2成体系的实验训练

独立开展人工智能实验课程,开发一批新型、富有创意的实验案例库,搭建一个创新实验和虚拟学习社区平台。人工智能实验课程的特点是应用各种人工智能方法,根据问题的约束、结构、信息进行表示建模和计算机上实现,是与人工智能原理同步的实验课程。学生必须掌握的人工智能的基本原理和计算机操作技能,它对于学生的知识、能力和综合素质的培养与提高起着至关重要的作用,在整个教学过程中占有非常重要的地位,是计算机软件、计算机应用、计算机网络、软件工程等专业的一门重要的必修专业课程。通过实验,学生得到严格的训练,能规范地掌握人工智能的基本理论和主要方法、基本问题求解技术,熟悉各种计算环境的基本使用。

在培养学生掌握实验的基本操作、基本技能和基本知识的同时,努力培养学生的创新意识与创新能力。为实现这一目标,在课程内容安排上采用适量基本原理与方法的实验内容为基本内容,增加一系列综合性实验和开放性创新实验问题,在实验内容方面更注重研究性实验中的创新问题。实验内容方面分为三个层次:基本原理的基础性实验、综合实验和研究性实验。在后两个层次的实验中,部分引入人工智能课程小组团队的最新科研成果,目的在于通过完成这些研究性实验,培养学生独立解决实际问题的能力,以提升学生的科研素质与创新意识。我们将这些设计实验称为新型实验案例库,它被放在人工智能课程小组网站上,以此搭建一个创新实验和虚拟学习社区平台。通过实验课程的学习和训练,学生应达到下列要求。

1) 掌握人工智能方法的优点及其在实际中的应用。

2) 学会对人工智能问题进行分析建模和应用各种计算工具实现问题求解,熟悉对实验现象的观察和记录,实验数据的获取与设计,最佳实验条件的判断和选择,实验结果的分析和讨论等一套严谨的实验方法。

3) 巩固并加深对人工智能原理课程的基本原理和概念的理解,培养学生勤奋学习,求真求实的科学品德,培养学生的动手能力、观察能力、查阅文献能力、思维能力、想象能力、表达能力。

4) 通过完成综合研究性实验,培养学生独立解决实际问题的能力,提高学生的科研素质与创新意识。

在培养学生掌握实验的基本操作、基本技能和基本知识的同时,进一步培养学生分析问题和解决问题的能力,培养学生的创新意识、创新精神和创新能力,为学生今后从事科研、教学或企事业单位的分析检验以及新技术的研发工作打下扎实的基础。

在实验组织方面,根据各实验的目的和要求,学生分为5人1组,指定一个组长,每组选择1套实验题目。基础实验题目要求达到27学时、综合性实验题目选择1题和研究性实验题目选择1题,基础实验题目要求在规定时间内,小组独立完成实验测定、数据处理,并撰写实验报告。实验过程中, 要求学生勤于动手, 敏锐观察, 细心操作, 开动脑筋, 分析钻研问题, 准确记录原始数据, 经教师检查,实验及其原始数据记录才有效。同时,团队作业,需要多人分工合作、相互帮助,这样可以提高人际交往和沟通能力,学会与他人合作,培养团队创新能力。

3课程学习与毕业论文,科研训练相结合

人工智能技术在一定程度上代表着信息技术的前沿和未来,通过学习和体验人工智能的知识和技术,学生能够在一定程度上了解信息技术发展的前沿知识,这有助学生开阔视野、培养兴趣,为今后继续深造或走向社会奠定坚实的基础[3-4]。

人工智能的理论和方法广泛应用于数据挖掘、机器学习、模式识别、图像处理中,这些内容既是高年级的后续课程,又是现在热门的研究方向。学习和深刻理解人工智能的理论、方法和应用,对后续课程学习以及今后的研究具有重要的意义。

我院规定大学三年级的学生开始联系毕业论文指导导师,同时确定毕业论文的研究方向,提前进行科研实践,以培养实践能力和研究素质。人工智能课程正好是大三高年级开设的专业课,因此,我们把课程实验及设计与同学的兴趣相结合,引导学生,并提炼和形成学生的毕业选题和课外的科研方向,它是提高本科生研究创新能力的有效手段。

基于新的教学实践,很多学生的选题都与上述归纳的人工智能若干算法相关,如算法本身的研究和改进,或是算法在各领域,如数据挖掘、图像处理等的应用。在我们的科研能力训练计划中,一批项目和课题,如混合神经网络的研究与应用、差分演化算法研究与应用、基于协同训练的推荐系统等,分别受到国家和学校本科生科研项目立项资助。一批三四年级的本科生以第一作者身份在国内核心期刊、国际会议和期刊上发表学术论文,这激发了学生的科研兴趣,使学生体会到了创新的乐趣。

总之,课程学习与毕业论文、学校大学生科研项目资助计划、国家大学生创新性实验计划相对接的科研训练,极大地提升了学生的创新能力和科研基本素质。

4结语

针对人工智能的课程特点,我们积极开展研究型教学、研究型学习,提高大学生的学习能力、实践能力和创新能力的研究与实践。我们的教学研究与实践主要内容包括三个方面:启发式传授人工智能解决问题的非结构化的思想;成体系的实验训练;以及与毕业论文、学校大学生科研项目资助计划、国家大学生创新性实验计划相对接的科研训练。这三个主要方面,层层递进、环环相扣,是体系完整的创新型人工智能教学实践,新的改革和实践在教学中取得了令人满意效果。

参考文献:

[1] 张剑平. 关于人工智能教育的思考[J]. 电化教育研究,2003(1):24-28.

[2] 谢昆青. 第一个智能科学技术专业[J]. 计算机教育,2009(11):16-20.

[3] 罗辉,梁艳春. 大学生毕业论文与科研能力培养及就业[J]. 吉林教育,2003(10):18.

[4] 金聪,刘金安. 人工智能教育在能力培养中的作用及改革设想[J]. 计算机时代,2006(9):66-69.

Reform and Practice of Innovative Teaching in Artificial Intelligence

WANG Jia-hai, YIN Jian, LING Ying-biao

篇12

中图分类号:G434 文献标识码:A 论文编号:1674-2117(2015)20-0086-05

前言

近年来,随着新技术的不断开发与互联网技术的飞速发展,人们正在进入大数据时代。联合国在2012年的大数据白皮书Big Data for Development:Challenges & Opportunities中指出,大数据时代已经到来,大数据的出现将会对社会各个领域产生深刻影响。[1]世界各国都高度重视大数据带来的机遇与挑战,因此投入了大量的人力、物力来支持大数据的相关研究。美国在2012年3月29日正式启动“大数据研究与开发计划”(Big Data Research and Development Initiative),提出“通过搜集、处理庞大而复杂的数据信息,从中获得知识和洞见,提升能力,加快科学、工程领域的创新步伐,强化美国国家安全,转变教育和学习模式”,正式将“大数据”提高到国家战略层面。[2]

在教育领域,许多世界知名高校也启动了教育大数据的相关研究计划。为了更好地促进大数据为教育领域服务,美国教育部于2012年10月了《提升教与学:教育数据挖掘和学习分析报告》(Enhancing Teaching and Learning Through Educational Data Mining and Learning Analytics),旨在通过提升教育数据挖掘技术和学习分析技术,改变教与学的方式,实现教与学的提升与发展。

我国学者也逐渐意识到教育大数据对教育领域的重要作用,2012年岁末,教育科学出版社出版《教育数据挖掘:方法与应用》一书。它在大数据时代的背景下,指出致力于从大量数据中提取或“挖掘”知识的数据挖掘将有助于发挥教育数据的价值,数据以及数据挖掘可以作为审慎决策的依据。[3]随着移动终端等先进的网络设备逐渐进驻课堂,传统的学习环境已经演变成数字化学习环境,学生在借助数字化学习环境中的网络设备进行学习时,大量的学习行为被记录下来,形成了规模宏大的教育大数据。分析这些大数据,能有效促进学生在数字化学习环境下的学习。

基本概念

1.大数据

自2009年以来,IDC、Gartner、麦肯锡、普华永道和埃森哲等咨询公司,《纽约时报》《福布斯》《财富周刊》《斯隆管理评论》《技术评论》等商业管理刊物,以及《科学》《自然》等科学杂志,都连篇累牍地介绍了大数据。其中,麦肯锡认为,“大数据”将成为下一个创新前沿。[4]

麦肯锡全球研究院将“大数据”定义为“无法在一定时间内使用传统数据库软件工具对其内容进行获取、管理和处理的数据集合”。“大数据”可以认为是“分析”的另一种表述,它是寻求从数据中萃取知识,并将其转化为商业优势的智能化活动。在大多数文献中“大数据”被总结为以下三个特征(即三个V)[5]:①容量大(Volume)。2012年,全球数据总量约为2.7~3.5ZB。而每秒钟通过网络传输的数据总量已经超过了20年前互联网的总存储量。②产生速度快(Velocity)。IBM将这一属性定义为数据进出的高速性,也可以将这一特性引申理解为对大数据迅速的处理能力以及决策能力的要求。③多样性(Variety)。大数据所包含的数据种类不仅有常规意义上的关系数据库或数据仓库数据,而且容纳了如图片、流媒体以及社会网络信息等在内的全新数据类型。

此外,大数据的“信息价值大与冗余信息多(Value)”这一属性也被众多学者纳入大数据的第四个特征。

2.学习分析

2012年10月,美国教育部的《提升教与学:教育数据挖掘和学习分析报告》将学习分析定义为,对学生学习过程中产生的大量数据进行解释,目的是评估学业进步、预测未来表现、发现潜在问题。数据来自学生的显,如完成作业、参加考试等;还有学生的隐,如在线社交、课外活动、论坛发帖,以及其他一些不直接作为学生教育进步评价的活动。学习分析模型处理和显示的数据帮助教师和学校更好地理解教与学。学习分析的目标是使教师和学校创造适合每位学生需要和能力的教育机会。

学习分析技术对学生、教师、管理人员、研究人员以及技术开发人员均具有重要价值。对学生而言,可以从学习者行为角度了解学习过程的发生机制,并用来优化学习,开展适应性学习、自我导向学习;对教师和管理人员而言,可以用来评估课程和机构,改善现有的学校考核方式,并提供更为深入的教学分析,以便教师在数据分析基础上为学生提供更有针对性的教学干预;对研究人员而言,可以作为研究学生个性化学习的工具和研究网络学习过程和效用的工具;对技术开发人员而言,可以优化学习管理系统。[6]

3.数字化学习环境

数字化教学应用环境的基础是多媒体计算机和网络化环境,最基础的是数字化的信息处理。所谓数字化的学习环境,就是信息化学习环境。这种学习环境,经过数字化信息处理具有信息显示多媒体化、信息传输网络化、信息处理智能化和教学环境虚拟化的特征。为了适应学习者的学习需求,数字化学习环境包括以下五个基本组成部分:①基础设施,如多媒体计算机、多媒体教室网络、校园网络、城域网、因特网等;②教育资源库为学习者提供经数字化处理的多样化、可全球共享的学习材料和学习对象;③平台向学习者展现的学习界面,是实现网上教与学活动的软件系统;④通讯是实现远程协商讨论的保障;⑤学习者进行知识构建、创造实践、解决问题的学习工具。

数字化学习环境中的大数据

数字化学习环境主要是基于网络的各种学习平台、学习工具、资源库,学生在教师的指导下在学习环境中进行个性化学习,他们在学习过程中的各种学习行为被记录在相应的学习系统中,下面围绕系统生成的数据内容和数据类型做具体介绍。

1.学习数据内容分析

学习数据内容主要是记录在电子教材系统、学习资源系统、作业与考试系统和互动交流系统中。其中,电子教材系统主要数据内容是交互式电子内容、知识管理和社会性阅读,记录了学生看过的知识点、对知识点的标记与管理等,生成了海量的学习内容序列节点数据;学习资源系统主要数据内容是课外阅读和课件点播,记录了学生看过的视频、浏览过的课件等,生成了海量的学习资源序列节点数据;作业与考试系统主要数据内容是作业练习和考试测评,记录了学生练习的试题及批阅的结果、答题时间等,生成了海量的练习测评序列节点数据;互动交流系统主要数据内容是互动答疑、学习社区和家校互动,记录了学生参与讨论互动等情况,生成了海量的互动交流序列节点数据。

2.学习数据类型分析

学生学习过程中生成的数据类型多种多样,主要有音频、视频、图片、动画和文本等资源。其中,视音频资源中的学习数据内容主要是教学视音频、微视频和网络视音频,生成的数据名称是结构化和半结构化数据;图片资源中的学习数据内容主要是网页图片和教学图片,生成的数据名称是结构化和半结构化数据;动画资源中的学习数据内容主要是Flas和网页动画,生成的数据名称是结构化和半结构化数据;文本资源中的学习数据内容主要是电子教材、课外阅读和教学课件,生成的数据名称是结构化数据。

大数据对数字化学习环境的冲击与影响

1.更支持个性化学习

个性化学习的实现对技术的依赖程度较高,因此在技术发展的不同时期有着不同的含义。学者曹晓明等对个性化学习的发展脉络进行了梳理,认为个性化学习从主张教学系统的智能型到自适应网络教学系统的应用,再到目前基于移动互联网络的支持个性化的学习情境和智能答疑等系统的开发。个性化学习内涵的说法虽然一直在变化,但个性化学习的实质是充分考虑学生的个体差异,为了更好地促进每位学生的全面发展而提出的。武法提教授及一些学者根据个性化学习的内涵及相关文献的分析,通过归纳整理认为个性化学习包括学习内容个性化、学习活动个性化、学习方式个性化和学习评价个性化。

目前,各种移动学习终端的普及为支持学生个性化学习提供了硬件设施的基础支持,学生在利用学习终端学习时,学习系统也记录了学生学习过程的大量学习行为数据,包括学习者学习能力、学习结果等关键信息,根据对这些信息的分析可以全面了解学习者的学习现状,如依据学习者有效登录时间和登录比值来分析学习者的学习意愿,用学习相关比例来分析学生是否利用线上讨论区进行闲聊而非学习的情况等。利用这些结构化、半结构化和非结构化的大数据进行学习分析,可以实现根据学生的个体差异推送个性化的学习资源和学习路径,以及对学习过程与学习结果的个性化监控、指导与反馈等。由此可见,基于大数据的学习分析使真正实现学生的个性化发展成为可能,为进一步支持个性化学习提供了新的途径。

2.促进协作学习环境建设

协作学习(Collaborative Learning)是以小组合作为组织形式,以掌握知识,培养学生合作互助、人际交往的技能为目标,以活动任务为载体,通过互动协作的方式进行学习的一种方式。与传统的学习方式相比,它能更好地发挥学习者的主动性和创造性,有利于学习者对知识的深化理解与运用,有利于培养学生的协作能力、与他人交往的能力等,顺应了时展对人才的要求。

协作学习环境包括协作学习的组织环境、空间环境、硬件环境和资源环境,应具备共享信息资源、提供交互工具、提供协作空间和个人学习空间的功能。小组协作学习的学习成果很大程度上依赖小组成员之间的协作互动,传统课堂环境下的协作学习主要是小组成员之间就某一问题或任务进行讨论,交流看法,是低效的小组协作。而随着多媒体、网络技术进入到普通课堂中,以及云技术、基于大数据的学习分析技术、增强现实等技术不断被应用在学习平台等系统的开发中,使目前的课堂学习环境越来越智能化、个性化。在这样的学习环境下,学生的学习场所不再局限于课堂之内,可以利用学习平台进行远程协作学习,也可以利用各种社交软件进行实时和非实时的交流,还可以从云端获取大量学习资源。与此同时,学生的协作学习行为和相关数据会被记录在学习系统和其个人电子档案中,如学生在某一界面的停留时间、登录时间、学生交流对话、学习结果呈现等信息,利用学习分析技术来分析这些大数据,可以了解到学生的协作学习情况,同时,这些反馈信息有利于教师教学系统的开发,有利于管理人员设计更符合学生协作学习需要的数字化学习环境。

虽然目前的研究者都意识到这些数据对学习环境建设的重要性,但是如何将海量的大数据进行分类并从中抽取重要的相关数据进行分析,仍是一大技术难题,正如著名的学习分析研究专家George Siemens在谈到如何分析学习情境时说的那样:“我们还没有恰当的数据搜集方法,数据搜集还是过多地依赖于按键、记录键盘和浏览器数据等,并没有跟踪广泛的学习情境。”[7]

3.优化数字化学习过程

信息技术在课堂中的广泛运用,不仅是为了促进教师的教,更主要的是为了促进学生自主知识意义的建构。李克东教授认为,“数字化学习是信息时代学习的重要方式,是信息技术与课程整合的核心,数字化学习的关键是要把信息技术作为学习的认知工具”。[8]学者张国英等认为,“数字化学习是指在教育领域建立互联网平台,学习者通过网络进行学习的一种全新的、能充分体现学习者主体作用的学习方式,它带给人们的不仅是获取教育资源的便捷,还是有别于传统课堂学习的崭新观念”。[9]关于数字化学习含义的说法可能不尽相同,但对数字化学习实质的认识基本一致,就是利用先进的信息技术更好地促进学生的学习和全面发展。

数字化学习过程是指学生利用先进的现代信息技术学习的过程。在这个过程中,信息技术的运用不仅有利于学生完成知识的获取,而且有利于培养学生的能力、发展学生的思维、提高学生的素质。数字化学习过程主要包含学习者、内容和资源三大要素,而数字化学习过程的优化具体包括学习资源、学习交流和学习过程中信息处理的优化。

在学生利用信息技术进行学习的过程中,学习系统会记录学生的具体学习行为,如学生学习日志、学习路径、学习成果数据、课程数据、学习管理数据等,这些数据构成了学生学习过程中的学习行为大数据,研究人员利用基于大数据的学习分析技术或教育数据挖掘技术对数据进行采集、存储和分析,可以获得学生的知识掌握水平、学习规律以及学习态度等非认知因素,有助于了解学生详细的学习过程。同时,教师借助这些信息可以对学生进行个性化资源推送与辅导,还可以对学生的学习结果有更细致的分析与反馈,使系统开发人员可以创设更符合学生学习特点的学习平台或资源库,让数字化学习更符合学生的学习特点,从而优化数字化学习过程。

4.对数字化学习评价的影响

传统的学习评价是指以学习目标为评价标准,利用课堂观察、问卷、测验等方式获得学生学习状况信息,并根据量化处理结果,对学生的学习状况作出判断。教师利用所获得的判断结果,不断调整教学过程与教学活动,保证教学目标的完成,为改进教学提供依据。可见,传统的教学评价试图通过教师不断改进学习策略来改善学生的学习结果,还停留在教师主导整个教学的认识阶段,而随着信息技术和先进的学习理论的广泛运用,学习评价不只是提供给教师改进教学策略,还应提供给学生个性化、可视化的评价,以促进学生自主知识的建构。

学生利用各种终端、平台进行数字化学习,这些学习系统中记录了学生在学习过程中的所有学习行为数据,这些数据在电子教材系统数据库、数字资源系统数据库、作业与考试系统数据库和互动交流系统中都有相应的记录。通过对学生知识点的掌握情况、学生写作交流情况、作业完成情况以及考试信息等记录的分析,教师可以对学生的学习进行深层次的评价,不仅能了解学生学习的不足,还能在此过程中发现学生学习的潜能,为学生、教师、学习系统开发人员提供有效反馈。

具体对学生学习评价的内容有课程内容学习评价、参与互动交流分析评价、考试与学习作品评价和课外资源学习评价。课程内容的学习评价主要是对学习过的知识点进行评价,评价信息包括学习时长、学习过的知识点、知识点学习次数和学习笔记等内容;参与互动交流分析评价主要是对学生的课堂活动及课外互动进行评价,具体评价信息包括在学习空间中问题的数量、答疑的数量,互动交流的主题数量等;考试与学习作品评价是对学生的学习作品和单元测验的评价,对学习作品的评价包括对个人作品和小组作品的评价;课外学习资源评价包括学生在正式和非正式学习的拓展资源中的评价,包括文本的下载量、视频的点击量等。

基于大数据的数字化学习评价,使学习评价走向多元评价和深层次评价,评价不再单纯依赖课堂观察和学习测验,而是根据学生学习过程中的学习行为进行评价,这样能观测到学生学习过程中更多的细节,给教师、学习系统开发人员、学生更详实的反馈信息,有利于更好地促进学生对知识的掌握和能力的发展。

结语

大数据时代的到来,极大地推动了教育信息化的深入发展。随着新技术的不断发展,各种移动终端、基于移动终端的学习平台、学习空间被广泛地应用在学生的学习活动中,学生在借助移动终端进行学习时,学习过程等被记录在各种系统上,这使得他们的大量学习行为数据能够被轻易获得。基于大数据的学习分析技术使得关注学生个性化发展这一诉求有了实现的途径,也使得为学生提供个性化资源、个性化学习评价等个性化服务成为可能。

参考文献:

[1]Big Data for Development:Challenge & Opportunity[OB/OL].[2012-05-01].http:///sites/default/files/Big Data for Development-UNGlobalPulseJune2012.pdf.

[2]Big Data Researchand Development Initiative[DB/OL].[2012-03-29].http://whitehouse.gov/sites/default/files/microsites/ostp/bigdata-press_release_final_2.pdf.

[3]页川.大数据时代背景下挖掘教育数据的价值――教育部科学技术研究重点项目成果《教育数据挖掘:方法与应用》出版[J].中国远程教育,2013(04):94.

[4]陈明奇,姜禾,张娟,廖方宇.大数据时代的美国信息网络安全新战略分析[J].信息网络安全,2012(08):32-35.

[5]朱东华,张嶷,汪雪锋,李兵,黄颖,马晶,许幸荣,杨超,朱福进.大数据环境下技术创新管理方法研究[J].科学学与科学技术管理,2013(04):172-180.

[6]陆Z.大数据及其在教育中的应用[J].上海教育科研,2013(09):5-8.

友情链接