时间:2022-02-27 20:42:39
引言:寻求写作上的突破?我们特意为您精选了12篇数据挖掘总结范文,希望这些范文能够成为您写作时的参考,帮助您的文章更加丰富和深入。
1.1内科疾病在心血管疾病方面,杨静等对冠心病的证候用药规律进行数据挖掘,结果显示冠心病以气虚血瘀证多见,另有心血瘀阻证、气阴两虚证,丹参、黄芪、葛根等为核心用药。崔松等通过挖掘何立人治疗心悸的用药分析,总结其治疗心悸的基本方,归纳出以心悸为主重用淮小麦,以心律失常为主重用生黄芪等因症施药的特点。赵健等通过对严季澜辨治的109例高血压病患者用方数据进行挖掘,总结出严季澜自拟调肝理血汤的用方要点与学术思想。在消化系统疾病方面,王萍等挖掘整理了唐旭东治疗慢性萎缩性胃炎的辨证证型及用药规律。Liu等[10]应用支持向量机技术研究中医舌诊舌象在胆囊炎患者中的分类,为数字化辨病辨证提供了可靠依据。吴嘉瑞等[11]应用关联规则和复杂系统熵探索颜正华治疗泄泻用药经验。杜斌等通过检索现代治疗溃疡性结肠炎的文献,挖掘出常用灌肠方药及药对。在肾病及内分泌疾病方面,展俊平等[13]采用文本挖掘技术对慢性肾小球肾炎的证治方药规律进行总结分析,发现该病证候以气阴两虚、肝肾阴虚、脾肾阳虚为主,核心治法以益气养阴、化湿利水为主。凌颖茹等挖掘了黄春林治疗肾病综合征的方药使用经验。霍保民等[总结了戴希文教授分期诊疗慢性肾脏病的辨证及用药规律。袁敏探析魏子孝教授诊治糖尿病善补气、活血的用药特点。方朝晖等通过数据挖掘技术,探索糖尿病主要证型分类,以及使用频数最高的药物及药对,为临床辨证施治及用药提供参考依据。在风湿免疫疾病方面,沈姗姗等运用数据挖掘技术对类风湿性关节炎文献进行分析,发现该病常见痰瘀痹阻、寒热错杂等5个证型,涉及肝、脾、肾等多个脏腑;并客观总结了其用药规律。李玲等探讨周仲瑛诊治类风湿性关节炎的临床经验,挖掘名医用方用药特点。刘本勇等挖掘冯兴华治疗干燥综合征的用药规律。孙益等通过网络检索有关中医药治疗痛风的文献,对痛风病程分期、证型、方药进行挖掘,结果发现,痛风可分为湿热蕴结型、痰湿阻滞型、瘀热阻滞型、肝肾阴虚型4种证型,用药侧重清热利湿、化痰通络、补益肝肾。在肿瘤方面,研究人员应用数据挖掘技术对名医名家辨治肿瘤病机、治法、用药进行分析,为肺癌、胃癌、直肠癌等的中医学认识提供参考。其他疾病方面,如对再生障碍性贫血、癫痫、广泛性焦虑症等治疗的数据挖掘整理,对名医名家治疗慢性前列腺炎[28]的经验总结,探讨了疾病的主要治则治法及用方用药规律,以指导临床应用。
1.2妇科疾病马红丽等[29]通过对多囊卵巢综合征的病因、病机、辨证分型的现代文献信息进行挖掘,分析出肾虚、痰湿、血瘀为该病的主要病机,并从邪正关系角度将其分为5个证型。宋亚南等[30]通过挖掘现代文献有关多囊卵巢综合征的用药,总结其用药频数最高的5个中药:菟丝子、茯苓、当归、仙灵脾和香附,并归纳出11组核心药物组合,为临床对该病的病因病机以及方药认识提供了思路。为探索不孕症的古代医家用方用药特点,伏荣红搜集明清时期的种子方108首,经数据挖掘发现明清医家善用补益药物以补益肝脾肾,且药性以温通为主,并总结出使用频率最高的中药,以指导临床不孕症的治疗。秦莉花等运用聚类分析方法对绝经综合征妇女的情志变化与中医证型分布关系进行了研究。张素等通过挖掘围绝经期综合征的中药复方使用规律,发现该病用药涉及滋补、清热、温补、补气、安神、疏肝等多种治则,其中尤以滋补肝肾类药物最为常用。张焱等挖掘何立人治疗女性围绝经期高血压的用药规律,总结出何立人使用频数最高的药物为天麻、丹参、枸杞子、知母、黄柏等,常用药对为何首乌配伍枸杞子、仙鹤草配伍十大功劳叶等,体现了何立人辨治围绝经期高血压善于调补肝肾阴阳,“以平为期,以和为贵”的学术特点。
1.3儿科疾病王继军等[35]通过对《小儿痘疹方论》中治疗小儿痘疹的78首复方用药规律的挖掘分析,发现治疗以补虚药、清热药、解表药、利水渗湿药等中药为主,单味中药以甘草、人参、茯苓、当归、白术等药物为主,为现代临床辨证施治提供更科学合理的理论依据。王进进等]通过对900余例小儿感冒的信息进行挖掘,总结出小儿感冒的常见病因、9种分类证型,以及使用频数最高的方剂和药物,为中医儿科临床辨证施治提供参考。郑燕霞等为研究小儿慢性咳嗽的中医证素特征,采用数据挖掘方法对所得数据进行分析,结果表明病位证素主要在肺、表、脾,病性证素主要为风、痰、气虚。潘芳等运用支持向量机方法对孔光一教授诊治小儿外感咳嗽风热犯肺证医案进行了挖掘,提炼出宣肺、解毒为主的治法,并归纳出桑叶、金银花、连翘、黄芩为主的用药规律。郝宏文等通过信息挖掘技术对王素梅诊治的757例多发性抽动症患儿的证候要素分析,通过对其常见证型、证素、病机的归纳,总结出王素梅治疗多发性抽动症之健脾平肝、熄风通络的治则大法。
1.4外科、眼科及皮肤疾病脱疽多对应于西医学之血栓闭塞性脉管炎、动脉硬化闭塞症、糖尿病足等周围血管病。谢宇霞等运用数据挖掘技术对古今脱疽医案的方药进行分析,分别总结出3类疾病的辨证分型及常用方药,为临床应用提供帮助。赵亚男等对文献涉及臁疮的四畔证型进行研究,经数据挖掘分析其常见证型及各证型的常见症状表现,丰富了臁疮的辨证内容。角膜炎属中医“翳”“翳膜”“凝脂翳”“聚星障”等范畴,朱晓林等通过对自公元3世纪末至21世纪初的文献的搜集汇总,经聚类分析进行统计,发现角膜炎以“热、风、痰、瘀、湿”为常见病因。用药以祛邪扶正为主,祛邪以清热疏风等为法,扶正以明目、补肝肾为主。结合陈彤云教授治疗痤疮的207个处方,仓田等总结出痤疮的病位在肝、胃、肺三经,治疗以清热解毒燥湿与活血化瘀并举,兼养阴、理气之法。宁江等通过对近30年治疗寻常型银屑病医案的用药规律分析,挖掘出频数最高的中药及药对,支持众多医家“从血论治银屑病”的观点,以清热凉血法为治疗的根本大法。姜春燕等对2012年之前有关湿疹的文献进行收集整理,挖掘湿疹的证型及用药规律,总结出以湿热证型为主的核心用药,为湿疹中医治疗的规范化提供客观依据。
1.5传染性疾病田景平等基于文本挖掘方法对流行性乙型脑炎的临床用药规律进行系统研究,结果发现,中药以大青叶、地黄、板蓝根等清热解毒药使用频率最高,中成药以“温病三宝”安宫牛黄丸、紫雪丹、至宝丹的运用最为广泛,另外发现临床上干扰素、利巴韦林等西药常与中成药联合应用。利用中国中医科学院的中医临床科研信息共享系统的技术平台,胡铁骊等对乙型肝炎相关性肝衰竭进行数据挖掘,以期探索一条中医临床服务与科研需求相统一的新路径。唐仕欢等研究防治流感、肺痨的方剂组方及配伍规律,应用复杂系统熵方法挖掘隐藏于方剂配伍中的核心方药,提炼出有效方药,并融合多种数据挖掘工具应用到中药新药的研发工作中。妮等利用复杂网络分析方法,分析李发枝治疗艾滋病咳嗽的用药规律,总结李发枝从“肺脾气虚”论治的理论依据,以及治疗艾滋病咳嗽常用方药。
1.6散在中医证候数据挖掘技术不仅广泛应用于内、外、妇、儿等各科疾病,对于散在中医证候挖掘的应用也逐渐增多。有学者针对头痛进行研究,采用数据挖掘技术搜集古今医籍、名医经验中有关头痛的用药经验,总结治疗头痛的常见组方用药、药物性味归经规律;也有学者将传统中医病证与数据挖掘技术相结合,通过对燥证、盗汗、多汗证、眩晕、呕吐、失眠、肺胀、内风等传统中医病证的方药规律进行挖掘分析,为临床病证用药提供参考。
2总结与展望
1.1人力资源优势现在我国所有的高等院校的本科生及其以上学历的学生都具有一定的英语基础。其次计算机领域的教师大多数也具备良好的英语条件,尤其是那些部分具有国外留学经历的教师,只要有外语授课经历,那么稍加培训就可以很轻松胜任双语教师的职位。并且计算机领域的教师,他们对于计算机操作的熟练程度较之其他专业的教师高很多,他们更善于利用互联网络进行教学,在数据挖掘的实验部分更容易解决技术上的难题。
1.2物质资源优势数据挖掘双语教学过程中,最好使用的是原版英文教材和资料。就目前我国大部分高等院校来看,还没有多少数据挖掘的教材是出自国内,这就在一方面避免了很多“汉化版”教材带来的歧义,以免对双语教学的师生产生一定的误导。与其他学科相比,数据挖掘课程原版英文教材更多一些。
2有关数据挖掘双语教学的建议措施
随着双语教学模式的关注程度的不断提升,怎么样更加有效地开展数据挖掘课程双语教学模式并提高教学质量,是各大高校未来一段时间关注的热点话题。现建议从以下几方面着手进行:
2.1各高校有关数据挖掘双语教学政策方面虽然目前教育部已经出台了相关政策用来扶持双语教学,但是对于各大高校来说也应该及时制定相关方案,加大监督力度,早日使数据挖掘课程双语教学模式步入正轨。比如,开设数据挖掘课程的各大高校首先要在意识上重视双语教学,努力为双语教学的开展创造良好的教学氛围,然后要提供一定的资金来扶持双语教学的顺利开展,对学校中的双语教师在薪酬以及课时安排方面要有一定的照顾,还要不断制造机会鼓励部分教师出国深造,定期对双语教师进行培训,使得他们不断学习,保证双语课程的长远发展。
2.2师资力量方面在双语教学模式中,教师是学生学习最直接的带头人,教师的能力和外语水平与教学质量有直接的联系。从已有的教学活动来看,数据挖掘双语教学课程的教师至少要有一定的国外留学和授课经历,熟悉英语语言环境,从而能更准确地把握授课情况。其次,数据挖掘双语教学课程的教师还要有非常扎实的数据挖掘理论知识。再次,数据挖掘双语教学课程的教师还应该具备一定的科研探索能力,从而能在把握教材的基础之上,也能把握学科的前沿。总而言之,数据挖掘双语教师不仅仅英语水平高,专业知识扎实,还应该具有用英语表达数据挖掘专业知识的能力,同时又拥有很强的教学能力。
2.3教学资源方面双语教学的基本原则是尽量使用原版外文教材和参考资料[5]。使用原版外文教材不仅使学生掌握最前沿的知识,更有利于促进更新教师的已有知识。教育部原副部长吕福源曾经说过:“教材是一个很关键的问题,必需大量地不断引进国外原版材料,并以各种方式投入使用,才能保证我们培养出的学生是国际一流水平的。”由此可见引进外文原版教材的重要性。另外,在信息技术高速发展的今天,学生们的学习不能仅仅局限于书本那点有限知识,而是应该充分利用互联网络,提高自己的学习主动性,例如最近特别流行的MOOC,微课,以及百度百科和维基百科等网络工具。
2.4教学理念和方法方面教学理念上要由传统的教师“填鸭式”灌输型变成教师引导型,即由教师占主导地位变成教师仅仅起到引领带头的作用,让学生自己去探索去思考学习。在每堂课正式讲课之前,教师可以采用先行组织者的授课方式,将问题抛给学生,让学生带着问题开始这一节课。在授课途中,学生也能随时提出自己的问题和见解,像国外学生上课一样,这样整个课堂的学习气氛就会被带动起来。最后通过教师的引导和讲解,同学们的讨论,问题自然而然得到解决。整堂课下来,同学们既感觉不到累和枯燥,又能很好地掌握本堂课的知识,对于教师而言也是如此。总之,这种双赢的教学理念值得推荐。在教学方法上,要兼顾不同英语水平的学生,适时地使用非语言行为。这些非语言行为不单单是指一些简单的形体语言、表情配合等,更为关键的是诸如角色扮演、案例分析、游戏理论等一些能够容易吸引学生参与意识的方法应用[6]。使用这些非语言行为的主要目的也是调动课堂气氛,引导同学们积极参与到课堂中来,而不是为了双语教学而进行双语教学活动。
2.5数据挖掘课程双语教学评价体系双语教学的评价体系实际上是对双语教学效果的检验过程,一般分为过程性评价和总结性评价两种。其中过程性评价是在学习过程中分阶段地对学习效果进行检验,总结性评价是在一段时间内对整个学习过程进行总结检验。这就要求在教学过程中密切关注学生的课堂表现,及时了解学生的学习效果,并且总结学生对课堂知识的掌握程度。从长远分析的话,教师还要关注该课程的双语教学效果在学生今后的工作生活中的应用价值,对学生的就业状况进行跟踪调查,并且分析总结双语教学对社会起到的一定的影响。两种评价手段都是为了在今后的数据挖掘双语教学课程活动中起到一定的指导作用,而最终的目的是对社会的教育事业产生积极的长远的影响并且能够使国家的综合国力得到进一步的提高。
中图分类号:TP399 文献标识码:A 文章编号:1007-9599 (2012) 19-0000-02
数据挖掘技术是计算机领域和人工智能领域的关键技术。数据挖掘技术可以将大量的数据转换为有用的知识和信息,因此引起了信息产业界的广泛关注。近年来,在作为信息和知识的集散地和发源地的高校图书馆,数据挖掘技术的应用更为广泛。
1 数据挖掘概述
数据挖掘(Data Mining),就是从存放在数据库、数据仓库或其他信息库中的大量数据中获取有效的、新颖的、潜在有用的、最终可理解的模式的过程。在人工智能领域,习惯上又称为数据库中的知识发现(Knowledge Discovery in Database,KDD),也有人把数据挖掘视为数据库中知识发现过程的一个基本步骤[1]。作为数据库中的知识发现的一种先进技术,数据挖掘通过总结要查询的内容的模式,对其间存在的规律进行搜索,辅助决策者对当前数据及历史数据进行分析,发现其中隐藏的模式和关系,进而对未来可能发生的事情进行预测。因此,数据挖掘技术在高校图书馆中有着广泛的应用。
2 数据挖掘技术在高校图书馆的应用
2.1 提高图书馆的决策能力
由于数据挖掘技术能够从众多的数据中发现有用的知识和信息,因此被广泛应用在图书馆的管理中,领导通过对挖掘出的有用信息进行分析,可以提高决策的准确性和可行性。比如,通过数据挖掘技术可以对图书馆的图书借阅情况进行挖掘和分析,分析每类读者的借阅行为特征,发现借阅规律,为图书馆的管理提供可行的合理的建议[2]。数据挖掘技术可以将图书馆管理系统中的内部数据和外部数据结合起来进行分析,为领导提供灵活的、随时可用的决策信息。数据挖掘技术可以从历史数据中找出某种规律,发现某种潜在的模式,以此预测未来,提供决策信息[3]。
2.2 辅助图书馆的图书采购
此外,通过对数据挖掘技术的结果进行分析和总结,可以提供各种预测性信息和分析报告,可以科学合理的指导图书馆采购图书,从而降低图书采购人员的主观因素带来的影响,可以科学的、准确的和全面的提高决策的能力,提升决策的水平。数据挖掘技术应用于图书采购的过程包括原始数据的收集、预处理、数据变换、数据挖掘、结果分析和采购计划的制订五个步骤[4]。
1.原始数据的收集。这一过程是基础,可以为下面几个环节提供一定的数据源,提供的数据源可以用在后期的数据挖掘中。在实践应用中,这一环节主要收集图书馆办公自动化系统数据库里的相关业务数据,主要包括以下内容:①读者基本信息数据。比如读者的姓名、性别、所在院系、借阅证号等。②流通借阅数据。利用数据挖掘技术获得的这部分信息,可以反映图书馆的文献利用情况,通过分析、统计和总结这些数据,有助于掌握读者的需求和书刊的使用情况,进行提供一定的预测信息。③文献信息检索数据,这些数据的主要功能在于如实地向数据挖掘人员反馈用户的实际需求和借阅倾向,并挖掘读者需求数据。④图书馆所藏的图书数据:主要包括书的题名、作者、出版社、出版日期、索书号、馆藏位置、购入日期等数据。
2.原始数据的预处理。这一环节就是在数据挖掘前对一些有问题的数据进行处理,这些数据大多数是不完整的、不一致的或有噪声的,这些数据是图书馆自动化系统数据库数据中的一部分。在数据挖掘前处理这些问题数据是非常有必要的,可以从根本上提高数据挖掘的效率和所获知识的质量。
3.数据变换。这一过程就是对前面两个环节所获得的有效数据进行总结、分析、聚集和归纳,使数据更适合于挖掘,满足不同的数据挖掘的需求。
4.数据挖掘。数据挖掘过程的主要工作就是设计选择一种合理的算法,使当前的数据情况和挖掘的目标相匹配,使其一致,比如遗传算法等。通过分析读者基本信息数据和流通借阅数据之间的关联关系,某类读者和某类图书之间的关联度会更加清晰的被数据挖掘人员所理解。
5.结果分析和采购计划制订。一般情况下,数据挖掘所获得的结果并不是可视化的,需要通过一些工具比如可视化工具和知识表示技术对其评估和解释。通过数据挖掘,可以获得检索频率和借阅频次较高的图书信息。借助这些信息,可以对各类文献的利用率和需求状况进行科学合理的分析,从而辅助采购人员科学地筛选文献种类。
2.3 提升图书馆的信息服务水平
图书馆的信息服务一般是被动服务,也就是图书馆员定期向用户提供一些资料,比如课题资料、项目资料等;除此之外,图书馆员还要逐一解答用户的信息请求。由于当前的科技发展日新月异,知识更新速度快,而这种被动服务模式反应较慢, 不能满足现实发展的需要。数据挖掘技术的广泛应用,使图书馆由被动服务转为主动服务,使传统图书馆转变为主动性、智能型的信息服务机构。
3 数据挖掘技术对高校图书馆带来的挑战
(1)从异构数据源中挖掘信息。笔者认为,从异构数据源中挖掘信息也就是从多个不同的相关的数据源系统的集合中挖掘相关的信息并对其分析综合,从而产生有用的信息和知识。在当今的网络时代,信息技术日新月异,新技术层出不穷,这就要求图书馆的专业技术人员能够驾驭新兴技术,能够从被各种网络连接起来的具有不同语义的多种数据源构成的分布式异构数据库中挖掘相关信息。
(2)数据挖掘结果的不同形式表示。由于当前图书馆通过数据挖掘技术获得的数据具有不确定性,所以数据挖掘的结果会有多种类型,其表示形式也不同。图书馆的用户也许会要求挖掘出不同知识,这就需要图书馆工作人员从一个大规模的数据集中挖掘出不同的知识,并从不同的角度来审视,并以不同的形式表示挖掘的结果[5]。
(3)在不同的抽象层次上进行交互式挖掘。在数据挖掘之前,很难从一个大规模的数据库中预测出能挖掘出什么信息,因此,应该以一个搜索过程来处理复杂的数据挖掘查询,对于必要的中间结果务必保留,以供进一步挖掘使用。在挖掘过程中,用户通过不断地修改其查询请求,对挖掘目标进行动态调整,能使挖掘过程得到有效地推进。因此,系统需要对挖掘的中间结果以不同的角度进行观察,并提供用户观察数据的灵活性。
4 结语
数据挖掘技术在高校图书馆的应用范围很广,除了上述应用外,在学科管理、馆藏资源建设、信息咨询、图书馆的现代化建设与管理等方面都有广泛的应用。通过对高校图书馆各种数据、信息的挖掘,可以揭示隐藏在期间的各种重要关系,图书馆员应该学习这方面的新技术、新发展,为图书馆的发展做出更大的贡献。
参考文献:
[1]邱晓辉.知识发现与数据挖掘分析[J].情报探索,2011,(1).
[2]张炜,洪霞.基于读者利用挖掘的图书馆决策与应用分析[J].现代情报,2009,29(7).
计算机审计技术,是指通过计算机完成一系列审计工作的计算,从大体上讲,主要包括数据转换和验证。计算机审计的目的分析数据和整理数据,最终获得审计证据。审计的最重要步骤是数据分析,这个过程直接影响审计结构。
在计算机审计中,数据的分析方式是审计工作中最重要的步骤,审计人员应掌握数据的分析思路,并将自身的审计能力和水平发挥出来。从审计事业的角度来讲,能够给审计思路进行正确和深入的总结是体现计算机审计整体发展水平的重要内容。审计人员应从设定计算和限定条件的过程中,创新审计思路,由此判断审计单位经济活动的真实性和合法性,然后做出合理的判断。
二、基于数据挖掘的审计模式
随着计算机审计理论的不断发展和实践的不断完善,很多计算机审计模式被合理的融入到审计工作中,由于实际工作的需要和相关技术的发展,数据挖掘技术被尝试性地引入了审计过程当中。审计人员通过数据挖掘给审计工作的创新带来了新的突破,现将数据挖掘计算的计算机审计模式归纳如下,如图1所示。图1:数据挖掘计算的计算机审计模式数据挖掘技术能提供高效的方法,让审计人员在面对大量而复杂的审计数据时,拥有宽广的思路。数据挖掘技术在审计项目中主要有两大作用:一是在海量的数据中寻找有用的知识作为审计线索;二是直接找到孤立点。
计算机审计模式因为数据挖掘技术的应用而有所完善,并解决了很多计算机审计模式中的缺点。我国正处于“问题导向型”政府审计的环境中,计算机审计的目的是发现一些异常数据明确被审计单位的业务活动是否具有合法性和合规性。数据挖掘技术在计算机审计中,是为了找出一组异常和孤立的数据,由此获取知识丰富现有的审计知识,并完善业务逻辑等方面。
(一)查询式
在计算机审计模式中,最常被使用的是查询式。这种方法主要是审计人员将采集到的被审计单位的数据,在整理后存入审计人员的数据库,然后编写成SQL语句,进行灵活的查询,由此更加有效的利用数据挖掘技术进行查找和分析,并对记录进行累计、基数,综合计算其最大值和最小值,连接不同的表格,运用函数编写公式,从而生成疑点再进行核实。
这种审计模式的核心技术是掌握SQL语句,该方法的主要对象是关系数据库的二维表。该方法对审计人员的SQL语句的掌握能力要求较高,如何审计情况比较复杂,那么SQL语句也会变得复杂,步骤也较多。这种方法的图形数据很少,结果无法直观的体现出来。例如在以此农村信用社贷款的审计过程中,审计人员在将数据导入整理后,想在贷款数据表输入对应的查找条件,并对应写出转换后的SQL语句。
(二)验证式
这种审计模式需要审计人员先提出自己的假设,然后采用一定技术和方法进行验证和否定这个假设。这种假设到验证的分析方法在日常生活中很常见,在审计工作中,应充分分析这种审计模式的关键,并提出相关合理的假设,假设的提出与审计人员的职业判断有一定关系。例如在某大型酒厂销售的真实性审计中,酒厂标准的酒包装是每盒1瓶,每箱6瓶盒,每件6盒,所以可以得出1件=1箱=6瓶=6盒。由此审计人员能够得到假设,在酒厂进行销售期间,酒产品的数量和消耗的包装物数据应该有一定比例关系,然后在通过这一假设,验证酒厂销售收入情况是否真实。如果审计数据过于复杂,就无法简单的假设,那么可以使用多维分析技术进行准确的分析。
所以,审计人员运用数据挖掘分析和计算审计数据,并找出数据的规律和特点,然后通过相关方法,将这些数据整理成图形或报表展示出来,根据这些内容总结审计经验,建立审计经验库,或是得出新的审计经验,并对这种经验的合理性和准确性进行判断。审计人员应根据审计经验进行适当的更正,并之前不够准确的审计经验,重新挖掘和分析,进行总结归纳,由此可以得出,数据挖掘技术的工作可能是一个不断重复的过程,并且是对目前计算机审计的一种补充。
由于信息技术的迅速发展,现代的档案管理模式与过去相比,也有了很大的变化,也让如今的档案管理模式有了新的挑战。让人们对信息即时、大量地获取是目前档案管理工作和档案管理系统急切需要解决的问题。
一、数据挖掘概述
(一)数据挖掘技术。数据挖掘是指从大量的、不规则、乱序的数据中,进行分析归纳,得到隐藏的,未知的,但同时又含有较大价值的信息和知识。它主要对确定目标的有关信息,使用自动化和统计学等方法对信息进行预测、偏差分析和关联分析等,从而得到合理的结论。在档案管理中使用数据挖掘技术,能够充分地发挥档案管理的作用,从而达到良好的档案管理工作效果。(二)数据挖掘技术分析。数据挖掘技术分析的方法是多种多样的,其主要方法有以下几种:1.关联分析。指从已经知道的信息数据中,找到多次展现的信息数据,由信息的说明特征,从而得到具有相同属性的事物特征。2.分类分析。利用信息数据的特征,归纳总结相关信息数据的数据库,建立所需要的数据模型,从而来识别一些未知的信息数据。3.聚类分析。通过在确定的数据中,找寻信息的价值联系,得到相应的管理方案。4.序列分析。通过分析信息的前后因果关系,从而判断信息之间可能出现的联系。
二、数据挖掘的重要性
在进行现代档案信息处理时,传统的档案管理方法已经不能满足其管理的要求,数据挖掘技术在这方面确有着显著的优势。首先,档案是较为重要的信息记录,甚至有些档案的重要性大到无价,因此对于此类的珍贵档案,相关的档案管理人员也是希望档案本身及其价值一直保持下去。不过越是珍贵的档案,其使用率自然也就越高,所以其安全性就很难得到保障,在档案管理中运用数据挖掘技术,可以让档案的信息数据得到分析统计,归纳总结,不必次次实物查阅,这样就极大地提升了档案相关内容的安全性,降低档案的磨损率。并且可以对私密档案进行加密,进行授权查阅,进一步提高档案信息的安全性。其次,对档案进行鉴定与甄别,这也是档案工作中较困难的过程,过去做好这方面的工作主要依靠管理档案管理员自己的能力和水平,主观上的因素影响很大,但是数据挖掘技术可以及时对档案进行编码和收集,对档案进行数字化的管理和规划,解放人力资源,提升档案利用的服务水平。第三,数据挖掘技术可以减少档案的收集和保管成本,根据档案的特点和规律建立的数据模型能为之后的工作人员建立一种标准,提升了档案的鉴定效率。
三、档案管理的数据挖掘运用
(一)档案信息的收集。在实施档案管理工作时,首先需要对档案信息数据的收集。可以运用相关档案数据库的数据资料,进行科学的分析,制定科学的说明方案,对确定的数据集合类型和一些相关概念的模型进行科学说明,利用这些数据说明,建立准确的数据模型,并以此数据模型作为标准,为档案信息的快速分类以及整合奠定基础。例如,在体育局的相关网站上提供问卷,利用问卷来得到的所需要的信息数据,导入数据库中,让数据库模型中保有使用者的相关个人信息,通过对使用者的信息数据进行说明,从而判断使用者可能的类型,提升服务的准确性。因此,数据挖掘技术为档案信息的迅速有效收集,为档案分类以及后续工作的顺利展开,提供了有利条件,为个性化服务的实现提供了保证。(二)档案信息的分类。数据挖掘技术具有的属性分析能力,可以将数据库中的信息进行分门别类,将信息的对象通过不同的特征,规划为不同的分类。将数据挖掘技术运用到档案管理中时,可以简单快速地找到想要的档案数据,能根据数据中使用者的相关数据,找寻使用者在数据库中的信息,使用数据模型的分析能力,分析出使用者的相关特征。利如,在使用者上网使用网址时,数据挖掘技术可以充分利用使用者的搜索数据以及网站的访问记录,自动保存用户的搜索信息、搜索内容、下载次数、时间等,得到用户的偏好和特征,对用户可能存在的需求进行预测和分类,更加迅速和准确的,为用户提供个性化的服务。(三)档案信息的整合。数据挖掘技术可以对新旧档案的信息进行整合处理,可以较为简单地将“死档案”整合形成为“活档案”,提供良好的档案信息和有效的档案管理。例如,对于企事业单位而言,培训新员工的成本往往比聘请老员工的成本要高出很多。对老员工的档案信息情况进行全体整合,使档案资源充分发挥作用,将档案数据进行总结和规划,根据数据之间的联系确定老员工流失的原因,然后建立清晰、明白的数据库,这样可以防止人才流失,也能大大提高档案管理的效率。
四、结语
综上所述,在这个信息技术迅速跳跃发展的时代,将数据挖掘技术运用到档案管理工作中是时展的需求与必然结果。利用数据挖掘技术,可以使档案管理工作的效率大大提升,不仅减少了搜索档案信息的时间,节省人力物力,避免资源的浪费,还能帮助用户在海量的信息数据中,快速找到所需的档案数据信息。数据挖掘技术的运用,使静态的档案信息变成了可以“主动”为企事业单位的发展,提供有效的个性化服务的档案管家,推动了社会的快速发展。
作者:于然 单位:扬州市体育局办公室
【参考文献】
关键字:数据挖掘;XML;电子商务
数据挖掘技术是数据库应用研究较为活跃的领域之一,因为其现实意义,使得数据挖掘的技术研究和应用有了很大的发展,在国内外科研领域都备受关注。特别是在电子商务领域数据挖掘技术有着巨大的使用价值。随着电子商务市场的日臻成熟,第三方电子商务平台上众多的网店之间的竞争正日益激烈,网店开展网络营销的成本日益增加。每个网店企业通过一定时间的经营都会收集到众多的客户数据,如何通过庞大的客户访问数据挖掘出潜在的客户需求的金矿,使网店经营企业快速有效的通过现有客户数据掌握市场的变化的规律和趋势,已经成为网店经营管理者急需解决的问题。本文将探讨一种网店客户数据挖掘系统的设计与实现的方法。
1、网店客户购买数据挖掘系统的设计
1.1 客户购买数据挖掘系统的实现原理
对客户数据进行挖掘的关键要点就是把现有的网店访问日志经过数据预处理转换成满足XML文件格式要求的结构化数据,然后使用DBMS工具将结构化的XML文件转换成关系型数据库,最后运用数据挖掘的方法从数据库抽取能够反映客户消费和购买行为的数据。具体工作过程如下:
1)确定数据来源(主要是顾客购买记录)
数据挖掘离不开海量的数据,每一个网店在经营一段时间以后都会记录大量的客户购买记录,这些客户购买记录当中就蕴藏着大量的信息,这些信息我们进行数据挖掘的数据来源。
2)进行数据筛选
客户购买记录中蕴藏大量的信息不可能全部为数据挖掘的对象,从数据源中提取需要的数据,将无用的数据和干扰信息从数据源中剥离,为进一步的工作做准备。
3)数据格式转换
将进一步筛选过的有挖掘价值的非格式化数据数据转换为XML格式的文件并存储。
4)导入数据库
将表示客户访问数据的XML格式文件使用数据库管理工具进一步转换成可以存储于数据库的关系型数据库文件。[1]
5)进行数据挖掘
应用数据挖掘的相关算法,对存储在关系型数据库中的数据进行挖掘,发现海量数据中隐藏的客户行为模式和消费趋势。
6)对数据挖掘的结果进行甄别
通过数据挖掘总结出的一些模式有时可能脱离客户真实行为模式的实际,因此在最后一步需要为对数据挖掘总结出的规则进行甄别,这个工作目前还需要有经验的专家人工完成,今后考虑结合人工智能的技术加以解决。
1.2 网店客户购买数据挖掘系统模型
在上述系统设计的基础之上,我们提出了网店客户购买数据挖掘系统的模型,该模型由三个层次组成,其逻辑架构如图一所示。
2、系统设计与实现
2.1 系统开发与运行环境
硬件环境:CPUIntelI3380M/RAM2G/硬盘320G软件配置:
操作系统:Windows7SP1
开发工具:Microsoft.NET2005/VisualC#
数据库管理系统:MSSQLServer2008
辅助软件:spssClementine11.1;SQLServer2008AnalysisServices(SSAS)
2.2 主要技术与系统实现
通过对上述对客户购买数据挖掘系统模型的分析可知,该系统主要由用户接口模块、数据清洗模块、数据格式转换模块、数据库生成模块和数据挖掘引擎模块等组成。
1)用户接口模块
本系统最终目的还是为为客户的决策提供支持,因此友好的界面设计是用户与系统交互的基础。简洁而易于理解的界面有利于提高用户对系统的使用效率。
2)数据预处理模块
客户访问数据进入数据预处理模块进行清洗,去除无关的信息,剥离出对数据挖掘有价值的数据。数据预处理模块对原始访问数据进行分析,将用户购买数据记录逐条的分割成十个字段,分别为:u_id(访问者编号),u_date(到访日期),u_time(到访时间),u_orderid(订单编号),u_product(客户购买的商品),u_bowser(使用的浏览器类型),page(首次到访页面),place(客户所在地区),payment(支付方式),logistic(物流方式),同时删除访问数据中与以上字段不相干的数据。然后将经过预处理的数据存入中间文件。
3)XML转换模块
该模块程序使用.NET的相关的方法编写,主要功能将预处理过的客户购买数据转换成标准化XML格式的数据文件进行存储。该程序的主要实现原理是对经过预处理的中间文件中的数据记录逐个分割并存入数组,然后将数组的内容按照XML的格式写入文件,完成转换。
4)数据库导入模块
利用.NET的相关方法并结合数据库管理工具建立支持数据挖掘的客户购买数据库,编写相关程序将已经转换成XML格式的客户访问数据逐条的导入到数据库并形成日志数据表方便进行后续的数据挖掘。
5)数据挖掘引擎模块
数据挖掘引擎是实现客户购买数据挖掘系统的实现关键。优秀的数据挖掘算法不仅可以使数据挖掘的结果更加准确,也可以提高数据挖掘的效率。本系统主要用到的算法是该模块利用数据挖掘算法对数据进行挖掘,主要包括算法的优化、日志数据表的删除操作以及挖掘结果集的保存与删除操作等。这里主要用到的算法是K-Means算法。主要是利用该算法发现最相似的客户聚类,通过对聚类的分析来得出网店众多的顾客一般的购买行为模式,从而可以适当地调整网站营销的策略中的来提高网络营销的效果,进而增加销售量。[2]
3、小结
本文主要讨论了一种基于XML技术的网店客户访问数据挖掘系统的设计与实现方法。通该系统可以帮助网店经营企业对大量的客户访问数据进行分析,从中发现市场的变化规律和客户的行为模式,使企业的网络营销工作更有针对性,同时也更富有成效。
参考文献:
在我国高校的教务管理中,采用的基本都是基于数据库的系统软件。教务软件中存有大量的学生数据,但一直没有发挥数据的作用,可利用数据挖掘技术,从中挖掘出隐藏的重要信息,用以指导教学工作。随着数据挖掘技术的成熟,应用的范围不断扩大,越来越多的高校采用数据挖掘技术指导教务的管理工作,为教学工作提供参考。
一、数据挖掘技术涵义
(一)数据挖掘的概念
数据挖掘是一种数据处理技术,一般是指在大量数据中,通过算法发现数据中隐藏信息的过程,从属于数据库的知识发现。数据库利用统计、情报检索、专家系统、在线分析处理、机器学习等方法与工具,对繁杂的数据进行分析、归纳与总结,通过搜索数据的内部信息,为高校的教务管理提供决策依据。
(二)数据挖掘的过程
数据挖掘过程是一个需要循环往复的过程,要做到精益求精,如果经过一次的数据挖掘没有得到有效的信息,就要重新进行数据的选择和处理,直到得出对我们有用的信息为止。一般情况下数据挖掘分为五个阶段:一是了解数据挖掘的概念,明确其目的;二是做好数据挖掘的准备工作;三是数据挖掘有很多种方法,依据实际情况选择合适的算法,对要处理的数据进行数据挖掘;四是对数据挖掘得出的信息进行分析,给予用户能够接受的知识;五是将通过数据挖掘得到的信息运用到对应的领域中,发挥数据挖掘的指导与参考作用。
(三)数据挖掘常用的方法
聚类分析法、统计分析法、模糊集方法、关联规则方法、神经网络方法、决策树方法、覆盖正例排斥反例法、粗集理论方法等。
二、成绩分析中应用数据挖掘的方法
(一)关联规则算法
1.应用关联规则算法的内容。关联规则的算法是指在大量的待处理数据中找到各事物之间的联系,是数据挖掘中的重要课题。关联是指在两个事物或者两个以上事物之间必然存在着某些规律性,运用关联规则就是要获取数据之间隐藏的重要信息。在成绩分析中运用关联规则,查找影响成绩的因素,针对试卷得分情况,对学生的成绩进行总结,分析得分情况与课程之间的相关性。
2.运用关联规则算法的挖掘过程。一是对数据库中的内容进行分析与识别,在进行数据挖掘之前,首先要定义最小的支持度,在最小支持度的基础上进行原始数据的挖掘,得到的项集应不小于最小支持度;二是产生强关联规则,利用频繁项集产生规则,得到的规则的置信度与最小置信度相比,要比最小置信度大或者与最小置信度相等。
3.关联规则的具体应用,下表为应用关联规则中某专业成绩不及格的挖掘规则。
依据上表得出如果最小的支持度为0.55,最小的置信度为0.35,那么1、2、4、5就为强关联规则,在课程1不及格时,课程3与6不及格的概率就会高,这就说明课程一影响课程3与课程6;课程4也受到课程2的较大影响;课程2受到课程5的影响。
4. Apriori算法的数据挖掘。Apriori算法是一种频繁项集算法,用来发掘相关规则。Apriori算法应用的非常广泛,核心思想是在候选集生成与情节向下的封闭检测的阶段下,进行频繁项集的挖掘。具体内容包括:一是依据数据挖掘的要求,建立相应的事物数据表,对于优秀成绩进行保留,其他的做删除处理;二是建立频繁项集数据表,用A、B表示项目名称并做相应的记录;三是删除表中支持度的计数小于最小的支持度记录,从而得到最终的频繁1项集;四是计算后几个频繁项目集的结果;五是删除最终的频繁项集中比最小的置信度阈值小的记录,进而得到最终的规则信息。
关联规则数据见下表:
通过置信度的计算,删除小于最小置信度阈值的记录,得到最终的关联规则,见下表。
(二)决策树算法
应用决策树算法是将预测的内容用树的模型表现出来,树的根节点作为数据的结合空间,树的分支表现每一个分类问题,作为单一的属性测试存在,树的叶子节点是数据分割的分类,从根节点到叶子节点的路径就是相应的类别预测。
应用决策树算法要收集学生的基本个人资料、学生出勤情况,以及对课程的喜爱程度、上机练习情况与基础程度等,再结合学生的成绩进行分析,得到的数据用来指导教学工作,以提高教学质量。
高校中影响学生成绩的因素的决策树如下图:
依据决策树得到:上机情况最为影响学生的成绩,造成学生低下。教师可以决策树得出的结论为参考,加强学生管理工作,在上机情况上加以重视,重点解决成绩不理想的问题。
三、成绩分析中应用数据挖掘的优势
在学生的成绩分析中应用数据挖掘技术可以有效指导教学,提高对教学有益的信息,具体内容包括:
(一)帮助学校全面掌握学生的学习情况,通过数据挖掘对学生的成绩进行深层次的分析,了解学生对课程内容的实际掌握情况,便于对学生整体情况的掌握。
(二)有助于对课程相关性的分析,通过分析不同专业的核心课程,掌握学生对课程的理解程度、得分情况,进而得到课程之间存在的联系,便于学校合理地安排课程。
(三)通过数据挖掘得到学生入学时的成绩,再依据学生现在的成绩,将二者结合进行分析,得到学生这一学年的学习状况,得出课程对学生的影响,便于更好地指导学生学习。
四、结语
随着高校的不断发展,学生的成绩数据逐年增多,运用数据挖掘技术分析学生的学习成绩非常有必要。通过数据挖掘技术,发现相关数据间的联系,从而提高分析成绩效率,也在一定程度上使成绩的分析结果更准确更具科学性。在实际工作中,要将数据挖掘的众多方法结合起来运用,便于发现数据中的隐藏信息。高校要加强对学生成绩的分析,提高教学质量,保证教学目标的实现。
参考文献:
[1]朱明.数据挖掘导论[M].合肥:中国科学技术大学出版社,2012.
[2]郑岩.数据仓库与数据挖掘原理及应用[M].北京:清华大学出版社,2011.
自古以来,中医学术流派林立,既互相争鸣,又互相渗透、取长补短。它们的发展和研究促使中医药基础理论逐渐得到了拓展和深化,促使中医药临床实践技术逐渐得到了进步和提升。可以说,中医学术流派的发展和研究促进了中医药事业的发展[1]。
中医学术流派研究的前提是要对其进行科学划分并确定研究内容。随着科学技术进步和中医学术研究的日益广泛深入,中医学术流派的划分方法不断进步、完善。徐江雁等[2]提出的核心分类模式既涵纳纵向的学术思想传承,又兼容横向的学术思想渗透,有一定的先进性,值得借鉴。我们在“中医皮肤科赵炳南学术流派及其传承研究”的课题中,从以下两方面划分学派和确定研究内容:其一,以创新的学术思想为核心:通过对中医皮肤科赵炳南学术流派学术渊源、基础理论、特色经验、技术方法等的系统研究,确立中医皮肤科赵炳南学术流派学术思想体系;其二,以开放的医家群及其著述为核质:不论是赵炳南门户师承所得,还是博采众家之说,也不论是公开发表的论文、论著、会议交流的文字材料,科研成果、发明、专利,还是口述史料, 只要是中医皮肤科赵炳南学术流派有关方面的内容,皆囊括在其核质之中。
针对上述研究内容,按照以往的研究方法,可以以人、以疾病、以方药或以思维方法为线索进行文献整理、分析和总结,或者以临床流行病学的方法进行临床观察和总结[3~7]。这些方法在一定程度上能总结规律,指导临床实践,但存在以下不足之处:①对学术思想和诊疗经验缺乏系统地有机关联研究和比较研究;②难以反映疾病诊疗过程中中医辨证的多维时空和非线性特征;③缺乏符合中医特点的多因素信息处理技术,可能致使研究结果产生混乱和差错;④难以真正反映中医学术流派的内涵和精髓。鉴于以往研究存在的问题,我们引进了数据挖掘技术进行中医学术流派研究。
1 数据挖掘及其在中医药领域的应用
1.1 数据挖掘概述数据挖掘(DM:DataMining)就是从大量的、不完全的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的,但又是潜在有用的信息和知识的过程[8]。它是一门交叉学科,汇聚了数据库、人工智能、统计学、可视化,并行计算等不同学科和领域。其中的人工智能能模仿人类对非线性、不完全、不精确和不确定信息的智能处理,具有良好的容错性、鲁棒性和高精度等综合技术优势[9,10]。人工智能方法主要包括人工神经网络、模糊系统、进化计算、粗糙集理论、支持向量机(SVM)等。针对不同的挖掘目标,往往要将几种方法综合起来应用,以发挥各自的技术优势。此外,将人工智能和其他数据挖掘方法如聚类分析、决策树、关联规则等优化组合应用,更能发挥数据挖掘技术解决复杂问题的能力。
1.2 数据挖掘在中医药领域的应用数据挖掘技术能针对医学数据多态性、不完整性、时间性和冗余性的特征实施合理的数据处理和知识提取[11]。它应用于中医药领域主要表现在以下几方面[12~16]:
1.2.1 新药开发研究以一种新的、建立在充分利用几千年积累下来的丰富经验及现代科学技术所提供的信息基础上的模式进行研究。
1.2.2 复方配伍规律和方证相应研究数据挖掘技术可以在一定程度上发现和认识临床病症与复立组方关系、复方药物的配伍关系、药味之间的相互作用关系等。
1.2.3 中医药信息化研究对以古语言和纯文本为主的中医药理论和实践进行结构化解析是中医药信息化研究的重要内容,其中的某些内容可以通过对文本的数据挖掘来实现。
1.2.4 中医药专家系统研究对中医药专家“只可意会,不可言传”的把握诊治疾病规律的定性描述、模糊概念,采用数据挖掘技术进行多层面智能分析,在一定程度上可将它们以可理解的规则或模式表达出来,从而大大丰富专家系统的知识库。
1.2.5 中医药文献研究数据挖掘技术应用于文献研究可以提高文献研究的水平,提高文献利用的效率,进而能提高中医药科研工作的效率。
2 数据挖掘在中医学术流派研究中的应用
以“中医皮肤科赵炳南学术流派及其传承研究”中的银屑病数据挖掘为例,简要说明挖掘的步骤和挖掘的工具及算法。
2.1 实施数据挖掘的步骤
根据全球首个数据挖掘行业通用的模型标准(CRISP-DM),银屑病数据挖掘过程可分成6个阶段。
2.1.1 理解问题明确和细化研究目标。
2.1.2 理解数据熟悉所采集的有关银屑病数据的类型和存在形式,在此基础上初步进行数据质量鉴定,并建立数据库。
2.1.3 准备数据有关银屑病的数据中存在着大量不完整的、冗余的和不一致的数据。在进行数据挖掘时,首先要对其进行处理。处理过程包括数据抽取、清洗、转换和加载。
2.1.4 建立模型针对研究目标,利用已知的数据和知识建立分析模型,并将该模型有效地应用到未知的数据或相似情况中测试并修正模型,如此反复进行以得到最优模型。
2.1.5 方案评估在模型最后付诸实施以前,彻底地对模型进行评估,再回顾构造该模型的步骤,以确定该模型真正能够达到预定的挖掘目标。
2.1.6 方案实施基于以上5方面的工作,采用相应的数据挖掘工具和算法进行多次反复、多次调整、不断修订完善的数据挖掘。
(一)数据挖掘技术的概念
数据挖掘技术是从许多的、不完全的、相对模糊的、存在噪声的、任意的实际数据当中,找出其中隐藏的、人们原先不了解的、但又是实际存在的、有用的信息和知识的过程[1]。数据挖掘所得信息具有先前未知、有效和实用三个特征。决策者对挖掘所得信息进行分析,从中提取出隐藏的关系和模式,来对未来发生的行为进行预测。
(二)数据挖掘技术的运用
在使用数据挖掘技术的过程中,数学方法经常被用到,但在一些特殊的时候,也会用到非数学的方法。另外,使用数据挖掘技术过程中,除了上面提到的方法外,还可以用演绎的方法和归纳的方法收集数据。在使用数据挖掘技术过程中,利用对相关数据进行挖掘、收集和分析得出相应的结果,并且这个结果在某些情况下,恰好能被用在管理信息、优化查询、过程控制、决策支持及数据维护等方面[2]。然而,由于数据挖掘技术特性,其在使用的过程中,涉及学科比较广,并且还涉及数据库、数理统计、人工智能、并行计算、机器学习、可视化等许多领域。数据挖掘技术中,常用到的有规则归纳、决策数、人工神经网络、遗传算法,以及可视化等技术。
二、数据挖掘技术的形式
数据挖掘分为描述型与预测型两种形式。描述型是对数据中存在的规则进行描述,并且依据数据具有微观性的特点找出其表征的、普遍性强的、概念层次较高的、比较宏观的知识,并对数据进行概括总结和抽象来描述出同一类事物的相同属性。预测型是分析和处理现有的数据,来获得某类事物中某些属性的内容,或者是预测出某类事物将来形成的规律等。在使用这两种挖掘技术时,经常用到的方法有分类方法、关联方法和粗糙集方法。
(一)分类
在运用计算机数据挖掘技术的过程中,分类是挖掘技术里的重点部分。数据收集的好坏,以及收集的数据的属性分析都是由分类决定的。因此,分类在运用挖掘技术的过程中具有非常重要的作用。分类是对数据库属性进行分析,把元组划分成不同种类的过程。并且在其划分过程中,根据数据形成的训练集,来集中对部分数据进行处理划分。然后,再对余下的部分数据做测试,在测试满足要求以后,遵守对应的规则对其分类。在实际分类过程中,比较有代表性的分类过程是:明确分类的范围、找出目标属性、组成训练集、研究属性、算法选取、分类计算、结果显示、选出测试集、分类规则验证、输出分类规则等[2]。
(二)相关规则
相关规则是数据挖掘技术中,比较简单实用的关联分析规则。它可以准确地将相关数据进行描述,并且能够对数据进行严格分析。在相关规则使用过程中,主要是对具体事物进行描写,并按照相同属性进行结合,然后对其进行总结概括,找出其共同属性和模式。一般会将关联规则直接应用到数据库中,统一地记录下每个事物得出的数据,不但可以正确地记录数据,同时消减了数据的搜索空间,使得整个运行系统得到改善和提高。
(三)粗糙集
数据挖掘技术中的粗糙集是被用作对不精确和不确定性知识进行研究的一种数学工具,在系统整个使用中占的优势比较大[3]。首先,在使用粗糙集方法时,相应的信息不需要了解,并且在运算的时候,算法比较简单且容易控制,得到大量的计算机用户的喜爱。其次,在运行粗糙集的过程中,能从数据中发现异常,排除知识发现过程中的噪声干扰,同时还能将这类数据的规律在最短时间内找出,并利用表格对其进行归纳总结,将其变成决策表,为使用者的查询提供方便。最后,在客观世界,应用有些规则的过程中也会出现不确定性。应用数据库的时候会产生许多不确定性的信息,而这些不确定性都得依赖粗糙集对其进行处理,这样就使得数据挖掘的效率得到大大提高。
三、挖掘技术在档案管理中应用的意义
记录历史资料的重要工具就是档案,它直接反映了档案管理人员的智慧和成果[3]。由于计算机网络的迅速发展,在管理档案信息的实际应用中,引入挖掘技术可以使档案的管理水平得到提高,并且改革了档案信息管理的模式。因此,数据挖掘技术应用在档案信息管理中是具有非常重要意义的。
(一)提高档案信息管理的安全性
档案信息是记载一些比较宝贵的资料,由此可知其价值的表现就是档案信息的实体。对档案管理者来讲,保存有历史意义的档案信息的时间应越长越好。保存得越长远,越体现了档案信息的价值。其使用价值相对应地增大了,被使用的频率也相应地增加,使保管工作非常困难,使用次数越频繁,就越容易缩短档案信息的寿命。同时,保密性是档案信息管理的另一项重要工作,万一档案信息外漏,不仅相关人员的隐私权受到侵犯,还有可能对其以后生活造成消极负面的影响,造成了档案保管与使用之间存在矛盾[4]。将数据挖掘技术运用到档案管理中,可以很好地避免这种情况的发生,从而保护档案信息实体和内容的安全。
(二)加快档案管理的效率,降低档案管理的成本
档案管理工作中引用数据挖掘技术,能够有效改变以往传统的档案管理模式。使得档案管理人员的工作效率和档案信息管理水平得到提高。引入数据挖掘技术,工作人员的管理时间被大量节省,处理档案信息的速度得到提高。同时,还可以加快档案鉴定工作的发展。档案管理工作中的一个重要环节就是档案的鉴定,传统的档案鉴定工作是由档案管理人员凭借多年经验来实现的,具有主观性。数据挖掘技术的运用,可以防止在鉴定档案工作中因档案管理人员的主观性而造成有价值的档案丢弃,为档案管理工作提供了比较有效的定量化方法,使档案的鉴定工作有据可依。
四、数据挖掘技术在档案信息管理系统中的运用
随着计算机信息化的迅猛发展,档案管理工作也需要进一步的完善。过去的档案管理方式已经不能适应当代社会的需要,很多数据信息无法有效地使用。要想有效地利用现有的档案数据,使其价值得到充分发挥,使用数据挖掘技术把那些隐含的信息挖掘出来,对其总结和使用是非常有必要的。档案信息管理中使用数据挖掘技术,能让挖掘出的知识信息得到发挥,并且能使档案数据信息价值被充分地利用。档案管理中应用数据挖掘技术的方法有以下几种:
(一)档案分类法
档案分类法是按照不同的种类把许多档案进行整理的方法。把档案中属性相似的放在同一个类别中,把那些档案属性不同的放在不同的类别当中。在档案进行分类的过程中,数据挖掘技术能够详细地划分这些档案的类别,帮助管理员进行档案归类,档案的检索效率和速度得到有效提高。
(二)档案收集法
档案收集法是先分析数据库中的数据,并通过对这些数据做详细的描述建立模型。然后用这些模型和所有的测试样本进行对比,一旦经测试后有一个模型与样本相符合,就可以依据这个模型对管理对象进行分类。
中图分类号:TP311 文献标识码:A 文章编号:1674-098X(2013)04(c)-0054-01
数据挖掘是在信息的海洋中从统计学的角度分析发现有用的知识,并且能够充分利用这些信息,发挥其巨大的作用,从而创造价值,为社会生产服务。数据挖掘工具能够扫描整个数据库,并且识别潜在的以往未知的模式。
1 数据挖掘
数据挖掘是与计算机科学相关,包括人工智能、数据库知识、机器学习、神经计算和统计分析等多学科领域和方法的交叉学科,是从大量信息中提取人们还不清楚的但具有对于潜在决策过程有用的信息和知识的过程[1]。数据挖掘能够自动对数据进行分析,并归纳总结,推理,分析数据,从而帮助决策者对信息预测和决策其作用[2]。
对比数据挖掘及传统数据分析(例如查询、报表),其本质区别在于:前者在没有明确假设的前提下通过挖掘信息,提取有用的资料,并提升到知识层面,从而帮助提供决策支持。所以数据挖掘又称为知识挖掘或者知识发现。数据挖掘通过统计学、数据库、可视化技术、机器学习和模式识别等诸多方法来实现丛大量数据中自动搜索隐藏在其中的有着特殊关联性的信息[3]。
2 数据挖掘技术
数据挖掘有许多挖掘分析工具,可以在大量数据中发现模型和数据间关系,常用数据挖掘技术包括:聚类分析和分类分析,偏差分析等。
分类分析和聚类分析的主要区别在于前者是已知要处理的数据对象的类,后者不清楚处理的数据对象的类。聚类是对记录分组,把相似的记录在一个聚集里,聚集不依赖于预先定义好的类,不需要训练集。分类分析是预先假定有给定的类,并假定数据库中的每个对象归属于这个类,并把数据分配到这个给定类中。通过分析训练集中的数据,准确描述每个类别,并进行建模、挖掘分类规则,并依据该分类规则,划分其他数据库中的数据类别。聚类分析是非监督学习,不依靠预先定义的类和带类标号的训练数据集,实体对象集合依照某种相似性度量原则,归纳为若干个类似实体对象组成的多个类或簇的过程,不同类中的数据尽可能存在差异,同类中的数据之间各个数据尽可能相似。
存在大量数据的数据库中,数据中存在着偏差,而在偏差中也包括了大量的知识。偏差分析是当数据库中存在异常行为,就显示出要采取预防措施;否则,正常的变化,则需要更新数据库中的记录[4]。
3 数据挖掘方法
要的数据挖掘方法包括决策树、遗传算法、人工神经网络、近邻算法和规则推导等。通过描述和可视化来对数据挖掘结果进行表示。
决策树是以实例为基础的归纳学习算法。着决策集的树形结构代表决策树,树型结构表示分类或决策集合。决策树是采用自顶向下的递归方式,树的非终端节点表示属性,叶节点表示所属的不同类别。
遗传算法是基于种群“多样性”和“优胜劣汰”原则等进化理论,模拟生物进化过程的全局优化方法,将群体中将较劣的初始解通过复制、交叉和变异3个基本算子优化求解的技术,在求解空间随机和定向搜索特征的多次迭代过程,直到求得问题的最优解[5]。
人工神经网络对人脑神经元进行模拟,依据其非线形预测模型,通过模式识别的方式展开,获取的知识需要存储在网络各单元之间的连接权中。人工神经网络能够完成分类和聚类等挖掘[5]。
关联规则是进行数据挖掘的重要的可悲发现的知识,对于两个或多个变量的取值之间存在某种规律性,并对其进行可信度的分析,挖掘其中的关联关系。这对于发现数据中存在的各种有用的信息,发现其数据模式和特征,然后发现目标行为具有重要意义。
4 数据挖掘的应用
在医学领域,科学家从异构和分布式基因数据发现的基因序列的识别、发现基因表达谱数据中的差异表达基因,疾病不同阶段的致病基因等,运用各种数据挖掘技术了解各种疾病之间的相互关系、发展规律,总结治疗效果这对疾病的诊断、治疗和医学研究都是很有价值的。在零售业/市场营销,通过对顾客购物篮的分析,把顾客经常同时买的商品放在一起,帮助如何摆放货架上的商品,挖掘购买商品的关联关系,规划如何相互搭配进货,促销产品组合等商业活动[6]。
数据挖掘在生物信息学中有着广泛的应用。生物信息学就是通过对生物学实验产生的海量数据,进行分类、处理、分析和存储,达到深入理解生命科学中基于分子水平的生物信息的生物学意义。如差异基因表达检测的基因芯片,就是具有高通量的特点,并同时能够产生许多生物学数据,在其中蕴含着丰富的生物学意义。分析和挖掘基因芯片数据,检测差异表达基因在不同环境条件的异常表达值,能够生层次的了解生物学知识,提高对生命科学研究的科学性和效率。对癌症差异基因的分析结果分析,能够更好的检测有关疾病,并根据相关疾病的基因特性,就能有针对性的进行个体化治疗,开发个体化的新药。
进入2013年,有许多媒体都在称之为“大数据元年”。大数据也就是拥有庞大的数据信息,事务数据量大规模增长,而且大数据是要处理大量的非规范化数据,数据挖掘和分析是必不可少的。爆炸性的大数据的产生,可能会改变人们的思考方式,也重塑了人类交流的方式[7]。
5 结语
数据挖掘技术能自动分析数据,广泛应用于各个企事业单位,分析调查大量数据,分析企业经营对社会,经济和环境的综合影响,并预测企业未来的发展趋势,从数据仓库中揭示出数据之间的潜在价值的规律性,形成知识发现,为决策管理提供依据。
参考文献
[1] 孟晓明.浅谈数据挖掘技术[J].计算机应用与软件,2004(8).
[2] 丁样武,杨莹.数据挖掘在医学上的应川[J].郧阳医学院学报,1999(3):130-132.
[3] 黄晓霞,萧蕴诗.数据挖掘集成技术研究[J].计算机应用研究,2003(4):37.39.
[4] 王阳,张春华.数据挖掘技术、应用及发展趋势[J].信息化与网络建设,2003(4).
1 背景和意义
(1)当前国际社会所面临的能源与环境之间的矛盾日益突出,电力作为现代社会最广泛应用的能源方式,在推动社会发展与进步中占据核心地位。电力生产以燃煤火力发电为主。煤炭在火电机组的燃料中,是主要能源占90%以上。燃煤引起的煤烟型污染是我国环境污染的主要污染源,由此引起的损失非常可观,己成为我国经济发展和电力行业发展的瓶颈。
(2)与此同时,数据时代已经到来,当今世界正处在一个数据爆炸的时代。电力生产是大数据产生的主要源头之一,这些数据的规模非常庞大,涌现速度也非常迅猛。所以针对电站污染排放的现状,我们迫切的需要一种能够智能、快速和自动化的方法来从数据库中获取有用的价值。它就是数据挖掘技术。
2 数据挖掘
(1)数据挖掘的定义:数据挖掘是一种新兴的信息处理技术。简单的说,数据挖掘就是从大量的、模糊的、随机的实际应用数据中,提取出蕴含人们事先不清楚的、但又是潜在有用的信息的过程。
数据挖掘可以高度自动化的分析数据,只要是有价值的数据,都可以利用数据挖掘来挖掘有用的信息。并且数据挖掘技术是未来重要的新技术之一,在各个行业领域引起了广泛的关注,是当今人们研究的热点问题。
(2)数据挖掘的功能:估计与预测、关联规则分析、聚类分析、分类、偏差分析。
(3)数据挖掘的过程:一般来说,数据挖掘的过程大致可以分为三个阶段,即数据的准备和预处理、数据挖掘、结果的解释和评估。所以数据挖掘也是一个闭环的循环过程。
3 关联规则和算法
3.1 Apriori介绍
Apriori算法关联算法中使用最广泛的、最有影响的算法。其核心是基于频繁项集的递推算法。在这里,所有支持度大于最小支持度的项集称为频繁项集。
Apriori算法是使用频繁项集的先验知识进行逐层搜索的迭代方法,简单的说是通过前一项集生成后一项集的过程。先通过数据库,找出所有的频繁1项集,然后利用1项集找到2项集,依次类推,直到再也不能找到任何频繁k项集。再在所有的频繁集中找出强规则。
3.2 Apriori算法的改进
经典Apriori算法属于单维、单层的关联规则。改进的Apriori算法则是二维、多层的关联规则。例如:污染物浓度(L1,…,Ln),温度(T1,…,Tn),其他影响因素,除尘器效率(E1,…,En)=>除尘设备参数(P1,…,Pn)。在以每个特征影响因素为中心的小区间,选择该规则中污染物排放最低,除尘效率最高的区间对应的运行参数区间作为该参数在这些影响因素下的运行最佳值区间,经过对规则的筛选,可以得到用于确定该参数最佳值的规则: (L1,…,Ln ),(T1,…,Tn),…,其他影响因素=>某参数最佳值(P1,…,Pn)。
4 关联规则的程序设计和应用
程序运行过程见图1。
下面就是通过关联软件对电厂实验的数据所进行的讨论,分析了温度、过量氧气系数、氧气流量、二氧化碳流量、氮气流量对NO转化率的影响。
其中的影响因素考虑有六项,分别是:温度(℃)、过量氧气系数、氧气流量(L/min)、二氧化碳流量(L/min)、氮气流量(L/min)、NO转化率。
结果显示随着温度增加NO的转化率变化较小,可以忽略不计,但是这里考虑到温度越高有利于煤粉的充分燃烧,所以我选择较高的温度作为优化后的运行指标。
对比贫氧气氛下和富氧气氛下NO转化率,可以发现在氧化性气氛下,富氧燃烧气氛中的NO转化率均有显著下降。这表明富氧气氛对抑制煤粉燃烧过程中煤氮向NO的转化具有较大优势。结果显示在还原性气氛下NO的转化受过氧系数影响较小,而在氧化性气氛下随着过量氧气系数增加挥发分氮迅速向NO转化。
随着气氛中氧浓度的增加,NO的转化率也随之增加。这里是一些化学因素进行分析的结果,证明关联的结果是正确的。我总结主要是氧气浓度增加促进了挥发分氮、煤焦氮以及有机物中的氮的氧化生成NO综上所述,氧浓度的升高对抑制煤氮向NO的转化是不利的。
5 结语
本文从火电站运行控制出发,将一些关键的数据挖掘理论与应用同电站污染物排放优化相结合,将数据挖掘技术引入电站运行过程中,基于电站生产运行的大量历史数据,提出了基于数据分析的电站污染物运行优化的新方法。
(1)对数据关联的规则和算法进行了总结。主要研究了Apriori算法,并使用编程软件实现了简单的Apriori算法的应用。
(2)从火力发电厂运行控制端出发,对Apriori算法进行了一定的改进,得到了适用于电厂污染物分析优化的程序。
【关键词】高校资产 数据挖掘
就高校资产管理现状而言,最普遍的问题在于:对于信息系统的数据存取和处理以及检索方面只有进行表面的统计与分析,从而致使当管理部门需要对其进行深入分析时,往往会被大量示经处理的数据所淹没,并没有发挥其真正价值,给管理部门工作带来不便。对此,管理者欠缺的不是没有资料,而是少了一种可以将这些资料有效整合的方法,可以将这些数据中隐藏着的,不易被人们发现的资源和内在信息给充分的挖掘出来。并将之进行分类管理,以供管理者进行决策和进行有效工作,最大艰度地发挥其作用。对此,笔者就高校设备数据挖掘技术和使用情况以及耗损等进行分层分析,以期能帮助管理决策者根据具体实际,快速、准确得了解和掌握学校资产的使用情况,以达到对学校资源的最大化利用,不浪费,并能创造出优越的环境,做好准备及后勤工作,从而进一步提升教学质量和办学效益。
1 数据挖掘技术
1.1 什么是数据挖掘技术
所谓数据挖掘技术,是指在大量不完全的实际应用数据中,将有噪声且模糊的数据实行随机提取,找出其隐藏在其中,人们从未发掘却有一直存在的、有用的信息和知识的过程。与之相近的还有数据融合、数据分析的决策支持等。其中,数据源必须具有一定的真实性,以及量多且是有噪声的;而发现则是指用户会对产生浓厚兴趣的知识,并且是能被广大用记所接受和能真正理解与应用的;其且有一定的时效性,并不要求是所有人都认同的真理,而是重在发现问题。同时,发现知识的方法也是多种多样,可以是数学或非数学、演绎或归纳。而发现得来的知识用途较广,可以被应用于信息管理、查询优化、决策支持、过程控制以及决策支持、自身维护等等。由此可见,数据挖掘并不像传统意义上的学科是单独存在的,它且有多种知识交叉的特点,能将人们所需要的数据从查询到挖掘分析,都给予极大地支持与有助。
1.2 数据挖掘的步骤
前文提到,数据挖掘具有分层特点,笔者对其进行详细分析。
第一阶段,确认目标。首先,在进行数据挖掘之前要确认一个清晰且具有实质意义的目标。
第二阶段,准备工作。充足的准备工作将给整个数据挖掘带来高效率水准,在挖掘之前,选择好数据及进行正确的预处理工作,并确认对像后才能进行。在此过程中,挖掘人员要对相关数据的有效信息进行搜索和确定,以及对将要挖掘的数据进行预处理,对数据中存在的问题实施有效解决。
第三阶段,挖掘工作。这一阶段便是通过最适合的技术对进行过预处理后的数据实施知识挖掘的过程。
第四阶段,分析研究。到了这一阶段,分析人员要将对挖掘出来的知识和结果进地分析,以发现它所具备的可信度和支持度,以及在其所在领域中的重要性等。且能以普通用记所能理解和方式呈现出来,以便大家详细了解和评价。
第五阶段,应用。应用是指对所发现知识的应用,将其运用到实际的研究和信息系统当中。
2 数据挖掘在资产管理中的研究
数据挖掘方法可以被普遍应用于资产管理,主要体现在以下两个方面:
2.1 决策树分析算法可用于实现设备的合理配制
归纳学习是学校进行研究工作时运用最为普遍和方法之一,在即定的某一概念之中,通过一系列已知案例与例,归纳出一个全新的,且通用性强的概念。这一过程在高校数据挖掘中被称之为决策分析算法。归纳学习是将原用知识概念进行归纳总结,并从中找到合适的学习方法和知识点。而决策算法则更多的是以实例为基础的一种学习归纳算法,它的具体体现为能从一组看似毫无次序和规则的事例中找到相联点,并将之分类,实现归纳。其具有,对发掘者本身素质知识要求不高、以案例为主要方式进行分析的特点。通过对设备使用部门、使用地点、使用对象、使用频率等资料的收集和分析,将这些实例划分为特定的组,通过建立决策树分析的方法来决策设备分配方案。
2.2 关联规则能用于对设备的使用状况进行评价分析
关联规则是指对数据库中的数据项之间所存在的关系进行规则描述,也就是说,它能通过对一个事务中的某些特性进行分析评价从而发现隐藏在该数据下的某些关联和相互关系。高校大型设备的使用具有一定的长期性,在此过程中,管理人员如何才能有效掌控其使用程度和损坏与否,将能通过设备与材之间的这种关联规则体现出来。设备的好坏以及其中的耗材准备将直接影响到使用。与此同时,对设备的损耗与维修进行记录也是十分必要的,当设备的维修次数超过它所能承受的标准时,则表明该设备的替换工作需要提上日程。
高校教学仪器设备更新速度加快,是由于设备本身性能下降,不能再满足使用要求,同时也是因教学内容的革新,有了新的性能要求和技术需求。当仪器设备性能下降时,不能盲目地进行报废和购新,可以利用数据挖掘技术多方案进行计算决策,根据技术上先进、经济上合理的高校设备管理原则,决定是进行改造升级,还是报废更新。
数据挖掘技术能帮助管理人员在对设备使用、耗材库及续修记录库等的分析处理、判断设备的使用进状况进行分析研究之后,提出具体的合理的使用方案。
3 总结
在高校数据挖掘方面,挖掘发现工作的全面展开需要有充分的准备和对案例的实际把握分析能力。在将其应用到资产管理中的研究时,要注意归纳总结,找出内在关联规则,以便管理与决策人员更好地进行工作和分析。
参考文献
[1]朱锡亮.数据挖掘在高校固定资产管理中的应用研究[D].扬州大学,2010.
[2]袁隽媛.高校资产数据挖掘的研究与实现[D].湖南大学,2012.
[3]袁隽媛.数据挖掘在高校资产管理中的应用[J].中国管理信息化,2011(05):26-28.
[4]高勇.利用数据挖掘为高校资产管理提供决策支持[J].广东科技,2013,22(14):6, 38.