统计学分析方法范文

时间:2023-10-16 09:50:09

引言:寻求写作上的突破?我们特意为您精选了4篇统计学分析方法范文,希望这些范文能够成为您写作时的参考,帮助您的文章更加丰富和深入。

统计学分析方法

篇1

关键词:

大数据;统计学;研究方法

中图分类号:

F27

文献标识码:A

文章编号:16723198(2015)11005201

随着信息技术的日益发展与普及,信息以及数据在社会经济发展过程中发挥的作用越来越重要。现如今,“大数据”时代已经来临,于是如何更有效地利用数据快速做出科学决策也已成为众多企业甚至是国家所共同关注的焦点问题。在数据处理和分析方法方面,《统计学》以及在其基础上发展而来的实证统计方法是当前的主流,这些方法可以帮助数据持有者从大量的数据中挖掘有价值的信息,并为其相关决策提供理论支撑和方法支持。然而,传统的实证统计方法在最新出现的大数据情境下,却呈现出了诸多缺陷,例如传统数据收集方法无法实现大规模(甚至是总体)数据的收集,传统统计方法和分析软件无法处理大规模数据,等等。于是,在将传统统计学方法应用于最新的大数据情境和问题之前,需要首先明确大数据所要求的处理方法与传统的统计学处理方法存在哪些关联和区别,然后才能够决定是否可以应用既有统计学理论和方法来处理某些大数据问题。

1大数据的界定

根据一位美国学者的研究,大数据可以被定义为:it means data that’s too big, too fast, or too hard for existing tools to process。也就是说,该学者认为:在关于大数据的所有定义中,他倾向于将之定义为那类“太大”、“太快”,或现存工具“太难”处理的数据。一般而言,大数据的特征可以概括为四个V:一是量大(Volume);二是流动性大(Velocity),典型的如微博;三是种类多(Variety),多样性,有结构化数据,也有半结构化和非结构化数据;四是价值大(Value),这些大规模数据可以为持有企业或者组织创造出巨大的商业或社会价值。

Victor在其最新著作《大数据时代――生活、工作与思维的大变革》中指出,大数据时代,思维方式要发生3个变革:第一,要分析与事物相关的所有数据,而不是依靠分析少量数据样本;要总体,不要样本。第二,要乐于接受数据的纷繁复杂,而不再追求精确性。第三,不再探求难以捉摸的因果关系,应该更加注重相关关系。这些变革反映出了大数据处理方式与传统统计学分析方法的很多关联以及主要不同。因此,下面我们分别针对两者的联系和区别进行讨论。

2大数据与统计学分析方法的联系

从18世纪中叶至今,统计学已经经历了两百多年的发展历程,不论是基础理论还是社会应用都极其坚实而丰富。大数据作为一种新兴的事物规律认知和挖掘思维,也将会对人类的价值体系、知识体系和生活方式产生重要影响,甚至引发重大改变。作为两种认知世界和事物规律的基本方法,它们在以下两个方面存在紧密关联。

(1)挖掘事物规律的基本思想一致。统计学(statistics)探索事物规律的基本方法是:通过利用概率论建立数学模型,收集所观察系统的数据,进行量化分析和总结,做出推断和预测,为相关决策提供依据和参考。对于大数据,维克托指出,大数据思维的来临使人类第一次有机会和条件,在非常多的领域和非常深入的层次获得和使用全面数据、完整数据和系统数据,深入探索现实世界的规律,获取过去不可能获取的知识。通过这两个定义可以看出,不论是传统的统计学方法还是新兴的大数据分析方法,都是以数据为基础来揭示事物特征以及发展趋势的。

(2)均采用量化分析方式。大数据分析的基础是数据化,也就是一种把各种各样现象转变为可制表分析的量化形式的过程。不论是传统统计学中所应用的数据(定性和定量数据),还是大数据时代即将被转化和采用其他形式数据(如文字、图像等),最终都是通过量化分析方法来揭示数据中所蕴含的事物特征与发展趋势。

3大数据与统计学分析方法的区别

(1)基础数据不同。在大数据时代,我们可以获得和分析更多的数据,有时候甚至可以处理和某个特别现象相关的所有数据,而不再依赖于随机抽样。这意味着,与传统统计学数据相比,大数据不仅规模大,变化速度快,而且数据来源、类型、收集方法都有根本性变化。

①在数据来源方面,在大数据背景下,我们需要的纷繁多样的数据可以分布于全球多个服务器上,因此我们可以获得体量巨大的数据,甚至是关于总体的所有数据。而统计学中的数据多是经由抽样调查而获得的局部数据,因此我们能够掌握的事“小数据量”。这种情况下,因为需要分析的数据很少,所以必须尽可能精确的量化我们的数据。综上,大数据情况下,分析人员可以拥有大量数据,因而不需要对一个现象刨根问底,只需要掌握事物大体的发展方向即可;然而传统的小数据情况下则需要十分注意所获得数据的精确度。

②在数据类型与收集方面,在既往模式下,数据的收集是耗时且耗力的,大数据时代所提出的“数据化”方式,将使得对所需数据的收集变得更加容易和高效。除了传统的数字化数据,就连图像、方位、文本的字、词、句、段落等等,世间万物都可以成为大数据范畴下的数据。届时,一切自然或者社会现象的事件都可以被转化为数据,我们会意识到本质上整个世界都是由信息构成的。

(2)分析范式不同。在小数据时代,我们往往是假想世界是如何运行的,然后通过收集和分析数据来验证这种假想。也就是说,传统统计实证分析的基本范式为:(基于文献)提出理论假设-收集相关数据并进行统计分析-验证理论假设的真伪。然而,在不久的将来,我们将会在大数据背景下探索世界,不再受限制于传统的思维模式和特定领域里隐含的固有偏见,我们对事物的研究始于数据,并可以发现以前不曾发现的联系。换言之,大数据背景下,探索事物规律的范式可以概括为:数据观察与收集――数据分析――描述事物特征/关系。

(3)数据分析方法不同。传统统计学主要是基于样本的“推断分析”,而大数据情境下则是基于总体数据的“实际分析”,即直接得出总体特征,并可以分析出这些特征出现的概率。

(4)分析视角不同。传统的实证统计意在弄清事物之间的内在联系和作用机制,但大数据思维模式认为因果关系是没有办法验证的,因此需要关注的是事物之间的相关关系。大数据并没有改变因果关系,但使因果关系变得意义不大,因而大数据的思维是告诉我们“是什么”而不是“为什么”。换言之,大数据思维认为相关关系尽管不能准确地告知我们某事件为何会发生,但是它会提醒我们这件事情正在发生,因此相关关系的发现就可以产生经济和社会价值了。

4结语

综上,相对于传统而言,大数据思维主要包括三个重大转变。首先,要分析与某事物相关的所有数据,而不是依靠分析捎来能够的数据样本;其次,研究人员应乐于接受数据的纷繁复杂,而不再追求精确性;最后,认知世界的思想发生了转变,不再探求难以捉摸的因果关系,转而关注事物的相关关系。以上三个转变构成了大数据思维的核心。在统计学的进一步应用和发展完善过程中,需要结合以上转变所产生的挑战,思考有效的统计学发展对策。

参考文献

篇2

Learning Approaches for

Network Analysis

2012,344p

Hardcover

ISBN9783527331833

M·德默等编

图形结构被用于计算机可以识别的结构信息时,对图形信息进行统计分析就成为可能。生物信息学、分子与系统生物学、理论物理、计算机科学、化学、工程等多个领域都在利用这一特点充分发挥计算机在分析和统计方面的优势。本书的一个重要特点就是将诸如图论、机器学习及统计数据分析之类的理论相互结合,形成一个新领域,以交叉学科的方式探索复杂网络。基因组、蛋白质,信号以及代谢组学数据的大规模生成使得复杂网络的构建成为可能,它为理解生理学以及病理学状态的分子基础提供了一个崭新的框架。网络和基于网络的方法用于生物学中以便表征基因组、遗传机理以及蛋白质信号。疾病被看作关键细胞网络的异常干扰。如今,在对诸如癌症、糖尿病等的复杂疾病的干预中,就使用网络理论来分析。

本书共有11章:1.重构及划分生物网络计算方法概论; 2.复杂网络入门:度量、统计性质及模型; 3.进化中的生物网络建模; 4.内含动力学的生物网络的模块性配置; 5.统计概算机对管理网络大规模因果推理的影响; 6.加权频谱分布:网络结构分析的度量; 7.进化中的随机二部图的结构; 8.图形内核; 9.用于早老性痴呆病的基于网络的信息协同分析; 10.结构化数据中基于密度的集合枚举; 11.采用加权图形内核的下位词析取。

本书第1主编是奥地利健康与生命大学生物信息学和转化研究所所长,他在生物信息学、系统生物学和应用离散数学领域130篇。他是Wiley出版的《复杂疾病医学生物统计学》《复杂网络分析》和《微阵列数据分析》等书的合作编者。

本书可用作应用离散数学、生物信息学、模式识别、计算机科学专业跨学科研究生课程的补充读物,对于这些领域的研究人员和专业人员,也是一本有价值的参考书。

胡光华,退休高工

篇3

中图分类号: G250文献标识码: A 文章编号: 1003-6938(2010)01-0111-04

A Statistical Analysis of the Library Science Papers Research Methods

Jia ErpengYi Jinghan(Department of Information Management, Zhengzhou University, Zhengzhou,Henan, 450001)

Si Miaomiao(Library, Hubei Vocational College of Bio-Technology, Wuhan, Hubei, 430070)

Abstract: Relevant scientific research methods support the completion of the science research. So library science research methods are an important component of the library science system. Through a statistical analysis to the research methods of the academic articles published in 11 library journals, this article sums up the current condition of method application in library science in our country, and prospects for the future of library science research methods in our country.

Key words: library science; research methods; methodology; survey analysis

CLC number: G250Document code: AArticle ID: 1003-6938(2010)01-0111-04

工欲善其事,必先利其器。科学研究是富有创造性和艺术性的活动,方法是科学研究的工具和途径,图书馆学研究过程也与科学的研究方法不可分离。图书馆学研究方法是在继承一般科学研究方法的基础上,根据自身的研究对象、学科性质而进行融合与发展,形成自己学科的研究方法体系。随着图书馆学情报学研究范围的扩大、研究对象的复杂,其研究方法呈现出多样性特点。从多个角度对其进行研究,既促进了我国图书情报事业的发展,反过来又进一步刺激了研究方法的多样化。本文以11种图书馆学专业期刊2006~2008年所刊载论文为数据源,分析论文的研究方法,试图总结出图书馆学研究方法的规律及其发展趋势。

1我国图书馆学方法论的研究

图书馆学研究方法,是图书馆学学科体系的重要组成部分,一方面,它使得图书馆学研究能够准确、充分地揭示研究对象的本质与规律,是图书馆学研究的保障;另一方面,整个图书馆学的研究中对方法的研究不能偏废,方法研究是学科研究内容的一部分。[1 ]我国图书馆学方法论研究开始于20世纪80年代。1981年刘迅先生在《图书馆学通讯》上发表了《要重视图书馆学方法论的研究》一文。紧接着乔好勤先生在该刊1983年第一期上刊登了《试论图书馆学研究中的方法论问题》,[2 ]运用统计方法对《图书馆学通讯》等三种专业刊物1980~1981年发表的学术论文研究方法进行分析。并提出了图书馆学方法论的三层次说法,即图书馆学的研究方法可以分为哲学方法、一般科学方法和专门科学方法。随后出现了有关图书馆学方法的大量学术论文,还有一些著作,如王崇德的《图书情报方法论》。[3 ]

从宏观上看,图书馆学方法论的三个层次基本得到认同。对一般科学技术研究方法的探讨,也分为三个层次,最底层是具体的技术层次,中间层是一般的研究方法层次,最高层则是哲学层次。[4 ]图书馆学的一般科学方法,主要是指引进和移植相关科学的研究方法和研究成果运用于图书馆研究,可分为:信息获取方法(主要指调查法、统计法、试验法和历史法等),信息加工方法(主要指老三论、新三论等)。[5 ]对图书馆学专门方法探讨的文章很多,虽然还没有统一的认识,但是普遍认为文献计量学方法和引文分析法是典型的图书馆学专门方法。另外从研究的性质来分,图书馆学的研究方法也可以分为定性和定量方法。随着对此研究的深入,图书馆学方法论体系会不断地得到完善。

3数据来源

在数据收集中,笔者选取了11种图书馆学专业期刊:《中国图书馆学报》、《大学图书馆学报》、《图书情报工作》、《图书馆杂志》、《图书情报知识》、《图书馆》、《图书馆论坛》、《图书与情报》、《图书馆理论与实践》、《图书馆建设》、《图书馆工作与研究》作为调查对象,具体统计了2006年~2008年间各期刊学术论文使用研究方法的情况。数据主要来源于中国知网,小部分数据来源于各期刊主页。在数据统计中,去除了一些信息资料类文章,如征文通知、会议通知等(见表1)。

4数据统计分析

本文总共统计了8159篇学术论文,通过对所选的各篇学术论文,逐篇分析其篇名,个别文章查阅了摘要、正文等详细信息,根据各科学研究方法的含义,归纳每篇论文采用的科学研究方法,并将其研究方法归纳为15小类(见表2)。由于每篇文章采用方法很难准确判断,有的文章采用了多种研究方法,所以从表2中可以看出,最后的论文合计总数(8273篇)大于调查的论文总数(8159篇)。在计算各类研究方法的论文占调查总数的百分数时,是除以调查总数(8159篇),所以百分数之和是(101.3997%)而不是100%。

(1)理论分析法

运用理论分析法的主要是一些分析归纳与概念推理类研究,以及思辨类的学术论文。从表2中可以看出,采用理论分析法的学术论文共2904篇,占调查论文总数的35.593%,理论分析法是我国图书馆学研究中最常用的方法。研究方法的运用主要受到学科性质和研究任务影响,图书馆学从目前来看应该属于社会科学,而且人文色彩比较浓厚;我国图书馆界也有重理论的现象,这与国外主要以定量方法为主、重应用有很大不同。随着其它学科背景研究者的加入,看问题的视角会有所变化,相应的研究方法也会多样化。社会科学的发展是由定性方法向定量研究过渡的过程,图书馆学科也要注重定量分析方法的应用。

(2)操作实验法、调查研究法

在调查的学术论文中,运用操作实验法的共有830篇,占到总数的10.173%。这类论文主要研究技术性的问题,比如系统开发设计、数字图书馆建设、网络信息资源开发组织等。随着图书情报工作环境、研究对象的变化,图书馆学研究关于技术的内容会越来越多。

调查研究法是社会科学常用的一种研究方法。图书馆学是一门实践性很强的学科,调查是获取原始数据的一个重要的方法。图书馆学研究中主要进行抽样调查,通过问卷、网络来收集数据资料。采用调查研究方法的学术论文一共745篇,占总数的9.131%,调查方法的运用在调查数据中占有很大一部分,说明研究更贴近实际问题。

(3)实例分析法、历史方法

实例分析法通常是以具体的实例来介绍经验或说明问题,论文中主要是以国内比较著名的大学或科研院所图书馆、国外有名的图书馆等为例子进行分析,对于其它图书馆的建设、信息资源开发服务起到了借鉴作用。

历史方法主要用于论述关于图书馆事业史、人物评价、文献学、目录学等内容的论文,是一种传统的研究方法。有的期刊专门开辟了关于图书馆事业史、文献学的专栏,历史方法的论文在调查论文中占到了7.501%。

(4)系统方法、管理学方法

系统方法主要是用系统的思想,从整体的角度来观察问题,这种方法对我们认识研究起到很大作用。虽然有的文章不能明显地看出是运用了系统方法,但是系统方法贯穿于观察问题的整个过程。管理学方法是将管理学的方法移植在图书情报学的研究中,图书馆在机构建设、运营方面都要运用到管理学的知识方法。

(5)数理方法、文献计量学方法、比较法、经济分析法

数理方法主要是数学方法在图书情报学研究中的应用,是一种定量的研究方法。采用数理方法的学术论文有304篇,占调查论文总数的3.726%。数学方法的运用,也说明图书馆学研究者正在试图定量地揭示研究对象,随着本学科逐渐走向成熟,这一方法将继续普遍化。

文献计量学方法是用数学和统计学方法,对文献量、作者数、词汇数等的定量化研究。调查的论文中运用此方法的占到3.199%,在调查论文中占到的比例比较低。文献计量学方法也应用于其它学科研究,从CNKI数据库中我们以“文献计量”为题名,可以粗略地检索到600多篇论文,内容涉及很多其它学科研究。

比较方法也是比较常用的一种研究方法,通过对多个相关事物或事物的各部分之间进行比较,揭示其共同点和差异点。

经济分析法是将经济学的方法运用到图书馆学的研究当中,研究内容包括图书馆营销、资源共享效率评价、纸质资源与电子资源的经费问题、资源服务的经营模式等等。

(6)控制论方法、引文分析法、内容分析法

明显运用控制论方法的论文很少,调查中只有79篇。占到总数的0.968%。但是控制论的思想在很多论文中都有所体现。

引文分析法是利用各种数学及统计学的方法对科学期刊、论文、著者等的引用和被引用现象进行分析,以揭示其数量特征和内在规律的方法。在所调查的论文中,明确使用引文分析法的有23篇,占总数的0.282%。引文分析法作为图书情报学科的一种专门方法,运用也很广泛。在CNKI中用“引文分析”作为题名可以检索到1200多篇论文。

内容分析法产生于传播学领域,是一种客观的量化方法,是从大量样本进行特征识别的系统方法,具有统计性,是一种从公开资料中萃取情报的重要方法。因为它是新方法,统计中只有6篇。

(7)其它

其它中包括有专利分析方法、社会网络方法、SWOT分析法、法律分析方法、心理学方法、美学方法、传播学方法、医学理论方法等等。

5我国图书馆学研究方法的发展趋势

5.1定量分析与定性分析相结合

根据表2数据,我们可将研究方法大致分为两类:第一类是定性方法,包括理论分析法、实例析法、历史方法、系统方法、管理学方法、比较法、经济分析法、控制论方法,百分比总共占到61.62%;第二类是定量方法,包括操作实验法、调查研究法、数理方法、文献计量学方法、引文分析法、内容分析法,百分比总共占到26.584%。从数量来看,定量研究方法所占比例比起定性方法还很小,这是由于理论分析法的比例太大。对于图书馆学的科学研究,目前来看定性方法用的多一些。但对于具体问题,定性方法和定量方法各有特点,用哪种方法要根据具体情况而定。

理论分析法是一种定性研究方法,在学科研究中发挥了重要的作用。由于定性方法缺乏科学的数据支撑,其理论分析就显得没有深度和广度。随着学科的发展,定性与定量研究方法相结合是发展的趋势。图书馆学情报学领域已经大量采用定量的研究方法,如调查研究法、数理方法、文献计量学方法等。定量方法的运用使研究更精细、更科学,站在定量的角度解释图书馆学情报学的内在规律,从而在广度和深度上推动学科的发展。[6 ]

5.2现代信息技术的影响越来越大

随着信息技术、网络技术的发展,图书馆学的研究内容产生了巨大变化,与网络信息、信息系统等有关的技术性研究论文数量会不断增多。在表2中,操作实验法所占比例为10.173%,我们可以清楚地看到这一点。

新技术的发展还为经典的研究方法提供了新的实现工具。[7 ]研究这可以通过互联网进行数据采集,以网页形式的网络调查、用即时通信(instant messaging)软件(如QQ)的调查、[8 ]电子邮件调查等,这些都为更好地完成调查提供了多种途径。随着搜索引擎的运用普及,搜索引擎的服务器记录和保存了用户与搜索引擎的交互过程,这种数据称为使用记录(transaction log),使用记录分析(transaction log analysis)成为一个研究热点。另外,计算机还可以辅助研究者进行定性数据分析等。在文献计量学的基础上产生了网络信息计量学方法,在引文分析方法的基础上出现了链接分析方法,这都是现代信息技术对研究方法的影响。

5.3吸收其他学科的研究方法

表2中的管理学方法、数理方法、经济学方法、内容分析法等都属于移植其它学科的方法,占10.85%。“其它”占7.185%。这些都说明了图书馆学研究中移植了许多其它学科的理论或方法。

在学科的发展中,一方面要具有从其它学科吸收养分的能力;另一方面要能为其它学科提供养分。随着图书馆学科研究队伍的壮大,研究者会大量借鉴其它学科的研究方法,会产生新的研究方法,如内容分析法、情景分析法等。当然我们不能盲目地去移植新的研究方法,而要与图书馆学情报学本学科的实际情况相结合,将其融入本学科研究之中,通过适当的研究方法来为研究服务。

5.4实证方法的应用

调查研究法、实例分析法就属于实证性研究方法,从表2中的数据中就可以看出,共占到17.061%。近些年来研究者也开始注重实证研究(evident-based studies)方法,[9]它是在获取研究对象客观数据材料的基础上,通过数据分析,考察研究对象各有关因素的相互影响及其影响方式,从个别到一般,归纳出事物的本质属性和发展规律,它是观察法、实验法、统计法等的综合运用。实证研究通过实际数据分析,连接了理论与实践,一定程度上有利于图书馆学研究水平、学术地位的提升。

总之,方法都不是万能的,各种研究方法都有自己的优点和缺点,或者是有适用的条件。定性与定量研究方法的结合将成为图书馆学方法的主流,新的方法与新的技术将得到更多的应用。利用多种先进技术手段来收集数据、分析数据,综合多种研究方法来探讨复杂的研究问题将会越来越多。所以研究方法的运用将是多元化发展,合理的研究方法体系应该是多种研究方法的有机结合与互补,从各个不同的角度对研究对象进行分析。

参考文献:

[1]邓小昭.信息管理研究方法[M].北京:科学出版社,2007:1-33.

[2]乔好勤.试论图书馆学研究中的方法论问题[J].图书馆学通讯,1983,(1):54-62.

[3]王崇德.图书情报方法论[J].北京:科学技术出版社,1988.

[4]杨建军.科学研究方法概论[M].北京:国防工业出版社,2006:1-24,395-409.

[5]罗方等.我国图书馆学方法论研究的现状及趋势[J].图书馆建设,2006,(2):19-20.

[6]邱均平.文献计量学[M].北京:中国人民大学出版社,2007:260-283.

[7]华薇娜.我国80年代图书馆学情报学研究状况的定量分析[J].情报学报,1995,14(3):218-225.

篇4

中图分类号:TP311文献标识码:A 文章编号:1009-3044(2009)33-9515-03

The Design of Medical Image Classification Based on Ensemble Leaning

LIN Xiao-jia

(Faculty of Logistic and Information Management, Fujian Ineternational Business and Economics College,Fujzhou 350006,China)

Abstract: The paper proposes a medical image classification based on ensemble leaning.The system we proposing consists of a pre-processing phase, a feature extraction phase and a building the classifier phase. On the basis research of single feature, one new method is proposed one kind of medicine image classification new method that synthesized the multi-characteristic merge and the data mining technology. This method is through the introduction of data mining in the concept of Ensemble Learning,utilizing the Ensemble learning method to classify to the single characteristic the weak sorter to carry on the iterative training.

Key words: ensemble learning;the characteristic extraction;adaboost M1;medical image classification

随着计算机医学成像技术的发展,医学影像越来越多样化,医学影像的应用也越来越广泛,与此同时大量的医学设备的应用使得医学影像的数量也越来越多,大量的影像资料使医院迷失在信息的海洋。利用数据挖掘技术可以有效的对医学图像进行组织和管理,合理有效的对其进行分类,从而使其更好的辅助日常的医学诊断和医学研究。

该文提出的方法是使用SVM分类器将整个特征空间分成诸多子空间;采用集成学习方法Adaboost方法对样本进行多次抽样,将Adaboost算法中的分类精度作为特征选择的依据,选取出少量有利于分类的特征,同时将单特征训练得到的弱分类器通过集成学习增强为强分类器。

1 系统的构成

整个系统的构成如图1所示。

该系统主要包括训练和分类两个阶段。在医学图像训练阶段,通过数据库建立训练集,对医学图像进行预处理,提取图像颜色和纹理特征,创建训练的弱分类器。对图像特征进行选择。分类阶段进行的是待分类图像的选择特征的提取,利用训练得到的强分类器进行分类,输出分类结果。

2 图像预处理

由于实际的医学图像数据因为操作的原因,存在不完整性、噪声和不一致性性,不能直接在原始数据上进行数据提取,因此必须对医学图像进行预处理。数据清洗和数据的变换[1-2]都是经常用于图像数据预处理技术上的。

图像预处理的第一步就是图像去噪。大部分的医学图像一般包含了大量有噪声的背景:有的医学图像太暗,有的医学图案太亮,还有来自影像设备中电子元器件的随即扰动。通过去噪处理后,可以去掉图像中的大多数的背景信息和噪声,增强图像的特征,提高图像的信噪比。针对医学图像来说,图像本身有边缘模糊的特性,通过去噪对医学图像进行复原,使之与原图像逼近是存在比较大的困难的。因此本系统主要采取的去噪方法为滤波技术,该技术可以在最大限度保持信号不受损失的基础上,尽可能过滤噪声,提高图像的可读性,将医学图像中感兴趣的特征(图像的轮廓和边缘等重要信息)有选择的突出。

图像预处理的第二步是图像归一化,基于图像特征分类主要是对图像特征进行匹配和区分的过程,但是通常情况下待检图像的图库中,图像的大小尺寸并不完全相同,用户所提供的分类例图大小也不完全一样的。在提取图像特征(特别是空间分布特征)时,就有可能存在本身同类的图像所计算出来的特征差别却很大,而不属于同一类的图像由于尺度不同却计算出了相似的特征,进而影响到分类的结果。为了防止这类情况的发生,本分类系统必须首先对图像的尺度进行归一化,即通过对图像的缩放使得图像具有同一尺度256×256,在同一尺度上提取图像特征,从而消除尺度影响,又能够保证图像的整体灰度不变性。通过对大尺度的图像进行尺度归一化之后,按比例进行了缩小,降低了图像特征提取时的计算量,提高了分类速度。

3 基于集成学习方法的特征选择和分类

3.1 集成学习方法

集成学习(Ensemble Learning)是一种新的用来组合的学习器的方法。其主要思想[3]是:通过某种组合方法把一些学习器组合起来,使得集成后的学习器能够表现出比单个学习器更好的性能。狭义的说,集成学习是指利用多个同质的学习器对同一个问题进行学习,这里的“同质”是指所使用的学习器属于同一种类型,例如所有的学习器都是决策树、都是神经网络等等。广义的来说,只要是使用多个学习器来解决问题,就是集成学习[4]。

集成学习从萌芽阶段发展到现在,很多研究者提出了不同的算法。其中研究最深入,最具影响力,应用最广泛的就要算Boosting算法了。在众多Boosting算法中,AdaBoost是Boosting家族中的基础算法,也是Boosting家族最具代表性的算法,之后出现的Boosting家族中的扩展算法都是在AdaBoost算法的基础上发展而来的,对AdaBoost的分析也适用于其它的Boosting方法。因此下面我们以AdaBoost M1算法为例,进行描述。

AdaBoost M1算法用于解决多类单标签问题。每个待分类样本只能属于多个类别中的单个类。AdaBoost M1的基本思想是:首先给定任意一个弱学习算法和训练集(x1,y1),(x2,y2),…,(xm,ym),yi在分类问题中是一个带类别标志的集合,yi∈Y={1,…,K}。初始化的时候,对每个训练例赋予的权重都相同为1/m。接着,调用弱学习算法对训练集进行T次的迭代训练,每次训练后,按照训练结果更新训练集上的分布,对于训练失败的训练示例赋予教大的权重,也就是在下一次迭代训练的时候,更加关注集中对这些失败的训练例进行训练。通过这样的T次迭代训练,得到一个预测函数序列h1,h2,…,ht,其中ht也有一个权重,预测效果好的预测函数的权重较大,预测效果差的预测函数的权重较小。经过T次迭带后的最终预测函数H采用有权重的投票方式产生。

3.2 特征选择和分类

本系统利用训练样本的分类属性,采用Adaboost M1算法同时,对算法进行改进,使算法同时具有进行特征分类性能的评价(特征选择)和SVM分类器的增强的功能:对样本进行多次抽样,将分类精度作为特征对分类性能的判定依据,进行有效特征选择,选取出少量对分类作用较大的特征,同时将单特征训练得到的弱分类器增强为强分类器,使分类器具有较好的分类精度和泛化能力。具体算法思想如下:

1) 在Adaboost M1算法每次迭带训练时候,赋予每个训练例的分配权重 Dt(i)(t表示迭代次数,i表示训练例标号),同时也表明它被分类器选入新训练子集的概率。如果某个样本已经被准确的分类,那么在构造下一个训练集中,它所占的比重概率就会被降低;反之,如果某个样本没有被正确分类,那么它所占的比重就会得到提高。通过这样的方式,Adaboost M1算法就能更加重视那些较困难、更富信息的样本上。

2) 针对Adaboost M1这个特点,我们在选入的训练集上,选择SVM作为弱学习机,针对每个特征维向量进行训练,产生弱分类器,并且计算分类精度,用来衡量该弱分类器对分类的作用程度,精度大的弱分类器表明该特征维向量的分类性能较好,有利于作为有效的分类特征,被选入作为分类特征,经过多次迭代可以得到大部分对分类作用较高的特征,最终增强得到一个强分类器。

改进的Adaboost M1进行特征选择以及SVM分类器增强的算法步骤如下:

输入:训练集 (x1,y1),(x2,y2), …,(xm,ym) ,其中标签yi ∈Y={1, …,k}

特征维向量集{S}

弱学习算法SVM

迭带训练的次数T

初始化:对于i=1,2,…,D1(i)=1/m, Do For t=1,2,…,T //其中T为迭代训练的次数,m为训练样本数。

步骤1 弱分类器学习

根据选择权重Dt(i)进行采样,获得第t次迭代样本集,选取特征子集,学习重采样后的样本集得到弱分类器集合Hrt ,其中Srt是特征子集集合,表示第t次迭代的每个特征维度;Srt是弱分类器集合,是根据Hrt单特征训练出的弱分类规则,r表示特征维度标签号,t表示迭代次数。

步骤2 计算分类精度,选择特征

计算弱分类器在样本集上的误差 在此作为特征子集Srt 有效性的判据,误差越小则此特征子集作用越大,选取误差最小(εt=min{εrt})的对应的分类器为Ht与有效特征向量Srt计算本次迭代得到的分类器贡献权值βt=εt/(1-εt)。

步骤3 更新权重

其中,βt为每次迭代的分类器贡献权值,值由βt=εt/(1-εt)来确定;Dt(i)为每个训练例的分配权重,Zt为标准化常量。

输出:有效特征子集Sr

增强分类器

通过改进的Adaboost M1算法可以得到所选择的特征子集Sr以及增强的分类器Hx。

分类时,只要将待分类医学图像根据有效特征子集Sr进行特征提取,输入增强的分类器集 Hx中,就可得到分类的结果。

4 实验结果及结论

本实验所采用的是医学图像中的CT、MRI和DDR图像,根据医学图像的功能和用途,我们将这些医学图像分为头部(包括中枢神经和头颈五官)、胸部(包括呼吸系统、循环系统)、腹部(包括消化系统)、骨盆(包括泌尿系统)和其他等五大类标签,每类标签60幅(由于CT应用比较广泛,所以选用CT图像40幅,MRI和DDR各20幅),共计300幅图像构成图像库。在测试集和训练集的选择上,采用10折交叉验证的方法。通过训练集最终选取了36维特征向量中的分类性能较高的12维(详细如表1所示)。

分类性能采用敏感度(sensitivity)、特异度(specificity)以及分类精度(precision)三个指标率来衡量:敏感度也称真正识别率,即正确识别该类元组的百分比;特异度是真负率,即正确拒绝不属于该类元组的百分比;而精度就来标记实际属于该类的元组在已分配到该类的元组总数的百分比,表2是本实验的分类结果。

从表2中可以看出,本实验医学图像分类器算法的敏感度、特异性和分类精度都较高,分类识别率和精度平均在83%左右。

分类系统的速度主要取决于特征的提取以及进行分类的运算量。如果将所有特征都运用于分类的话,由于有些特征向量维度对分类贡献不高,对分类效率没有明显的提高,并且也大大增加了特征提取阶段的时间负担。在本系统中仅仅选择了不到1/3的特征,去除了部分对分类效率贡献不高的特征,因此在特征提取阶段速度大大提高了,而且在分类阶段也因为只在有效特征中进行提取分类,速度也有较大提高,表3列出了在 Inter Core Duo processor T2450 2.0GHz、1G DDR内存、VC++6.0环境下本分类系统与其他分类平均分类精度的比较。

本方法比最常见的综合特征分类法在特征提取分类阶段速度上有所提高,但是比起单个特征提取,速度还是比较慢的。但是从表3正确率相比,准确率还是蛮高的,相对的牺牲时间还是值得的。

参考文献:

[1] Maria-Luiza Antonie,Osmar R.Z aiane and Alexandru Coman,Application of Data Mining Techniques for Medical Image[C],Proceedings of the second international workshop on Multimedia Data Mining(MDM/KDD’2001),in conjunction with ACM SIGKDD conference.

[2] Osmar R.Z aiane,Maria-Luiza Antonie and Alexandru Coman,Mammography Classification by Association Rule-based Clasifier[C], MDM/KDD2002:International Workshop on Multimedia Data Mining(with ACM SIGKDD 2002).

[3] Zhou Z-H,Wu J-X,Tang W,Chen bining regression estimators:GA-based selective neural network ensemble.International Joural of Computational Intelligence and Applications,2001,1(4):341-356.

[4] Zhou Z-H,Wu J-X,Tang W.Ensembling neural networks:many could be better than all.Artificial Intelligence,2002,137(1-2):239-263

友情链接