统计学的分类方法范文

时间:2023-08-04 09:20:13

引言:寻求写作上的突破?我们特意为您精选了12篇统计学的分类方法范文,希望这些范文能够成为您写作时的参考,帮助您的文章更加丰富和深入。

统计学的分类方法

篇1

中图分类号:TP311文献标识码:A 文章编号:1009-3044(2009)33-9515-03

The Design of Medical Image Classification Based on Ensemble Leaning

LIN Xiao-jia

(Faculty of Logistic and Information Management, Fujian Ineternational Business and Economics College,Fujzhou 350006,China)

Abstract: The paper proposes a medical image classification based on ensemble leaning.The system we proposing consists of a pre-processing phase, a feature extraction phase and a building the classifier phase. On the basis research of single feature, one new method is proposed one kind of medicine image classification new method that synthesized the multi-characteristic merge and the data mining technology. This method is through the introduction of data mining in the concept of Ensemble Learning,utilizing the Ensemble learning method to classify to the single characteristic the weak sorter to carry on the iterative training.

Key words: ensemble learning;the characteristic extraction;adaboost M1;medical image classification

随着计算机医学成像技术的发展,医学影像越来越多样化,医学影像的应用也越来越广泛,与此同时大量的医学设备的应用使得医学影像的数量也越来越多,大量的影像资料使医院迷失在信息的海洋。利用数据挖掘技术可以有效的对医学图像进行组织和管理,合理有效的对其进行分类,从而使其更好的辅助日常的医学诊断和医学研究。

该文提出的方法是使用SVM分类器将整个特征空间分成诸多子空间;采用集成学习方法Adaboost方法对样本进行多次抽样,将Adaboost算法中的分类精度作为特征选择的依据,选取出少量有利于分类的特征,同时将单特征训练得到的弱分类器通过集成学习增强为强分类器。

1 系统的构成

整个系统的构成如图1所示。

该系统主要包括训练和分类两个阶段。在医学图像训练阶段,通过数据库建立训练集,对医学图像进行预处理,提取图像颜色和纹理特征,创建训练的弱分类器。对图像特征进行选择。分类阶段进行的是待分类图像的选择特征的提取,利用训练得到的强分类器进行分类,输出分类结果。

2 图像预处理

由于实际的医学图像数据因为操作的原因,存在不完整性、噪声和不一致性性,不能直接在原始数据上进行数据提取,因此必须对医学图像进行预处理。数据清洗和数据的变换[1-2]都是经常用于图像数据预处理技术上的。

图像预处理的第一步就是图像去噪。大部分的医学图像一般包含了大量有噪声的背景:有的医学图像太暗,有的医学图案太亮,还有来自影像设备中电子元器件的随即扰动。通过去噪处理后,可以去掉图像中的大多数的背景信息和噪声,增强图像的特征,提高图像的信噪比。针对医学图像来说,图像本身有边缘模糊的特性,通过去噪对医学图像进行复原,使之与原图像逼近是存在比较大的困难的。因此本系统主要采取的去噪方法为滤波技术,该技术可以在最大限度保持信号不受损失的基础上,尽可能过滤噪声,提高图像的可读性,将医学图像中感兴趣的特征(图像的轮廓和边缘等重要信息)有选择的突出。

图像预处理的第二步是图像归一化,基于图像特征分类主要是对图像特征进行匹配和区分的过程,但是通常情况下待检图像的图库中,图像的大小尺寸并不完全相同,用户所提供的分类例图大小也不完全一样的。在提取图像特征(特别是空间分布特征)时,就有可能存在本身同类的图像所计算出来的特征差别却很大,而不属于同一类的图像由于尺度不同却计算出了相似的特征,进而影响到分类的结果。为了防止这类情况的发生,本分类系统必须首先对图像的尺度进行归一化,即通过对图像的缩放使得图像具有同一尺度256×256,在同一尺度上提取图像特征,从而消除尺度影响,又能够保证图像的整体灰度不变性。通过对大尺度的图像进行尺度归一化之后,按比例进行了缩小,降低了图像特征提取时的计算量,提高了分类速度。

3 基于集成学习方法的特征选择和分类

3.1 集成学习方法

集成学习(Ensemble Learning)是一种新的用来组合的学习器的方法。其主要思想[3]是:通过某种组合方法把一些学习器组合起来,使得集成后的学习器能够表现出比单个学习器更好的性能。狭义的说,集成学习是指利用多个同质的学习器对同一个问题进行学习,这里的“同质”是指所使用的学习器属于同一种类型,例如所有的学习器都是决策树、都是神经网络等等。广义的来说,只要是使用多个学习器来解决问题,就是集成学习[4]。

集成学习从萌芽阶段发展到现在,很多研究者提出了不同的算法。其中研究最深入,最具影响力,应用最广泛的就要算Boosting算法了。在众多Boosting算法中,AdaBoost是Boosting家族中的基础算法,也是Boosting家族最具代表性的算法,之后出现的Boosting家族中的扩展算法都是在AdaBoost算法的基础上发展而来的,对AdaBoost的分析也适用于其它的Boosting方法。因此下面我们以AdaBoost M1算法为例,进行描述。

AdaBoost M1算法用于解决多类单标签问题。每个待分类样本只能属于多个类别中的单个类。AdaBoost M1的基本思想是:首先给定任意一个弱学习算法和训练集(x1,y1),(x2,y2),…,(xm,ym),yi在分类问题中是一个带类别标志的集合,yi∈Y={1,…,K}。初始化的时候,对每个训练例赋予的权重都相同为1/m。接着,调用弱学习算法对训练集进行T次的迭代训练,每次训练后,按照训练结果更新训练集上的分布,对于训练失败的训练示例赋予教大的权重,也就是在下一次迭代训练的时候,更加关注集中对这些失败的训练例进行训练。通过这样的T次迭代训练,得到一个预测函数序列h1,h2,…,ht,其中ht也有一个权重,预测效果好的预测函数的权重较大,预测效果差的预测函数的权重较小。经过T次迭带后的最终预测函数H采用有权重的投票方式产生。

3.2 特征选择和分类

本系统利用训练样本的分类属性,采用Adaboost M1算法同时,对算法进行改进,使算法同时具有进行特征分类性能的评价(特征选择)和SVM分类器的增强的功能:对样本进行多次抽样,将分类精度作为特征对分类性能的判定依据,进行有效特征选择,选取出少量对分类作用较大的特征,同时将单特征训练得到的弱分类器增强为强分类器,使分类器具有较好的分类精度和泛化能力。具体算法思想如下:

1) 在Adaboost M1算法每次迭带训练时候,赋予每个训练例的分配权重 Dt(i)(t表示迭代次数,i表示训练例标号),同时也表明它被分类器选入新训练子集的概率。如果某个样本已经被准确的分类,那么在构造下一个训练集中,它所占的比重概率就会被降低;反之,如果某个样本没有被正确分类,那么它所占的比重就会得到提高。通过这样的方式,Adaboost M1算法就能更加重视那些较困难、更富信息的样本上。

2) 针对Adaboost M1这个特点,我们在选入的训练集上,选择SVM作为弱学习机,针对每个特征维向量进行训练,产生弱分类器,并且计算分类精度,用来衡量该弱分类器对分类的作用程度,精度大的弱分类器表明该特征维向量的分类性能较好,有利于作为有效的分类特征,被选入作为分类特征,经过多次迭代可以得到大部分对分类作用较高的特征,最终增强得到一个强分类器。

改进的Adaboost M1进行特征选择以及SVM分类器增强的算法步骤如下:

输入:训练集 (x1,y1),(x2,y2), …,(xm,ym) ,其中标签yi ∈Y={1, …,k}

特征维向量集{S}

弱学习算法SVM

迭带训练的次数T

初始化:对于i=1,2,…,D1(i)=1/m, Do For t=1,2,…,T //其中T为迭代训练的次数,m为训练样本数。

步骤1 弱分类器学习

根据选择权重Dt(i)进行采样,获得第t次迭代样本集,选取特征子集,学习重采样后的样本集得到弱分类器集合Hrt ,其中Srt是特征子集集合,表示第t次迭代的每个特征维度;Srt是弱分类器集合,是根据Hrt单特征训练出的弱分类规则,r表示特征维度标签号,t表示迭代次数。

步骤2 计算分类精度,选择特征

计算弱分类器在样本集上的误差 在此作为特征子集Srt 有效性的判据,误差越小则此特征子集作用越大,选取误差最小(εt=min{εrt})的对应的分类器为Ht与有效特征向量Srt计算本次迭代得到的分类器贡献权值βt=εt/(1-εt)。

步骤3 更新权重

其中,βt为每次迭代的分类器贡献权值,值由βt=εt/(1-εt)来确定;Dt(i)为每个训练例的分配权重,Zt为标准化常量。

输出:有效特征子集Sr

增强分类器

通过改进的Adaboost M1算法可以得到所选择的特征子集Sr以及增强的分类器Hx。

分类时,只要将待分类医学图像根据有效特征子集Sr进行特征提取,输入增强的分类器集 Hx中,就可得到分类的结果。

4 实验结果及结论

本实验所采用的是医学图像中的CT、MRI和DDR图像,根据医学图像的功能和用途,我们将这些医学图像分为头部(包括中枢神经和头颈五官)、胸部(包括呼吸系统、循环系统)、腹部(包括消化系统)、骨盆(包括泌尿系统)和其他等五大类标签,每类标签60幅(由于CT应用比较广泛,所以选用CT图像40幅,MRI和DDR各20幅),共计300幅图像构成图像库。在测试集和训练集的选择上,采用10折交叉验证的方法。通过训练集最终选取了36维特征向量中的分类性能较高的12维(详细如表1所示)。

分类性能采用敏感度(sensitivity)、特异度(specificity)以及分类精度(precision)三个指标率来衡量:敏感度也称真正识别率,即正确识别该类元组的百分比;特异度是真负率,即正确拒绝不属于该类元组的百分比;而精度就来标记实际属于该类的元组在已分配到该类的元组总数的百分比,表2是本实验的分类结果。

从表2中可以看出,本实验医学图像分类器算法的敏感度、特异性和分类精度都较高,分类识别率和精度平均在83%左右。

分类系统的速度主要取决于特征的提取以及进行分类的运算量。如果将所有特征都运用于分类的话,由于有些特征向量维度对分类贡献不高,对分类效率没有明显的提高,并且也大大增加了特征提取阶段的时间负担。在本系统中仅仅选择了不到1/3的特征,去除了部分对分类效率贡献不高的特征,因此在特征提取阶段速度大大提高了,而且在分类阶段也因为只在有效特征中进行提取分类,速度也有较大提高,表3列出了在 Inter Core Duo processor T2450 2.0GHz、1G DDR内存、VC++6.0环境下本分类系统与其他分类平均分类精度的比较。

本方法比最常见的综合特征分类法在特征提取分类阶段速度上有所提高,但是比起单个特征提取,速度还是比较慢的。但是从表3正确率相比,准确率还是蛮高的,相对的牺牲时间还是值得的。

参考文献:

[1] Maria-Luiza Antonie,Osmar R.Z aiane and Alexandru Coman,Application of Data Mining Techniques for Medical Image[C],Proceedings of the second international workshop on Multimedia Data Mining(MDM/KDD’2001),in conjunction with ACM SIGKDD conference.

[2] Osmar R.Z aiane,Maria-Luiza Antonie and Alexandru Coman,Mammography Classification by Association Rule-based Clasifier[C], MDM/KDD2002:International Workshop on Multimedia Data Mining(with ACM SIGKDD 2002).

[3] Zhou Z-H,Wu J-X,Tang W,Chen bining regression estimators:GA-based selective neural network ensemble.International Joural of Computational Intelligence and Applications,2001,1(4):341-356.

[4] Zhou Z-H,Wu J-X,Tang W.Ensembling neural networks:many could be better than all.Artificial Intelligence,2002,137(1-2):239-263

篇2

一、国内外统计学科分类的现状

 

一些作者认为,统计学在学科分类中将由原来的二级学科升为一级学科;①我国存在着两门统计学,国际上存在着一门统计学。②其实这些说法并不确切,对学科分类的理解也不够全面。

 

所谓学科分类,指在一定条件下运用某些原则划分各门学科的对象和领域,确定各门学:科在整个科学知识体系中的位置,阐明各学科之间的相互关系。③国内外都很重视学科分类何题研究,结合各国情况提出适合需要的分类模式,制定各种分类表。从各国情况看,有以下四种不同用途的学科分类。一是以科研统计和科研管理为目的的学科分类。例如:《联合国教.科文科学技术统计工作手册》、《中国科学院科研项目与档案分类》等。二是以教育管理学科和专业划分为目的的分类。例如:《日本大学学科分类目录》,中国《普通高等学校专业目录》等。三是以文献图书分类为目的分类。如:《美国国会图书馆分类法》、《中国人民大学图书馆图书分类法》等。四是以各种百科全书辞目分类所反映的学科分类情况。④如:《国际社会科学百科全书》分类目录、《大不列颠百科全书》辞目等。

 

很显然,根据现在科学在理论和应用两个方面的进展,根据不同的目的,学科分类是多种多样的。下面我们来看国内外把统计学作为一级学科的分类情况。

 

国内外统计学分类的门类属于社会科学。国内反映学科分类的文献较多,其中参考价值较大的有以下8种⑤:《国家科学技术委员会统计学学科分类与代码》(I989年)、《中国科学院封算机管理用代码手册》(1985年)、国务院学泣委员会办公室和国家教委研究生司《授予博士、硕士学位和培养研究生的学科、专业目录》(1988年)、国家教委高教一司《普通高等学校社会科学本科专业目录与专业简介》(1987年)®、国家教委科技司《国家教委学科分类目录代码〉》〇987年)、中国图书馆图书分类法编辑委员会《中国图书馆图书分类法(第三版)》(1"0年)、《中国人民大学图书馆图书分类法(五版)》(1989年)、《中国大百科全书(全套)》〇982—1991年)。据对这8种文献中社会科学一级学科频率的统计,可以发现:(1)国内8种学科分类文献列出的45门一级学科,其中频率4次以上的有经济学等9门;出现次数多说明公认程度和成熟度较高。(2)统计学作为一级学科出现的频率为2次,说明统计学作为一级学科早在1992年以前就已存在,只是公认程度还不算很高。

 

对国内这8种学科分类文献进一步研究还可以看出,所谓“两门统计学”之一的数理统计学,从来没有作为一级学科存在过,它只是一级学科数学下面的一个二级学科。

 

因此,应该澄清统计学科体系研究中的一些含混说法。第一,统计学“上升为一级学科”的提法不准确,只是说应该在更多学科分类中争取它的一级学科地位,特别是在国家有关部门的官方文献中。第二,两门统计学的提法很不确切。如果两门指的是二级学科(数理统计学,社会经济统计学),那一级学科应该就是统计学。如果一门指的是一级学科社会经济统计学或一级学科经济学下的二级学科,一门指的是一级学科数理统计学或一级学科数学下的二级学科,前者显然不仅不符合学科分类原则,也违背逻辑,不可能数学同时存在两个一级学科。后者也违背提出两门统计学的初衷,既然是二级学科,就独立不起来。

 

国外统计学作为一级学科存在,在门类(大类)里归属于人文、社会科学。数理统计学无论在那种分类文献中都不是一级学科。据对联合国教科文组织于70年代初期出版的3卷本专著《社会科学和人文科学研究中的主要趋势》、《国际高等教育百科全书》、《大不列颠百科全书》、《日本大学学科分类目录》、《美国国会图书馆分类法》等15种参考价值较大的学科分类文献统计,统计学作为一级学科出现的频率为6次,说明国外统计学作为一级学科存在,已经是比较成熟和公认的了。

 

二、建立适合中国国情的统计学学科体系

 

统计学在形成和发展中,经历了一个漫长、曲折的过程。如果说以前对统计学的地位、对象争议还比较多的话(这种争论自然还会持续下去),随着国家标准关于统计学学科分类与代码在我国的与实施,统计学科分类应用研究就显得十分重要。'

 

(一)继续加强统计学学科体系理论研究

 

长期以来,我国统计学学科分类及其应用研究十分沉闷,思维狭窄,阻碍了统计学的发展。(I)1979年以前,把统计学学科体系研究同政治形势挂钩,忽视了统计自身发展的规律。(2)强调数理统计学和经济统计学是两门统计学,两门之间相互隔绝、相互排斥。(3)将数理统计归属于自然科学的数学,经济统计归属于社会科学的经济学,认为二者之间鸿沟不可逾越,看不到社会科学与自然科学的结合、渗透、交叉。统计学学科体系研究,首先要有新的视野,新的思维。把握现代科学发展特征。人类文明发展到今天,现代科学同时在微观和宏观两个方向获得重大威果,在理论和应用方面取得卓越进展,在高度分化的同时又在高度综_合相互统一协调,由单线联系走向多维的联系。现代科学结构是一个全新的多层次的综合性的庞大网络体系,我们要把握现代科学发展的这些特点,构筑统计学的新体系。

 

1.统计学一级学科的设置。统计学是一门搜集、整理、分析数据并进行统计推断和预测的方法论科学。方法论包括两个层次的含义:其一是方法论研究,包括调查方法、整理方'法、分析方法、推断方法和预测方法。其二是运用统计方法帮助人们认识、解决自然现象、社会现象、经济现象以及医学、工程、环境等领域的具体实际问题。从统计方法的应用说,统计是人们认识世M认识社会的一种手段和工具,指导人们认识、探索、分析事物的规律,所以,统计学的研究对象包括自然现象、社会现象,经济现象,它的研究内容十分广泛,无所不包,包括人们科学实验,社会生产和生活中认识的领域或待开发的领域,只要有人类活动,就有统计方法的应用。

 

一门科学是一个历史的私动的[本系。统计学的理论体系,除继续巩固、发展比较成熟时数理统计、经济统计、人口统计外,还应该广为吸收、融合现代其他科学营养,开拓新的生存、发展空间。比如,吸收数学、信息科学与系统科学、计算机科学技术、哲学、法学、经济学等科学理论和方法,_进行移植、综合、交叉,形成新的研究方法和研究领域,加深统计学理论基础,扩大统计认识范围。统计学传统理论中,数据搜集、推断方法比较完善和精涞(可以归结为提供统计数据功能),统计学在发展中,完全有可能也有必要向统计规律、统计控制,统计信息技术方面发展;这些领域将会涉及许多理论和方法问题。统计学成为一级学科,将更有利于统计理论的深化和应用的发展,促进统计学的成熟程度。

 

2.统计学二级学学科设置。二级学科的设置应考虑:(1)划分标志选择统计一般方法和研究领域两个标志。(2)根据学科特点考虑到在有限的三级学科分类体系中能反映该学科的全貌。(3)留有余地,以便扩延。在分类体系相对稳定的情况下,为萌芽中的新兴学科留有余地,以得到必要的补充和延续。二级学科设置10个:①理论统计学,②数理统计学,③经济统计学,④社会统计学,⑤自然科技术统计学,⑥环境生态统计学,⑦统计法学,⑧国际统计学,⑨统计学史,⑩统计学其他学科。

 

一部分统计二级学科具有交叉性和双重属性(例如经济统计,是统计与经济交叉的突出例子之一。一个时期以来有人对经济统计颇有微词,认为它不是科学,这是不公正的。有人认为经济统计能否从经济学中分离出来才是统计学成熟的标志。恰恰相反,从科学发展趋势看,二者的交叉,结合,既是经济学发展的需要也是统计学发展的必然)。建议在两处列类,两处编码。例如数理统计,既作为统计学的二级学科,又作为数学的二级学科;经济统计,既作为统计学的二级学科,又作为经济学的二级学科。

 

3.统计学三级学科的设置。统计学三级学科的设置以研究内容和应用为主要划分标志。考虑到学科发展的不平衡和分类习惯,有的二级学科下可暂不列出三级学科。本文提出部分统计学二级学科的三级学科如下:(1)理论统计学,包括:统计调查理论,统计分组理论,统计分析理论,统计指标理论,统计指数理论,统计信息理论,统计控制理论,统计预测理论,计算统计学,统计逻辑学,统计系统与管理等。(2)数理统计学,包括:抽样方法,假设检验,非参数统计,相关回归分析,统计推断,贝叶斯统计,多元分析,时间序列分析等。U)经济统计学,包括:国民经济统计,企业统计,运输统计,流通统计,财政统计,金融统计,价格统计等。(4)社会统计学,包括.人口统计,教育统计,卫生统计,生活统计等。(5)自然科技统计学,包括:科技管理统计,生物统计,遗传统计,心理统计,气象统计,农业统计等。

 

(二)强化统计学一级学科地位

 

如前所述,我国现有学科分类文献中把统计学列为一级学科的还不多。尽管国家了学科分类标准,我们仍不能仅仅满足于此,而是要让更多的学科分类文献贯彻体现国家分类标准,反映统计学成熟程度,体现现代科学发展趋势,将统计学列为一级学科。

 

当前要做的,一是要面向社会大力宣传国家学科分类标准。统计学科建设,不仅仅是统计理论工作者的事,它关系到统计的前途和发展,也关系到我国现代科学的发展。二是继续加深对按一级学科建设统计学的重要性的认识。统计学成为一级学科,是统计学自身内在发展的需要,是统计学研究对象共同特征和研究方法的通用性所决定的,完全具有必要和可能。不存在硬争统计学一级学科地位问题。三是经济统计、应用统计、理论统计工作者加强联系,携手共进,研究统计学的发展特点,内在规律,建立大统计,大统计学科。四是有步骤地向有关部门、权威机构宣传、反映、介绍统计学的发展和现状,以便将来修改、制订学科分类表时将统计学列为一级学科。五是国家统计局要广泛调查研究,制定贯彻实施国家学科分类标准的具体措施,使统计学一级学科地位真正确立起来。

 

(三)在高等学校系科专业设置中体现统计学一级学科地位

 

国内目前学科分类文献中,国务院学位委员会、国家教委联合颁布的《技卞傅工、硕士-学位和培养研究生的学科、专业目录》和国家教委的《普通高等学校本科专业目录》是两个很重要的具有实际意义的分类文献。分类的基本原则是专业设置一般以学科为主。按照这种划分就出现了令人困惑的结果:统计学一方面是经济学(一级学科)的二级学科,一方面又是数学(一级学科)的二级学科。于是在大学里就出现了一个在经济学下的统计学,一个在数学下的统计学。在研究生专业目录中还有卫生统计、生物统计、农业统计、工程统计等专业。这种状况,很不利于统计学的发展,也不利于统计学的国际交流和比较。

 

鉴于高校系科专业设置影响十分巨大,建议国务院学位委员会、国家教委尽快对这两个文献加以修订,将统计学列为与哲学、经济学、数学等并列的一级学科。

 

篇3

在当今高科技高信息时代社会里人们生存面临着很大的挑战,生存问题刻不容缓,因此、我们学知识储备知识就是为了将它用到社会上,也是为了在这社会上生存。通过知识的积累,说大了就是为社会和公民造福做贡献说小了就是为了谋生之道。我们知道知识是渊博的,人一生活到老学到老就是说这个道理。通过各种各样的科学学科储备知识,而这些学科之间紧密相连的。例如:统计学和新闻专业也有本质的联系,也许有的同学可能问我们为什么要学统计学?统计学和新闻学的最大特点就是实践性很强的学科。作为一名新闻工作者搜集信息是他的职责范围,那么他用什么方法搜集数据信息呢?这当然用统计的方法搜集。统计学对于写论文具有很重要作用,比如:动态数列分析方法在各经济类学科中的运用很频繁。

资料来源:《内蒙古统计年鉴》2011[2]

表1的数据表明,随着人均收人的增加,奶制品的消费也在逐渐增加,所以,收入水平是影响和决定乳品消费需求的重要因素。

二、统计学是实践性很强而且应用性很广的学科

(一)统计学是应用性很强的学科

国家各大要害部门,像国家统计局、省、自治区、市、人民政府统计局及地区、乡、镇各部门都设有统计部门,还有非统计行业各企事业单位都设有专门统计部门和所需的专门统计专业人员。例如:医院需要统计人员,对病人、职工人数的统计,还有各种病情性质不同方面分为神经科、外科、内科、耳科、眼科、少儿科妇科等等都是用统计方法进行分类的。法院也需要统计人员,如对死刑犯的统计,各类死刑案件的统计。学校里对各院(系)的分类,每院系里各专业分类,学生人数和学生宿舍的统计等等都用了统计方法。还有人口普查是利用统计学的各种统计方法进行统计的:

还有古代也很早就用了统计方法,如:十三世纪成吉思汗统治世界时,他把军队分为十户、百户、千户、万户等,十户有十户长、百户有百户长、千户有千户长、万户有万户长这样有利于作战,有利于管理军队。

1.统计学是一门不可忽视的学科

同学们将来就业的时候,都想以后找个好工作,有个好前途,发挥所学的知识在社会上有用。大家想过吗?就是拿统计学这门课来说,学好统计学我们就有机会到各个统计部门上班。统计学对于写论文具有很重要作用,比如:动态数列分析方法在各经济类学科中的运用很频繁。

2.统计学与我们工作生活紧密相连

对于学校来说,学校是很多院系组成的,系里有很多老师和员工组成的而这些老师当中的班主任是有很多学生,学生公寓来说,公寓有长,而公寓长管理着各个楼,楼里分为宿舍,这些都是用统计方法统计的。

(二)统计学是实践性很强的学科

统计学家不像数学家、物理学家和化学家一样在家里就可能推断谋中公式。统计学家(人员)必须进行实地调查。因为、统计学中所涉及的各种统计数据、资料都是来源于仔细的调查和整理。

篇4

统计学历经300多年的发展,事实上已成为横跨社会科学和自然科学领域,并与数学紧密结合的多科性的科学。为了便于讨论,我们首先给出一个目前国内统计学界大多数人能够接受的关于统计学的定义:“统计学是有关如何测定、收集和分析反映客观现象总体数量的数据,以便给出正确认识的方法论科学”®这一定义实际上是按所谓“大统计学”的观点给出的。从横向看,各种统计学都具有上述共同点,因而能够形成一个学科“家族”。从纵向看,统计学方法应用于各种实质性科学,同它们相结合,产生了一系列专门领域的统计学参见图1

由此可见,统计学可以分为两大类:一类是以抽象的数量为研究对象,研究一般收集数据分析数据方法的理论统计学另一类是以各个不同领域的具体数量为研究对象的应用统计学前一类统计学具有通用方法论的理学性质,其特点是计量不计质。后一类统计学则与各不同领域的实质性学科有着非常密切的联系,是有具体对象的方法论,因而具有复合性学科和边缘学科的性质所谓应用既包括一般统计方法的应用,更包括各自领域实质性科学理论的应用。传统的“数理统计学派”只承认前一类统计学,否认后一类统计学的存在,是不妥当的传统的“社会统计学派”否认理论统计学具有通用方法论的性质,将统计学全部划归社会科学也是不合适的。

经济统计学是以经济数量为对象的方法论科学。要在经济领域应用统计方法,必须解决如何科学地测定经济现象即如何科学地设置指标的问题,这就离不开对有关经济现象的质的研究要对经济问题进行统计分析,也必须以有关经济理论为指导。因此,经济统计学的特点是在质与量的紧密联系中,研究事物的数量特征和数量表现不仅如此,由于社会经济现象所具有的复杂性和特殊性,经济统计学不仅要应用一般的统计方法,而且还需要研究自己独特的方法,如估算的方法、核算的方法'综合评价的方法等等。所以'从总体上看,我们认为经济统计学属于社会科学它既是统计学的一个分支,又是经济学下的二级学科经济统计学与其他统计学的区别在于:研究的具体对象不同,其所结合的实质性学科也有较大差别经济统计学与其他经济学的二级学科的区别在于:它并不直接研究经济规律,而是为其他经济学科提供专门的方法和工具。

应当指出,将经济统计学作为经济学下的二级学科,并不会影响该学科所具有的方法论性质举个例子来说,经济计量学中应用了大量数学和统计学方法,它也是方法论性质相当强的学科。经济计量学属于经济学,对此,人们并无异议那么为什么一定要把经济统计学从经济学中分离开来呢?事实上,经济学的进步离不开经济统计学,已经有多位学者由于其在国民经济核算投入产出核算、经济计量分析和将统计方法应用于投资分析等方面的贡献而获得诺贝尔经济学奖经济统计学的发展,也不仅有赖于通用的统计方法的发明和完善,而且更有赖于经济学提供研究的背景和新的研究课题全融合,形成统一的学科?—对经济统计学发展方向的认识。

如前所述,现实中存在着两类不同性质的统计学目前国内统计学界有一种比较流行的说法,认为:两类统计学最终将完全融合,形成统一的学科因此,将统计学划为理学“是与国际接轨的”,“可使统计学真正成为以概率论和数理统计为基础、多领域应用、多学科交叉的横向学科”。对于这种观点笔者不敢苟同。

首先,这一观点只是与国际上的“数理统计学派”接轨,而不是真正的与国际接轨从国际统计学会新修订的章程看,国际统计学会的宗旨是:“在广泛意义上发展和完善统计方法,并在全世界推广应甩”所谓“广泛意义上”的统计方法不仅包括以概率论为基础的数理统计方法,而且包括与概率论并无多大联系的其他统计方法。尽管过去较长一段时期内国际统计学界,数理统计学派占据主流地位但是,社会统计学派仍然存在和发展,并且在一些国家有较大的影响。例如,1997年笔者曾赴日本进行访问和学习据了解,当时,日本文部省资助的有关社会经济统计研究的重点课题有两项:一项是“微观统计信息的开发与应用”,另一项是“亚洲长期经济统计”。其资助金额分别为5亿日元和4亿5千万日元(按当时的汇率,大约相当于人民币4000万元到3500万元)在这两项研究中,数理统计方法的应用只占一小部分,所应用的方法大量是非概率的统计方法顺便提一下,同一时期的日本文部省资助的数理统计方面的课题只有两项,资助强度每项只有300万日元事实上,从80年代以来,国际统计学界已出现了一些新的动向不少原来从事数理统计理论方法研究的学者开始越来越关心实际的应用问题正如一份参加国际学术会议的总结报告所指出的那样,国际上应用统计学的发展趋势是“统计学与数学的关系越来越远,与计算机科学的关系越来越近,与经济学及其他实质性学科的结合越来越密切。一些国际知名的数理统计出身的统计学家甚至提出“统计学与数学离得越远越好”的观点。台湾辅仁大学统计系系主任谢邦昌教授提出:“一个重要的问题是应该淡化统计的理学院色彩,现在统计这个领域愈来愈偏向管理学院和商学院目的就是希望统计在这些领域中和其他学科互相结合。

    国际统计学会下的专业分会,70年代以前只有“国际自然科学统计协会”,后改为“贝努里数理统计和概率学会”。进入70年代,“国际调查统计协会”、“国际统计计算协会”雛成立1985年/‘国际官方统计协会”成立1990年,笔者作为中方的正式代表参加了官方统计协会在北京举行第二届会议,这届会议所提交的相当一部分论文,如关于通货膨胀率的测算总供需的平衡测算等与概率统计都没有紧密的联系,而是官方统计中迫切需要解决的重大问题1987年,原中国统计学会会长、经济学家和社会经济统计学家李成瑞还被选为国际统计学会的副主席(任期1987-1989)从国外一些主要学科分类目录看,如联合国教科文组织制定的国际文献联合会分类体系、美国科研基金会科学和工程研究资助大纲、日本大学学科分类目录、日本文部省学术国际局研究课题分类等,都将社会经济领域的应用统计列为社会科学,而不是理子所有这些都说明,“只有数理统计才是统计”已经不再是国际学术界的主流观点因此,不能认为将统计学划归理学就是“与国际接轨”。

其次,两类统计学都是统计科学大家族的成员,可以相互借鉴、相互促进、相互渗透、共同发展,但两类统计学特别是其中的社会经济统计学与数理统计学的研究对象不同,理论基础不同,知识体系也有相当大的差异,不能互相取代,不可能也没有必要归并成统一的学科。

过去,我国照搬前苏联的理论,认为只有社会经济统计学才是唯一的统计学,而将数理统计学排斥在外,严重妨碍了整个统计科学的发展,经济统计学自身也停留在“初等的统计学方法加简单的指标解释”的水平改革开放以来,不少同志感到:为了推进经济统计学的发展和进步,使之适应社会主义市场经济发展的需要,有必要大力引进和吸收数理统计学的成果所谓“大统计学”的提法,就是在这样一种背景下产生的并且得到了相当部分统计学家的赞成①”笔者认为,“大统计学”的提法,对于促进理论统计学与各种应用统计学的相互借鉴、相互渗遂共同繁荣、共同发展是有益的。但是,如果认为“大统计学”就是要将各类不同性质的统计学完全结合起来,建立一门统一的学科,则很可能从一个极端走到另一个极端。因为,作为统一的学科必然要强调其共性,由于各种统计学横跨社会科学和自然科学领域,与其密切结合的各种实质性学科性质差异很大,其共性只能是它们所利用的具有通用性质的统计方法和作为这些统计方法理论基础的概率论。因此,从某种意义上讲,将所有的统计学都划为理学,是上述“建立统一的统计学科”符合逻辑的结果。而如果统计学是理学,则社会经济统计学的大部分内容如国民经济核算等将很难被包括在“理学”的统计学内。事实上,已经有一些学者提出:国民经济核算等不是统计学而是经济学如果这一观点可以成立,则连国家统计局都要改名。因为官方统计工作的大部分内容,与“理学的”统计学并无太大的关系。在这样一种误导下,进行统计学的学科建设,其结果很可能是名义上的“大统计”,实质上的小统计,即最终异化成“只有数理统计才是统计”。

笔者认为,我国统计学科建设的正确方向是:理论统计学与各类应用统计学继续并存,相互促进、共同发展一方面,理论统计学要结合应用统计研究中提出的需要解决的通用方法论问题,丰富和完善其方法论内容另一方面,应用统计学不仅要吸收和利用理论统计学研究的成果,而且还要与本领域的实质性科学更加紧密结合,着重研究适合本领域的特有的统计方法各类统计学都按其自身的规律发展,最终形成较为松散的“统计学”学科群体,而不是强求一致的统一的一级学科。

就经济统计学而言,今后一段时期需要重点研究的课题有:国民经济核算体系的进步充实和完善;有关地下经济的测算的研究;关于如何准确把握我国失业状况的研究;适合我国国情的统计调查方法体系的研究;可持续发展的统计测定;知识经济的统计测定;统计如何为企业经营决策服务;统计在投资和决策中的应用研究;统计在保险精算中的应用等等。进行这些课题的研究,需要应用通用的统计方法,但更重要的是要密切结合有关经济理论,建立和完善以有关经济现象为对象的特定的统计方法上述课题的相当一部分,都不是“以概率论和数理统计为基础的”、“理学的”统计学所能涵盖、所能指导的。

总之,搞经济统计的同志不要妄自菲薄,不要“东施笑颦”,更不要“邯郸学步”,而应该理直气壮地坚守自己的阵地,要密切结合社会主义市场经济发展需要,将研究适合经济领域特有的统计方法作为自己研究的重点努力促进经济统计学的现代化,并为整个统计科学的发展和进步作出自己应有的贡献。

三、“大统计”还是“大经济”?—对经济统计学专业办学模式的认识

随着我国社会主义市场经济的逐步发展,我国高校原有的专业设置面过窄、专业划分过细、所培养的人才适应面不广等弊端曰益显现。针对这些弊端,不少专家提出了要淡化专业,培养“宽口径”人才。这种提法无疑是正确的。对于统计学专业来说,问题在于要培养什么样的宽口径人才。

对于统计专业的办学方向有两种模式:一是强调各类统计学所具有的共性由于统计学是横跨不同领域具有交叉学科性质的方法论体系任何人毕其一身精力也难以成为精通统计学各领域的人才。因此,这种模式实际上将主要培养学生掌握通用的统计方法和理论它肯定统计学的“理学性质”,按照理学类学科的特点设置课程,概率论和数理统计方法等通用的统计方法论在课程中占有较大份量其培养目标是有良好的数学基础熟练掌握统计学基本理论与各种方法,同时有一定的专门领域的知识,能够适应各个不同领域的统计工作和统计研究的统计人才。二是强调各类统计学的个性,对于经济统计学来说,就是强调其与经济学其他学科的密切联系,按照经济类学科的特点设置课程,除统计学本身的专业课外,经济学类的课程占相当大的份量其培养目标是所谓的“复合型人才”,即具有坚实的经济理论基础、既懂数理统计方法>又懂经济统计方法,并能熟练掌握现代计算手段的经济统计人才。这种人才既是统计人才又是经济管理人才,不仅能胜任基层企业和政府部门的日常统计业务,而且能从事市场调查经济预测、信息分析和其他经济管理工作。前一种办学模式可称为“大统计”模式,后一种办学模式可称为“大经济”模式。从国际上看,总的来说,美国的统计教育比较接近于“大统计”模式,而日本的统计教育比较接近于“大经济”模式。

篇5

生物信息学融合了生物技术、计算机技术、数学和统计学的大量方法,已逐渐成为发现生命过程中所蕴涵知识的一门重要学科。其基本问题主要包括:DNA分析、蛋白质结构分析、分子进化。医学统计学作为医科院校的基础课程之一,长期以来其理论和方法就广泛应用于临床医学、基础医学的各类研究中。随着生物新技术的诞生,在推动生物信息学发展的同时,医学研究对象也由宏观的病人、生物组织拓展到微观的基因领域,所面对的实验数据在性质和结构上也都有所不同,这对医学统计学的应用提出了新的更高的要求。

目前,医学统计学的很多原理和方法已成功地应用于这些新研究之中,并在此基础之上有了新的发展和改进。如概率分布的知识与序列相似性分析、蛋白质分类等技术密切相关;方差分析、非参数检验方法经改进和结合后在基因表达数据的前期分析中发挥了较好的作用;而聚类分析、判别分析、相关分析这些大家所熟知的统计学方法更是在基因分类和调控网络的建立中得到了广泛的应用。在进行医学统计学课堂教学时加入生物信息学方面的应用实例,不仅可以使学员了解本学科研究的前沿和医学、生物信息学研究的新发展,还可以提高学员对于医学统计学理论学习的兴趣,掌握先进的生物实验数据分析方法,提高今后从事医学科研的能力。下面,本文在回顾医学统计学授课主要内容的基础上,就医学和生物信息学中的可能应用举例如下:

一、概率分布

概率分布(probabilitydistribution)是医学统计学中多种统计分析方法的理论基础。授课内容一般包括:二项分布、Possion分布、正态分布、t分布、F分布等。

借助概率分布常常可以帮助我们了解生命指标的特征、医学现象的发生规律等等。例如,临床检验中计量实验室指标的参考值范围就是依据正态分布和t分布的原理计算得到;许多医学试验的“阳性”结果服从二项分布,因此它被广泛用于化学毒性的生物鉴定、样本中某疾病阳性率的区间估计等;而一定人群中诸如遗传缺陷、癌症等发病率很低的非传染性疾病患病数或死亡数的分布,单位面积(或容积)内细菌数的分布等都服从Poisson分布,我们就可以借助Poisson分布的原理定量地对上述现象进行研究。

在生物信息学中概率分布也有一定应用。例如,Poisson分布可以用于基因(蛋白质)序列的相似性分析。被研究者广泛使用的分析工具BLAST(BasicLocalAlignmentSearchTool)能迅速将研究者提交的蛋白质(或DNA)数据与公开数据库进行相似性序列比对。对于序列a和b,BLAST发现的高得分匹配区称为HSPs。而HSP得分超过阈值t的概率P(H(a,b)>t)可以依据Poisson分布的性质计算得到。

二、假设检验

假设检验(hypothesis)是医学统计学中统计推断部分的重要内容。假设检验根据反证法和小概率原理,首先依据资料性质和所需解决的问题,建立检验假设;在假设该检验假设成立的前提下,采用适当的检验方法,根据样本算得相应的检验统计量;最后,依据概率分布的特点和算得的检验统计量的大小来判断是否支持所建立的检验假设,进而推断总体上该假设是否成立。其基本方法包括:u检验、t检验、方差分析(ANOVA)和非参数检验方法。

假设检验为医学研究提供了一种很好的由样本推断总体的方法。例如,随机抽取某市一定年龄段中100名儿童,将其平均身高(样本均数)与该年龄段儿童应有的标准平均身高(总体均数)做u检验,其检验结果可以帮助我们推断出该市该年龄段儿童身高是否与标准身高一致,为了解该市该年龄段儿童的生长发育水平提供参考。又如,医学中常常可以采用t检验、秩和检验比较两种药物的疗效有无差别;用2检验比较不同治疗方法的有效率是否相同等等。

这些假设检验的方法在生物实验资料的分析前期应用较多,但由于研究目的和资料性质不同,一般会对某些方法进行适当调整和结合。

例如,基于基因芯片实验数据寻找差异表达基因的问题。基因芯片(genechip)是近年来实验分子生物学的技术突破之一,它允许研究者在一次实验中获得成千上万条基因在设定实验条件下的表达数据。为了从这海量的数据中寻找有意义的信息,在对基因表达数据进行分析的过程中,找到那些在若干实验组中表达水平有明显差异的基因是比较基础和前期的方法。这些基因常常被称为“差异表达基因”,或者“显著性基因”。如果将不同实验条件下某条基因表达水平的重复测量数据看作一个样本,寻找差异表达基因的问题其实就可以采用假设检验方法加以解决。

如果表达数据服从正态分布,可以采用t-检验(或者方差分析)比较两样本(或多样本)平均表达水平的差异。

但是,由于表达数据很难满足正态性假定,目前常用的方法基于非参数检验的思想,并对其进行了改进。该方法分为两步:首先,选择一个统计量对基因排秩,用秩代替表达值本身;其次,为排秩统计量选择一个判别值,在其之上的值判定为差异显著。常用的排秩统计量有:任一特定基因在重复序列中表达水平M值的均值;考虑到基因在不同序列上变异程度的统计量,其中,s是M的标准差;以及用经验Bayes方法修正后的t-统计量:,修正值a由M的方差s2的均数和标准差估计得到。

三、一些高级统计方法在基因研究中的应用

(一)聚类分析

聚类分析(clusteringanalysis)是按照“物以类聚”的原则,根据聚类对象的某些性质与特征,运用统计分析的方法,将聚类对象比较相似或相近的归并为同一类。使得各类内的差异相对较小,类与类间的差异相对较大1。聚类分析作为一种探索性的统计分析方法,其基本内容包括:相似性度量方法、系统聚类法(HierarchicalClustering)、K-means聚类法、SOM方法等。

聚类分析可以帮助我们解决医学中诸如:人的体型分类,某种疾病从发生、发展到治愈不同阶段的划分,青少年生长发育分期的确定等问题。

近年来随着基因表达谱数据的不断积累,聚类分析已成为发掘基因信息的有效工具。在基因表达研究中,一项主要的任务是从基因表达数据中识别出基因的共同表达模式,由此将基因分成不同的种类,以便更为深入地了解其生物功能及关联性。这种探索完全未知的数据特征的方法就是聚类分析,生物信息学中又称为无监督的分析(UnsupervisedAnalysis)。常用方法是利用基因表达数据对基因(样本)进行聚类,将具有相同表达模式的基因(样本)聚为一类,根据聚类结果通过已知基因(样本)的功能去认识那些未知功能的基因。对于基因表达数据而言,系统聚类法易于使用、应用广泛,其结果——系统树图能提供一个可视化的数据结构,直观具体,便于理解。而在几种相似性的计算方法中,平均联接法(AverageLinkageClustering)一般能给出较为合理的聚类结果2。

(二)判别分析

判别分析(discriminantanalysis)是根据观测到的某些指标的数据对所研究的对象建立判别函数,并进行分类的一种多元统计分析方法。它与聚类分析都是研究分类问题,所不同的是判别分析是在已知分类的前提下,判定观察对象的归属3。其基本方法包括:Fisher线性判别(FLD)、最邻近分类法(k-NearestNeighborClassifiers)、分类树算法(ClassificationTreeAlgorithm),人工神经网络(ANNs)和支持向量机(SVMs)。

判别分析常用于临床辅助鉴别诊断,计量诊断学就是以判别分析为主要基础迅速发展起来的一门科学。如临床医生根据患者的主诉、体征及检查结果作出诊断;根据各种症状的严重程度预测病人的预后或进行某些治疗方法的疗效评估;以及流行病学中某些疾病的早期预报,环境污染程度的坚定及环保措施、劳保措施的效果评估等。

在生物信息学针对基因的研究工作中,由于借助了精确的生物实验,研究者通常能得到基因(样本)的准确分类,如,基因的功能类、样本归结于疾病(正常)状态等等。当利用了这些分类信息时,就可以采用判别分析的方法对基因进行分类,生物信息学中又称为有监督的分析(SupervisedAnalysis)。例如,基因表达数据分析中,对于已经过滤的基因,前三种方法的应用较为简单。而支持向量机(SVMs)和人工神经网络(ANNs)是两种较新,但很有应用前景的方法。

(三)相关分析

相关分析(correlationanalysis)是医学统计学中研究两变量间关系的重要方法。它借助相关系数来衡量两变量之间的关系是否存在、关系的强弱,以及相互影响的方向。其基本内容包括:线性相关系数、秩相关系数、相关系数的检验、典型相关分析等。

我们常常可以借助相关分析判断研究者所感兴趣的两个医学现象之间是否存在联系。例如,采用秩相关分析我们发现某种食物中黄曲霉毒素相对含量与肝癌死亡率间存在正相关关系;采用线性相关方法发现中年女性体重与血压之间具有非常密切的正相关关系等等。

生物信息学中可以利用相关分析建立基因调控网络。如果将两个不同的基因在不同实验条件下的表达看作是两个变量,相关分析所研究的正是两者之间的调控关系。如采用线性相关系数进行两基因关系的分析时,其大小反应了基因调控关系的强弱,符号则反应了两基因是协同关系(相关系数为正),还是抑制关系(相关系数为负)。

篇6

从上世纪90年代以来,我国统计学界围绕“大统计学”学科建设展开了一系列的讨论和研究,极大推动了统计学科的建设和发展。但从其提出的初衷分析,“大统计学”主要还是一种思想认识方法,是对长期存在的“小统计”思想的否定与完善。“小统计”思想以社会经济统计为主流,认为社会经济统计属于经济学的分支,数理统计学属于数学的分支,实质就是主张社会经济统计与数理统计分立。“大统计学”思想强调“收集和分析数据”这一统计学的共性与规律,认为统计学的各分支学科都是研究不同方面、不同应用领域的统计方法的科学,研究对象、目的和方法的不同不是也不可能成为分割统计学学科的依据。虽然“大统计学”思想还没有将统计信息学或数量信息学纳入到统计学的研究范畴,但在其认识方法上,主张统计学各分支学科互相融通又相对独立发展的思维路径是值得肯定的。提出“大统计学”的落脚点在于弥合发展方向差异。我国统计理论界长期存在以学科发展差异取代学科性质的惯性思维。主要表现在:

一是认为统计学是一门独立的社会科学。可以分为两类,一种社会经济统计学,它是关于搜集、整理和分析社会经济现象的数量资料和方法论的社会科学;另一种是实质性的社会科学,目的是要找到社会经济现象的发展规律在具体的时间、地点和条件下的具体数量表现。

二是认为统计学就是数理统计学,它以数学分支学科———概率论为理论基础,目的在于研究随机现象总体数量信息。

三是承袭英美学派的主要观点,认为统计学是一门研究社会现象和自然现象的方法论的通用科学。统计学界出现对统计学学科性质定位的混乱,主要是只关注于学科发展的差异,混淆了学科性质与学科发展的问题,将学科性质的普适性与学科发展的差异性等同起来,割裂了学科认识的整体性与学科发展的变动性的对立统一关系。

因此,在统计学学科发展差异的把握上,可以允许把社会经济统计学作为研究社会经济现象总体数量信息的方法论科学,把数理统计学作为研究随机现象总体数量信息的方法论科学,进而将统计学表述为研究的各种统计方法既能解决自然科学中的问题,也能解决社会经济中的问题,属于社会科学和自然科学的边缘科学。这也是“大统计学”思想对弥合统计学发展方向差异的功能所在。综上所述,统计学作为一级学科,不从属于经济学,也不从属于数学或生物学。统计学的研究范围广泛存在于社会经济现象和自然技术现象等领域。以前,我国曾照搬前苏联的理论,认为只有社会经济统计学才是唯一的统计学,将数理统计学作为数学排除在统计学之外。近年来,又有一些学者照搬西方数理统计学派的观点,欲将国民经济核算等作为经济学排除在统计学之外。

虽然不同的分类方法和分类结果,增加了统计学的学科归属的难度,但是统计学研究内容的广延性、研究方法的多样性、研究问题的复杂性都是建立在“大统计学”研究对象特点的共性基础之上的,统计学的本质是围绕总体数量信息这一核心问题而展开的,它是对现有统计学研究领域的综合和系统化。

二、我国统计学发展的新任务

建立与社会主义市场经济体制相匹配的统计学学科,是改变我国统计学弱势学科地位的需要,更是统计学发展面临的新任务。当务之急要从统计学研究对象的统一、学科体系的综合、研究方法的完善等方面加大学科建设与发展的力度。

篇7

[中图分类号] G642 [文献标识码] A [文章编号] 2095-3437(2017)03-0066-03

统计学是生物学领域进行科学研究不可或缺的工具,目前大多数高校已把生物统计学列为生物学相关专业的必修课。通过该课程的学习,有利于培养学生正确分析试验数据的能力,对于进一步学习专业课程和日后进行科研也有着非常重要的作用。近年来,统计分析软件的应用越来越普及,应用统计软件来辅助生物统计学的理论教学变得尤为重要。[1][2]

Excel作为常用办公软件,除具备较强的图表和计算功能外,还提供了大量的统计函数和数据分析工具。利用Excel的统计功能,可快速、简便地进行描述性统计、t检验、方差分析、回归、相关等多种统计分析,从而为生物统计学的教学提供了极大便利,强化了教学效果。Excel的统计功能虽不如SPSS、SAS等专业统计软件强大,但具有易学易用的优势,适用于统计学的初学者,可基本满足本科生的教学需要。[3][4]

一、Excel统计函数简介

(一)统计函数的插入

Excel软件提供了丰富的数学和统计函数,将这些函数结合起来应用,可显示出Excel的统计分析功能。[3][4]在Excel 2003菜单中的“插入”项,选择“函数”。或在2007及以上版本中,在“公式”菜单项选“插入函数”命令,之后在“选择类别”栏选择“统计”,即显示大量统计函数。

(二)常用统计函数介绍

1.统计学参数或特征数的计算

数据的标准差、平均数等特征数均可由统计函数计算得到。反映集中性的函数包括AVERAGE(均值)、GEOMEAN(几何平均数)、HARMEAN(调和平均数)、MEDIAN(中位数)等;反映离散性的函数有:DEVSQ(离差平方和)、STDEV(样本标准差)、VAR(样本方差)、KURT(峰度系担┑取

2.数据分类

FREQUENCY函数可对大量数据进行分类和统计,表达式为:FREQUENCY(Data array,Bins array)。该函数为数组公式形式,运行显示出一个分组的频数后,还需选中所有结果的显示区域,按F2键,再按“Ctrl+Shift+En?鄄ter”组合键,方可求出所有分组的频数。[5]FREQUENCY的操作步骤因分类资料的性状而有所差异。A. 质量性状资料:在函数对话框中,“Data array”一栏输入分类数据所在的单元格地址,“Bins array”一栏输入分类标志值所在单元格。B. 数量性状资料:确定好分类的组数、组距和组限后,将各组的上限按升序输入工作表,在“Data array”和“Bins array”分别输入相应的单元格地址。

例:现有350名学生的英语成绩,需按优秀、良好、一般和不及格进行分类,并统计各等级人数。考试成绩为数量性状资料,首先按升序将各组上限按升序输入工作表(60、74、90)形成一列,插入FREQUENCY函数,在“Data array”输入成绩所在单元格区域,在“Bins array”输入各上限所在的单元格区域,确认后即可计算出不及格的人数(

3.概率函数

概率函数可直接计算出给定参数条件下各理论分布的概率值(P)。[6]常用函数有BINOMDIST(二项分布)、POISSON(泊松分布)、NORMDIST(正态分布)、NORMSDIST(标准正态分布)、TDIST(t分布),FDIST(F分布)等。

例如,BINOMDIST函数的功能为计算给定参数条件下二项分布的概率值。函数表达式:BINOMDIST(number_s,trials,probability_s,cumulative),其中num?鄄ber_s为试验成功的次数,trials为独立试验的次数,prob?鄄ability_s为试验成功的概率;cumulative为一逻辑值,用于确定函数的形式,取值为1和0。Cumulative如果取1,结果显示至多n次成功的概率;如为0,则返回恰好为n次成功的概率。

4.t 检验

TTEST函数功能为返回t检验的概率,以此来判断假设检验的显著性。函数表达式:TTEST(array1,array2,tails,type),其中array1为第一组数据所在的单元格区域,array2为第二组数据的区域,tails为分布曲线的尾数(双尾或单尾),type表示t检验的类型。函数运行后得到t检验的概率值(P),如P

5.相关和回归系数计算

CORREL函数功能为计算两变量间的相关系数,以此来判断两变量间的相关程度和性质,表达式为COR?鄄REL(array1,array2),array1和array2代表进行相关分析的两组数据。利用INTERCEPT和SLOPE两函数可计算线性回归系数,函数表达式分别为INTERCEPT(known_x′?鄄s,known_y′s),SLOPE(known_x′s,known_y′s),其中known_x′s、known_y′s为自变量和因变量的数据集合。INTERCEPT函数可计算线性回归的截距(a),SLOPE函数可计算线性回归的斜率(b),从而得到线性回归方程:=a+bx。

二、数据分析工具的应用

(一)分析工具库加载

Excel的分析工具库具有较强的统计分析功能,但此功能通常未默认安装,需加载后使用。

1.在Excel 2003中,在“工具”菜单中单击“加载宏”,在弹出对话框中选中“分析工具库”即可,之后“工具”菜单中即出现“数据分析”条目。

2.在Excel 2007或更高版本中,单击左上角的“Office按钮”,选择“Excel 选项”,在弹出对话框中单击“加载项”,然后在“管理”栏中选择“Excel加载项”,单击“转到”,最后在“加载宏”窗口中选中“分析工具库”,之后在“数据”菜单中即出现“数据分析”条目。

(二)常用统计方法介绍

分析工具库包括描述性统计、t检验、方差分析、回归、相关、F检验等多种统计方法。[3][5]每次使用时,按照各统计方法的格式要求输入原始数据,单击“数据分析”选项,在弹出对话框中选择所需统计方法即可。

1.数据分类

将各组的分类标志值(质量性状资料)或上限值(数量性状资料)输入工作表,在“数据分析”中选择“直方图”;弹出对话框后,在“输入区域”选择分类数据的单元格地址,“接收区域”选择分类标志所在的单元格,运行即可。

2.描述统计

输入数据资料,在“数据分析”中选择“描述统计”,运行后即可得到最小值、最大值、平均数、标准差、方差、峰度、偏度等常用统计量。

3.t检验

t检验包括平均值的成对二样本分析,双样本等方差假设,双样本异方差假设检验。如进行平均值的成对二样本分析,弹出对话框后,分别在“变量1区域”、“变量2区域”输入两组数据所在的单元格地址,之后在“输出区域”选择某空白区域,确定即可。运行结果包括平均数、t值、df、单尾和双尾概率(P)、临界t值等信息。若P

如进行成组设计的两样本均值检验,需先进行F检验:双样本等方差假设,判断两样本所在总体方差是否同质。步骤:分别在变量1、变量2输出区域选择相应单元格区域,运行结果包括方差、F值、单尾概率(P)、临界F值等。如P

4.方差分析

方差分析包括单因素、无重复双因素、有重复双因素三种类型。如进行单因素方差分析,弹出对话框中,在输入区域、分组方式、输出区域分别输入相应信息后,单击“确定”即可。输出结果包括平方和(SS)、df(自由度)、MS(均方)、F值、F crit(F临界值)、P值等信息(表1)。如P>0.05(或F

5.回归与相关分析

线性回归分析:在“数据分析” 菜单选择“回归”, 在弹出对话框中输入Y值、X值、置信度、输出区域等信息后,运行即可得到回归截距(Intercept,a)和回归系数(b)(表2),从而写出回归方程。根据回归系数的t检验结果或方差分析的F检验结果,可判断两个变量间的线性回归关系是否有效。[7]由表2可知,a(Intercept)=-1.382,b=5.503,回归方程为:=5.503x-1.382。由回归系数的t检验可知,P=0.00004

三、结语

Excel软件提供的统计功能基本涵盖了统计学的教学内容,且对于生物统计学的初学者而言,具有易学易用的优势,可作为本科教学的有效辅助工具。在每章理论知识讲解完毕,应紧接着介绍Excel的统计功能、操作步骤和结果解释,把课程理论教学、实际案例分析和软件应用有机结合,可取得较好的教学效果。教学实践表明,运用Excel的统计功能来辅助理论教学,不仅能够加深学生对统计学原理的理解,还可以提高学生运用理论知识来分析数据的能力,从而使得生物统计学的学习变得轻松。在今后的生物统计学教学实践中,应紧密加强Excel软件应用与理论教学的融合,并考虑将 SPSS等专业软件逐步引入教学中,以期进一步提升学生分析处理复杂数据、解决实际问题的能力。

[ 参 考 文 献 ]

[1] 张丹,吕海燕,张幸果,等.应用Excel软件有效提高《生物统计学》课程的教学效果[J].河北农业科学,2012(8):93-95,99.

[2] 魏兴民,任真,代婷.Excel在中医药统计学教学中的应用[J].高等数学研究,2013(1):93-95.

[3] 张联锋,蒋敏杰,张鹏龙,等.Excel统计分析与应用[M].北京:电子工业出版社,2011.

[4] 杨景峰.EXCEL的计算功能在生物统计学教学中的应用[J].内蒙古民族大学学报(自然科学),2012(6):738-741.

篇8

关键词 :统计学 研究对象 研究方法

一、统计学的定义

人们的印象里,统计学就是对数据进行简单的运算,然后通过图表、表格把它们表示出来,这是长久以来人们对统计学的一些片面认识。统计学的定义有很多种,每种定义对统计学阐述的侧重点不同。其中维基百科是这样定义统计学的:“统计学是研究如何测定、收集、整理、归纳和分析反映客观现象总体数量的数据,以便给出正确认识的方法论科学,被广泛的应用在各门学科之上,从自然科学和社会科学到人文科学,甚至被用来工商业及政府的情报决策之上”。简单来说,统计学就是数据的科学,是一门收集、整理、分析、解释数据并从数据中得出结论的科学。

二、统计学的研究对象及其特点

统计学研究必须要求明确统计学研究的客体是什么,即统计学的研究对象。统计学中某种性质相同的个体所组成的集合叫总体。统计学就是研究客观总体的数量特征、数量关系和变动规律,或者说统计学是研究统计过程的规律和方法以及客观现象统计规律的科学,它的研究对象既涉及到自然科学领域,又涉及到社会科学领域。统计学研究对象的特点有以下几点:

(1)依赖性。依赖性即统计学研究对象的寄生性,依赖性是统计学独有的特点,统计学研究的数据是来自各领域的,是依靠解决其他领域的问题而存在和发展的。统计学现在已经发展成为一门媒介科学,它研究的对象是其他学科的逻辑和方法论。

(2)数量性。数量性即统计学研究对象是通过数量特征和数量关系表示的。数量性是统计学研究对象的基本特征,因为数字是统计的语言,统计是通过数量方面来认识事物的,对统计数据进行分析,归纳统计规律性,就可以达到统计分析研究的目的。

(3)总体性。总体性即统计学以研究对象总体的数量为研究对象。每一个个体都有自身的随机性,而这些研究对象的总体又具有共同的特征和共同趋势,所以统计学研究是通过对大量的个体特征进行研究,从而过渡到对总体普遍存在的事实进行观察和综合分析,进而得出研究对象总体的数量特征和统计规律。只有掌握研究对象的总水平、总规模、总体特征和共同趋势才能体现统计学规律的作用。

(4)变异性。变异性即构成统计学研究对象总体中的各个个体,除了在某一方面必须是同质的以外,在其他方面又要表现出一定的差异和变异。如果各个个体之间没有区别和差异,统计研究就是没有意义的。统计学的这种变异既可以表现为数量上的,也可以表现为非数量上的,但是因为统计学具有数量性,所以表现为数量上的变异才是统计学所要研究的对象。

(5)具体性。具体性即统计学研究对象是具体的数量方面。统计学所研究的数量是具体、现实的,而不是抽象的,并且统计学研究的数量是有现实意义的。比如,要研究城乡居民收入差距,必须确定具体年份的具体范围内的城镇和农村居民收入数量、收入构成、收入变化以及计算方法,才能对研究对象进行统计分析。

(6)广泛性。广泛性即统计学研究数量方面的范围的很广泛。其广泛性包括政治、经济、文化、军事、教育等各类社会现象的数量方面。统计学研究对象的广泛性是统计学成为媒介学科的必要特征。

三、统计学的研究方法

每个学科都有自己独特的研究方法,统计学也不例外,统计学在长期实践中总结、归纳出了一系列专门的研究方法,如实验法、大量观察法、统计分组法、综合指标法、统计描述法等。

(1)实验法。统计学的实验法包括假设检验和实验设计。假设检验就是在对在总体参数提出假设的基础上,利用样本信息来判断假设是否成立的统计方法。实验设计就是设计合理的实验程序,使得收集得到的数据符合统计分析方法的要求,以便得出有效的客观的结论,其中最常用的实验设计是正交设计法。

(2)大量观察法。大量观察法就是对全部或者足够数量的研究现象进行观察和研究,推理归纳出客观现象的本质特征和发展变化规律。通过对大量的研究对象进行观察和研究,才能排除偶然因素造成的影响,揭示研究对象的统计规律和本质特征。

(3)统计分组法。由于所研究现象具有差异性、复杂性及多样性,需要我们对研究现象进行分组研究,进而来区别研究现象的类型,研究不同组别之间的区别和联系。统计分组法包括传统分组法、聚类分析法和判别分析法等。

(4)综合指标法。综合指标法是利用总量指标、平均指标、相对指标、标志变异指标等对研究现象的数量关系和数量特征进行分析,来反映统计学研究现象的数量方面特征。综合指标法在统计学的经济应用中具有重要的作用。

(5)统计描述和统计推断。统计描述指对调查或实验得到的统计数据进行整理、分类、计算出各种能反映总体数量特征的综合指标,并加以分析研究,从而得出有价值的信息,用表格和图形表示出来。统计推断指以一定的置信水平,根据样本数据资料来判断总体数量特征的归纳推理方法。统计描述和统计推断在统计学研究中应用非常广泛。

四、统计学的发展趋势

(1)统计学实际应用的范围扩大。在大数据时代的背景下,统计学开始被各行各业运用起来。统计学逐渐应用到企业管理、保险金融、政府决策、国家经济安全等方面。统计学在企业管理方面可以提高企业的管理能力和效率。在保险金融方面可以监控分析金融风险和保险问题来保证金融保险市场的正常运行。在政府决策方面可以帮助政府宏观调控,从而减少决策失误。在国家经济安全方面可以监控经济安全问题,预防经济危机。

(2)统计学与其他学科交叉融合。统计学的性质决定了统计学是一门媒介学科,统计学的发展是建立在各类学科的基础上的,其涉及领域非常广泛。因此,统计学与其他学科交叉融合更能发挥它的作用,例如,统计学与经济学、管理学等学科进行融合等,在融合中能不断完善统计学体系,创新统计学研究方法。

(3)统计学与网络、计算机的结合。大数据时代的到来,使得以网络、计算机为代表的信息科技在统计理论、统计分析方法、统计处理过程等方面都为统计学发展提供了新的支持。统计与网络和计算机的结合,能更好发挥统计的作用,使统计学的应用更加广泛。

篇9

二、统计学的研究对象及其特点

统计学研究必须要求明确统计学研究的客体是什么,即统计学的研究对象。统计学中某种性质相同的个体所组成的集合叫总体。统计学就是研究客观总体的数量特征、数量关系和变动规律,或者说统计学是研究统计过程的规律和方法以及客观现象统计规律的科学,它的研究对象既涉及到自然科学领域,又涉及到社会科学领域。统计学研究对象的特点有以下几点:

(1)依赖性。

依赖性即统计学研究对象的寄生性,依赖性是统计学独有的特点,统计学研究的数据是来自各领域的,是依靠解决其他领域的问题而存在和发展的。统计学现在已经发展成为一门媒介科学,它研究的对象是其他学科的逻辑和方法论。

(2)数量性。

数量性即统计学研究对象是通过数量特征和数量关系表示的。数量性是统计学研究对象的基本特征,因为数字是统计的语言,统计是通过数量方面来认识事物的,对统计数据进行分析,归纳统计规律性,就可以达到统计分析研究的目的。

(3)总体性。

总体性即统计学以研究对象总体的数量为研究对象。每一个个体都有自身的随机性,而这些研究对象的总体又具有共同的特征和共同趋势,所以统计学研究是通过对大量的个体特征进行研究,从而过渡到对总体普遍存在的事实进行观察和综合分析,进而得出研究对象总体的数量特征和统计规律。只有掌握研究对象的总水平、总规模、总体特征和共同趋势才能体现统计学规律的作用。

(4)变异性。

变异性即构成统计学研究对象总体中的各个个体,除了在某一方面必须是同质的以外,在其他方面又要表现出一定的差异和变异。如果各个个体之间没有区别和差异,统计研究就是没有意义的。统计学的这种变异既可以表现为数量上的,也可以表现为非数量上的,但是因为统计学具有数量性,所以表现为数量上的变异才是统计学所要研究的对象。

(5)具体性。

具体性即统计学研究对象是具体的数量方面。统计学所研究的数量是具体、现实的,而不是抽象的,并且统计学研究的数量是有现实意义的。比如,要研究城乡居民收入差距,必须确定具体年份的具体范围内的城镇和农村居民收入数量、收入构成、收入变化以及计算方法,才能对研究对象进行统计分析。(6)广泛性。广泛性即统计学研究数量方面的范围的很广泛。其广泛性包括政治、经济、文化、军事、教育等各类社会现象的数量方面。统计学研究对象的广泛性是统计学成为媒介学科的必要特征。

三、统计学的研究方法

每个学科都有自己独特的研究方法,统计学也不例外,统计学在长期实践中总结、归纳出了一系列专门的研究方法,如实验法、大量观察法、统计分组法、综合指标法、统计描述法等。

(1)实验法。

统计学的实验法包括假设检验和实验设计。假设检验就是在对在总体参数提出假设的基础上,利用样本信息来判断假设是否成立的统计方法。实验设计就是设计合理的实验程序,使得收集得到的数据符合统计分析方法的要求,以便得出有效的客观的结论,其中最常用的实验设计是正交设计法。

(2)大量观察法。

大量观察法就是对全部或者足够数量的研究现象进行观察和研究,推理归纳出客观现象的本质特征和发展变化规律。通过对大量的研究对象进行观察和研究,才能排除偶然因素造成的影响,揭示研究对象的统计规律和本质特征。

(3)统计分组法。

由于所研究现象具有差异性、复杂性及多样性,需要我们对研究现象进行分组研究,进而来区别研究现象的类型,研究不同组别之间的区别和联系。统计分组法包括传统分组法、聚类分析法和判别分析法等。

(4)综合指标法。

综合指标法是利用总量指标、平均指标、相对指标、标志变异指标等对研究现象的数量关系和数量特征进行分析,来反映统计学研究现象的数量方面特征。综合指标法在统计学的经济应用中具有重要的作用。

(5)统计描述和统计推断。

统计描述指对调查或实验得到的统计数据进行整理、分类、计算出各种能反映总体数量特征的综合指标,并加以分析研究,从而得出有价值的信息,用表格和图形表示出来。统计推断指以一定的置信水平,根据样本数据资料来判断总体数量特征的归纳推理方法。统计描述和统计推断在统计学研究中应用非常广泛。

四、统计学的发展趋势

(1)统计学实际应用的范围扩大。

在大数据时代的背景下,统计学开始被各行各业运用起来。统计学逐渐应用到企业管理、保险金融、政府决策、国家经济安全等方面。统计学在企业管理方面可以提高企业的管理能力和效率。在保险金融方面可以监控分析金融风险和保险问题来保证金融保险市场的正常运行。在政府决策方面可以帮助政府宏观调控,从而减少决策失误。在国家经济安全方面可以监控经济安全问题,预防经济危机。

(2)统计学与其他学科交叉融合。

统计学的性质决定了统计学是一门媒介学科,统计学的发展是建立在各类学科的基础上的,其涉及领域非常广泛。因此,统计学与其他学科交叉融合更能发挥它的作用,例如,统计学与经济学、管理学等学科进行融合等,在融合中能不断完善统计学体系,创新统计学研究方法。

篇10

一、硕士研究生医学统计学教学中存在的问题

1.医学研究生知识结构存在缺陷。医学统计学是应用概率论和数理统计学的原理、方法,研究医学信息的搜集、整理与分本文由收集整理析方法的学科,是统计学的重要分支之一,其理论基础较为抽象、深奥。而在我国传统的医学教育中,大多数医学专业开设的高等数学课程学时有限,教学内容缺乏深度和广度,加之不同院校、专业本科教育阶段医学统计学教学参差不齐,使得进入研究生教育阶段的医学生面对抽象的统计学理论、复杂的统计学计算感到无所适从。尤其是多元统计分析方法教学的逐步开展,更是加重了学生的学习负担。学生普遍认为统计学枯燥、抽象、难懂,导致自信心不足,极大影响了学习积极性,使得医学统计学教学效果很难令人满意。

2.传统医学统计学教学重点难以突出。医学统计学教学目标是使学生掌握医学统计学的基本概念、基本方法和基本技能;掌握科学研究的统计设计原则和思维方法,并培养学生收集、整理和分析资料的能力。因此,医学统计学教学重点应该是统计学理论和方法的用途、统计学处理结果的正确分析及科学逻辑思维能力的培养等。而目前医学统计学理论课教学内容陈旧、手段滞后,教学方法单一,多局限于单个统计学方法的介绍和典型实例的验证,主要教学内容突出体现在公式意义、计算过程等内容的讲解,对统计学方法体系缺乏系统性的认识,使学生错误地认为医学统计学就是数学、就是计算,从而将主要精力放在了统计公式的记忆、结果的精确计算等方面,忽略了统计方法选择、结果解释与评价等统计学的核心内容。

二、spss统计软件的优势

spss全称为statistical package for social sciences,即社会科学统计软件包,是目前世界上最具权威的统计软件包之一,在自然、社会科学各个研究领域均得到广泛应用,在统计学理论及实践教学中拥有明显的优势。

1.软件操作方式简便。spss统计软件包采用菜单加对话框的操作方式,多数情况下无需使用专用的程序语言,界面设置较为人性化,只需通过鼠标点击即可完成统计分析,更易被非专业人员掌握。其结果输出形式简洁,可读性强,能够通过激活文本、统计图、统计表等编辑器进行编辑,也可直接导出至word、powerpoint等办公软件系统使用。

2.数据处理功能强大。spss统计软件包可以直接读取spss、excel、dbase、ascii、access、foxpro、sas等数据文件;能够对数据进行名称、类型、结构等修改,变量变换方式全面;可以合并不同数据库生成新的数据文件;数据库保存、导出形式多样。软件处理数据量大,可以满足各种科研、教学数据分析的需要,并能最大限度实现数据共享。

3.统计分析方法全面。spss统计软件包通过不断的版本升级,增加新的统计分析模块,完善统计分析功能。目前,spss除具有描述性统计、单变量分析、非参数检验、统计图形绘制与编辑等常规统计学分析功能外,还拥有多元相关与回归、logistic回归、聚类分析、

因子分析、判别分析、主成分分析、生存分析、分类树、时间序列分析等完善的多因素统计分析功能,上述功能均可通过菜单实现。对于如条件logistic回归分析等部分菜单中未提供的统计功能,则可以利用简单的编程予以实现,进一步增强了软件的适用性,使spss软件在日常工作中的应用更加灵活高效。

三、spss软件融入传统医学统计学教学体会

1.多媒体教学的普及为spss软件进入医学统计学课堂提供了硬件支持。多媒体辅助教学是依靠各种现代化的媒体设备,使传统静态的理论课教学形式动态化,极大地提高了课堂上信息的占有量,能够充分利用有限的授课时间拓展学生的知识面,激发学习兴趣,提高学习效率。在医学统计学理论课教学实践中,多媒体技术的广泛应用为统计软件教学提供了技术平台,使得在教学过程中通过建立链接灵活调用统计软件参与数据分析,使现代化的计算分析工具与传统的统计理论教学有机地结合起来,使学生明白统计理论及方法如何在专业领域中应用,提高了学生解决问题的能力。

篇11

1 什么是统计学

问:一般认为,统计学这个词来源于拉丁语的国情学,原是国家管理人员感兴趣的事情。《大不列颠百科全书》对统计学下的定义是:“统计学是关于收集和分析数据的科学和艺术。”陈希孺院士认为:“统计学是有关收集和分析带有随机性误差的数据的科学和艺术。”

史宁中教授,作为统计学家,您是如何认识统计学的?

史教授:我们先来简单地回顾统计学的历史是有益处的。正如拉丁语所说,统计原本就是收集和分析国家管理中需要的各种数据,比如国民收入、各种税收。为了直观,人们才发明了各种报表、直方图、扇形图,等等。可以看到,这种传统意义上的统计学现在仍然是非常重要的,这也是我们现在小学统计教学中的主要内容之一。后来到了14世纪左右,随着航海业在欧洲兴起,航海保险业开始出现。为了合理地确定保险金与赔偿金,需要了解不同季节、不同路线航海出现事故的可能性大小,需要收集相关的数据,根据数据进行分析和判断,这被称为近代统计学的发端。到了19世纪末20世纪初,人们把数学、特别是概率论的有关知识引入到统计学,构建了统计学的基础。与古典统计学相比,虽然二者都是对数据的收集和分析,但却有本质的不同,因为后者进行分析的基础是“不确定性”,我们称之为“随机”。

到了现代,人们发现,对于大量数据的分析,采用随机的方法不仅方便而且准确。比如,对于国民收入,我们可以动用大量的人力来收集数据,但是谁都知道这样的数据不可能是准确的,远不如我们依据某种原则规划分出地区和人群,然后抽样、加权求和准确。再比如,对于股票市场,一天交易之后,可以得到精确的交易总量,但是人们宁可用部分核心企业的股票交易量来反映股票的变化,这便是“恒生指数”“上证指数”,等等。特别是到了2l世纪,银行、保险、电信,以及材料科学、基因组学等新兴学科的实验中涉及大量数据,其分析更需要借助随机方法了。我想,大概就是因为这些原因,国家才决定在现在中小学数学的教学中加入统计学的内容。

因此,你们谈到的关于统计学的定义都是可以的。但是,要把握统计学的根本思想方法却是非常困难的。

问:那么,您认为统计学的基本思想方法是什么呢?

史教授:这是一个不容易回答的问题。对于统计学的掌握很大程度上依赖于感悟,需要比较长的时间的理解与实践。我们先来回顾一下中小学传统数学的教学内容。这些内容主要是对日常生活中见到的图形和数量的抽象,研究的问题是图形的变化和计算法则,研究的基础是定义和假设,研究的方法主要是归纳、递归、类比和演绎推理。

统计学则不同。如我上面谈到的,统计学是通过数据来进行分析和推断的。因此,统计研究的基础是数据。这些数据的特点是,对于每一个数据而言,都具有不确定性,我们需要抽取一定数量的数据,才能从中获取信息。因此,统计学的研究依赖于对数的感悟,甚至是对一堆看似杂乱无章的数的感悟。通过对数据的归纳整理、分析判断,可以发现其中隐藏的规律。因为可以用各种方法对数据进行归纳整理、分析判断,所以,得到的结论也可能是不同的。而且,我们很难说哪一种方法是对的,哪一种方法是错的,我们只能说,能够更客观地反映实际背景的方法要更好一些。比如,我们希望知道某公司员工的收入情况,可以用平均数也可以用中位数,很难说哪个方法错。事实上,如果收入比较均衡,用平均数要好一些;如果收入比较极端,用中位数要好一些。当然,最好的方法是对收入。情况进行分类,但是分类的方法又有好坏之分。我们可以看到,统计学关心更多的是好与不好,而中小学传统数学关心更多的是对与错。

因此,统计学的基本思路是,根据所关心的问题寻求最好的方法,对数据进行分析和判断,得到必要的信息去解释实际背景。

2 统计学的研究对象

问:我们对于统计学有了一定的了解。从您的谈话中我们感觉到,统计学似乎是包罗―万象的。那么,统计学到底是研究什么呢?

史教授:是这样的,统计学的应用面非常广,凡是涉及数据分析的都可以成为统计学的研究领域。特别是到了近代,人们希望更加精细地了解实际背景,更多地借助数据分析,甚至人文科学也是如此,并且逐渐形成了专业的研究领域,比如计量经济学、计量社会学、计量教育学、计量心理学,等等。这些研究领域分析方法的基础大体是统计学。统计学并不研究某一个领域的具体内容,在本质上只是研究数据分析的方法,这包括创新的方法,也包括分析方法的好坏、分析方法的适用条件。

问:您能否结合中小学统计的内容谈得更具体一些?特别是在统计教学过程中,应当把握的基本原则是什么呢?

史教授:可以在统计研究中首先遇到的问题是如何获取“好”的数据。所谓“好”的数据,是指那些能够更加客观地反映实际背景的数据,而要获取好的数据要依赖于“好”的方法。根据数据的不同,方法主要分两大类,一是通过调查收集数据,二是通过实验制造数据-中小学统计教学中涉及的主要是前者,称为抽样调查(而后者通常被称为实验设计)_抽样调查又包含两个方面,一个是对已经存在的数据的收集,称之为抽样,比如市场的物价、学生的身高、企业的产值,等等;另一个是需要我们了解才能够获取的,称之为调查,比如美国总统的民意支持率、人们日常消费的主要项目、中小学生喜欢的歌手,等等。

根据问题的不同,所要采用的方法也可能不同,但是要建立两个基本原则。第一个基本原则是,采用能够获取好的数据的方法。为了获取好的数据,我们需要尽可能多地利用对于实际背景已有的先验知识。比如,希望知道学生的身高,先验知识是“年龄之间差别很大”。因此,最好是根据年龄段学生数的多少按比例抽取样本,我们称这种方法为分层抽样。可以看到,统计方法的直观想法是很明显的。如果对于实际背景一无所知,那么一定要抽取样本,这便是随机抽样。比如,希望知道学生喜欢的歌手,因为这些学生年龄之间差别可能不大,就可以采取随机抽样。当然也可以用分层抽样,但要麻烦得多。第二个基本原则是,采用简单的方法。能够基于上述两个原则的方法就是一个好方法。我们不要小看第二个原则,一个好的方法往往能够节省很多调查经费。这就是为什么咨询公司非常欢迎统计学家的原因。

问:刚才您提到了样本,许多教师对样本这个概念总是感到费解。

史教授:是的,这个概念很难把握。样本实质上就是数据,但是,统计学中涉及的数据往往是随机性的。还是

回到“学生的身高”这个问题上来。在抽样之前。我们可能并不知道具体数据的大小,这些数据对于我们是随机的。为了讨论出一个好的方法,我们假想能够得到这些数据,并且假想这些数据的出现是依据某种规律的,这种规律就是数据出现的可能性在小,我们称之为概率。比如,高年级学生出现大数据(高个子)的可能性要大于低年级学生,就是说,出现大数据的概率要大。但是,只有当抽样之后我们才能得到真实的数据;才能进行实质的计算与分析。这样,我们所要研究的数据既具有随机性又具有真实性。为了方便起见,我们称这样的数据为样本。

问:根据您的阐述,统计学怎么有一些哲学式的思考呢?

史教授:你们理解到了根本。这是统计学与中小学传统数学的最大区别。传统数学可以根据假设和规定的原则进行计算或者推理,但是统计学往往要问你所采用的方法是不是有道理,是不是还有更为合理的方法。不过,传统数学是统计学不可缺少的工具。

问:是不是因为统计学需要计算呢?

篇12

借助概率分布常常可以帮助我们了解生命指标的特征、医学现象的发生规律等等。例如,临床检验中计量实验室指标的参考值范围就是依据正态分布和t分布的原理计算得到;许多医学试验的“阳性”结果服从二项分布,因此它被广泛用于化学毒性的生物鉴定、样本中某疾病阳性率的区间估计等;而一定人群中诸如遗传缺陷、癌症等发病率很低的非传染性疾病患病数或死亡数的分布,单位面积(或容积)内细菌数的分布等都服从Poisson分布,我们就可以借助Poisson分布的原理定量地对上述现象进行研究。

在生物信息学中概率分布也有一定应用。例如,Poisson分布可以用于基因(蛋白质)序列的相似性分析。被研究者广泛使用的分析工具BLAST(BasicLocalAlignmentSearchTool)能迅速将研究者提交的蛋白质(或DNA)数据与公开数据库进行相似性序列比对。对于序列a和b,BLAST发现的高得分匹配区称为HSPs。而HSP得分超过阈值t的概率P(H(a,b)>t)可以依据Poisson分布的性质计算得到。

二、假设检验

假设检验(hypothesis)是医学统计学中统计推断部分的重要内容。假设检验根据反证法和小概率原理,首先依据资料性质和所需解决的问题,建立检验假设;在假设该检验假设成立的前提下,采用适当的检验方法,根据样本算得相应的检验统计量;最后,依据概率分布的特点和算得的检验统计量的大小来判断是否支持所建立的检验假设,进而推断总体上该假设是否成立。其基本方法包括:u检验、t检验、方差分析(ANOVA)和非参数检验方法。

假设检验为医学研究提供了一种很好的由样本推断总体的方法。例如,随机抽取某市一定年龄段中100名儿童,将其平均身高(样本均数)与该年龄段儿童应有的标准平均身高(总体均数)做u检验,其检验结果可以帮助我们推断出该市该年龄段儿童身高是否与标准身高一致,为了解该市该年龄段儿童的生长发育水平提供参考。又如,医学中常常可以采用t检验、秩和检验比较两种药物的疗效有无差别;用2检验比较不同治疗方法的有效率是否相同等等。

这些假设检验的方法在生物实验资料的分析前期应用较多,但由于研究目的和资料性质不同,一般会对某些方法进行适当调整和结合。

例如,基于基因芯片实验数据寻找差异表达基因的问题。基因芯片(genechip)是近年来实验分子生物学的技术突破之一,它允许研究者在一次实验中获得成千上万条基因在设定实验条件下的表达数据。为了从这海量的数据中寻找有意义的信息,在对基因表达数据进行分析的过程中,找到那些在若干实验组中表达水平有明显差异的基因是比较基础和前期的方法。这些基因常常被称为“差异表达基因”,或者“显著性基因”。如果将不同实验条件下某条基因表达水平的重复测量数据看作一个样本,寻找差异表达基因的问题其实就可以采用假设检验方法加以解决。

如果表达数据服从正态分布,可以采用t-检验(或者方差分析)比较两样本(或多样本)平均表达水平的差异。

但是,由于表达数据很难满足正态性假定,目前常用的方法基于非参数检验的思想,并对其进行了改进。该方法分为两步:首先,选择一个统计量对基因排秩,用秩代替表达值本身;其次,为排秩统计量选择一个判别值,在其之上的值判定为差异显著。常用的排秩统计量有:任一特定基因在重复序列中表达水平M值的均值;考虑到基因在不同序列上变异程度的统计量,其中,s是M的标准差;以及用经验Bayes方法修正后的t-统计量:,修正值a由M的方差s2的均数和标准差估计得到。三、一些高级统计方法在基因研究中的应用

(一)聚类分析

聚类分析(clusteringanalysis)是按照“物以类聚”的原则,根据聚类对象的某些性质与特征,运用统计分析的方法,将聚类对象比较相似或相近的归并为同一类。使得各类内的差异相对较小,类与类间的差异相对较大1。聚类分析作为一种探索性的统计分析方法,其基本内容包括:相似性度量方法、系统聚类法(HierarchicalClustering)、K-means聚类法、SOM方法等。

聚类分析可以帮助我们解决医学中诸如:人的体型分类,某种疾病从发生、发展到治愈不同阶段的划分,青少年生长发育分期的确定等问题。

近年来随着基因表达谱数据的不断积累,聚类分析已成为发掘基因信息的有效工具。在基因表达研究中,一项主要的任务是从基因表达数据中识别出基因的共同表达模式,由此将基因分成不同的种类,以便更为深入地了解其生物功能及关联性。这种探索完全未知的数据特征的方法就是聚类分析,生物信息学中又称为无监督的分析(UnsupervisedAnalysis)。常用方法是利用基因表达数据对基因(样本)进行聚类,将具有相同表达模式的基因(样本)聚为一类,根据聚类结果通过已知基因(样本)的功能去认识那些未知功能的基因。对于基因表达数据而言,系统聚类法易于使用、应用广泛,其结果——系统树图能提供一个可视化的数据结构,直观具体,便于理解。而在几种相似性的计算方法中,平均联接法(AverageLinkageClustering)一般能给出较为合理的聚类结果2。

(二)判别分析

判别分析(discriminantanalysis)是根据观测到的某些指标的数据对所研究的对象建立判别函数,并进行分类的一种多元统计分析方法。它与聚类分析都是研究分类问题,所不同的是判别分析是在已知分类的前提下,判定观察对象的归属3。其基本方法包括:Fisher线性判别(FLD)、最邻近分类法(k-NearestNeighborClassifiers)、分类树算法(ClassificationTreeAlgorithm),人工神经网络(ANNs)和支持向量机(SVMs)。

判别分析常用于临床辅助鉴别诊断,计量诊断学就是以判别分析为主要基础迅速发展起来的一门科学。如临床医生根据患者的主诉、体征及检查结果作出诊断;根据各种症状的严重程度预测病人的预后或进行某些治疗方法的疗效评估;以及流行病学中某些疾病的早期预报,环境污染程度的坚定及环保措施、劳保措施的效果评估等。

在生物信息学针对基因的研究工作中,由于借助了精确的生物实验,研究者通常能得到基因(样本)的准确分类,如,基因的功能类、样本归结于疾病(正常)状态等等。当利用了这些分类信息时,就可以采用判别分析的方法对基因进行分类,生物信息学中又称为有监督的分析(SupervisedAnalysis)。例如,基因表达数据分析中,对于已经过滤的基因,前三种方法的应用较为简单。而支持向量机(SVMs)和人工神经网络(ANNs)是两种较新,但很有应用前景的方法。

(三)相关分析

相关分析(correlationanalysis)是医学统计学中研究两变量间关系的重要方法。它借助相关系数来衡量两变量之间的关系是否存在、关系的强弱,以及相互影响的方向。其基本内容包括:线性相关系数、秩相关系数、相关系数的检验、典型相关分析等。

我们常常可以借助相关分析判断研究者所感兴趣的两个医学现象之间是否存在联系。例如,采用秩相关分析我们发现某种食物中黄曲霉毒素相对含量与肝癌死亡率间存在正相关关系;采用线性相关方法发现中年女性体重与血压之间具有非常密切的正相关关系等等。

生物信息学中可以利用相关分析建立基因调控网络。如果将两个不同的基因在不同实验条件下的表达看作是两个变量,相关分析所研究的正是两者之间的调控关系。如采用线性相关系数进行两基因关系的分析时,其大小反应了基因调控关系的强弱,符号则反应了两基因是协同关系(相关系数为正),还是抑制关系(相关系数为负)。

四、意义

生物信息学不仅是医学统计学的研究前沿,更是医学研究由宏观向微观拓展的重要领域,其研究内容已逐渐为多数医学院校的学员了解和熟悉。而如何对新技术产生的生物实验数据进行准确合理的分析,却成为生物信息学研究的主要瓶颈之一。

友情链接