时间:2022-02-04 10:48:43
引言:寻求写作上的突破?我们特意为您精选了12篇数据分析方法范文,希望这些范文能够成为您写作时的参考,帮助您的文章更加丰富和深入。
1、将收集到的数据通过加工、整理和分析的过程,使其转化为信息,通常来说,数据分析常用的方法有列表法和作图法,所谓列表法,就是将数据按一定规律用列表方式表达出来,是记录和处理数据最常用的一种方法。
2、表格设计应清楚表明对应关系,简洁明了,有利于发现要相关量之间的关系,并且在标题栏中还要注明各个量的名称、符号、数量级和单位等。
3、而作图法则能够醒目地表达各个物理量间的变化关系,从图线上可以简便求出实验需要的某些结果,一些复杂的函数关系也可以通过一定的变化用图形来表现。
(来源:文章屋网 )
1引言
新媒体营销是随着互联网技术不断发展而衍生的重要产物,它是以移动平台为载体,以信息技术为桥梁而实现的企业网络市场竞争的过程。这种模式的出现意味着企业与现代科学技术的接轨,是企业智能化数据化发展的鲜明体现。企业在新媒体平台和技术的指导下,能够依靠各类先进技术,转变自身的发展方式。其中最为突出的应用便在于企业对数据分析的引进。
2分析数据,确立市场受众群体
企业要想在众多新媒体平台营销中脱颖而出,就必须掌握符合自身市场定位的消费群体,要让自身生产的产品能够有广泛的接受度,要取得属于自身独有的市场信任感和公信力。这也就意味着企业要主动出击,积极地吸引消费者群体的关注和重视。如果一个企业发展自身新媒体营销的方法,仅仅是通过水军或者是买来的粉丝,或者是通过转发抽奖等,那么这个企业只会在短时间内取得一定的爆发式关注,无法取得长远的市场利益,也没有办法真正的给消费者留下深刻的印象,自然也不能根据消费者的喜好和兴趣制订出针对性的市场营销方案。这就需要企业通过数据分析的方法来明确自身的受众群体。[1]首先,企业要用数据分析的方法,对自身已有的市场发展基础进行系统的分析和总结,整理出自身的市场定位和发展特点,包括品牌形象、竞争优势、产品性质等。在此基础上,大致地规划消费者的群体范围,制订相应的宣传方案和宣传规划,同时也要注意把握时间的限制,要尽可能地寻求时间和效益之间的平衡。在这一过程中,企业要按照消费者的点击喜好和频率,来制定有针对性的宣传模式,这样可以更为有效地吸引消费者的关注。其次,企业要重视用户之间的传播和转发,企业要在吸引一批粉丝的基础上适当地进行转发和抽奖活动,扩大自身的市场影响力。最后,企业也要在这一过程中精确自身的市场定位,要动态地观察宣传的成果和绩效,要寻找大众的认同感。这便要求企业要借助数据分析和检索的平台,搜索与自身宣传相关的信息确立关键词和重点语句,并分析大众对于自身的评价和看法,更好地改进营销中存在的缺陷和不足。同时要在此基础上,让自身的宣传内容更加量化和准确,更好地提升在用户之间的口碑。
3分析数据,确立市场营销载体
根据上文所述,企业在新媒体营销中所进行的宣传是离不开固定的平台和载体的,移动平台是企业信息和展现自身形象的基础与保障。因此,企业要十分重视自身新媒体营销工具的选择,要运用数据分析的方法精准地统筹和管理市场营销的信息,推动网络营销能够适应自身发展的特点和规律。同时,数据分析方法还可以把企业自身经营的特点与不同的新媒体平台进行融合,对比其结合后的实际效益和成果,同时也可以与事先的市场规划设计相比较,在此基础上选择最为合适的企业新媒体营销载体。[2]之所以运用数据分析的方法来选择企业新媒体营销载体,是因为现阶段网络企业的发展形式多种多样,不同的企业也有自身不同的市场定位和产品特点,彼此之间相互独立,但是也紧密联系。这也就意味着,各类企业在共同运用新媒体网络平台这一方法进行市场营销的同时,也要根据自身的发展特点来选择适合自己的宣传载体和工具,只有这样才可以促进宣传内容的有效传播。当下企业利用新媒体进行宣传的主要形式包括纪录片、文字和图像等,也可以是多种表现形式的结合。尽管在宣传方式上具有多样性,但是否能真正的起到吸引用户的作用还需要依靠用户的主观能动性。这就要求企业在选择好自身营销载体的基础上,利用后台运行接收数据信息的方法,分析用户点击频率最多的板块和内容,总结出现阶段自身市场发展应当跟随的主流趋势,以及分析当下营销平台运行的成果。例如当下的微博小程序,就是企业依靠文字推送或者视频的方式,与用户建立线上的交流和沟通,在此基础上根据用户的点击频率来制订出更有针对性的市场营销方案。
4分析数据,确立信息展示模式
现阶段,有许多企业建立了自身运营的自媒体平台,有相当一部分是需要用户下载相应的软件,并注册账号才可以获得相关的信息。用户在注册之后,便可以通过在移动端登录的方法来完成后续操作。[3]但也正是因为这种登录方法的存在,用户会获得比其他平台更多的市场信息。这就在一定程度上激发了用户的厌烦心理,有相当一部分用户会由于时间的限制,直接略过企业所的信息。同时,也有一部分企业将自身的信息运用网页链接或者是二维码的方式展现出来,用户必须要在登录网站的基础上再一次点开网页链接,这就会让用户觉得浏览信息是一件非常烦琐的事情。因此,企业要重视自身信息展现形式的转变,企业要尽可能地选择简洁明了的形式突出自身信息的重点,要让用户可以看到自身营销的优势和特点。企业可以用数据分析的方法,统计出用户容易接受的信息展现形式,并按照类别进行划分。当下,用户容易接纳的是企业图文并茂的信息展现形式,可以是图片和文字链接的结合,也可以是视频和文字链接的结合,或者是将链接安置在图片上。企业就可以根据用户的喜好,将自身内容展现的形式进行改革和优化,例如企业可以将市场经营的方向和产品的性能,利用形象化的图片展示出来。让用户可以一眼就看到自身的品牌特色,提高自身的吸引力。在这一过程中企业要意识到信息真实准确表达的重要性,企业可以在原有的基础上进行适当地渲染和润色,但是不能虚假信息,不能夸大其词,不能让用户接受错误且夸张的市场营销数据。
5分析数据,确定市场发展价值
中图分类号:P2 文献标识码:A 文章编号:1672-3791(2012)12(b)-0053-02
1 大坝安全监测的意义
大坝所具有的潜在安全问题既是一个复杂的技术问题,也是一个日益突出的公共安全问题,因此,我国对大坝安全越来越重视。随着坝工理论和技术的不断发展与完善,为了更好地实现水资源的进一步开发利用,我国的大坝建设正向着更高更大方向发展,如三峡重力坝、小湾拱坝(最大坝高294.5 m)、拉西瓦拱坝(最大坝高250 m)、溪洛渡拱坝(最大坝高285.5 m)等,这些工程的建设将为我国的经济发展做出巨大贡献,也将推动我国的坝工理论和技术水平上升到一个新的高度。但是,这些工程一旦失事,将是不可想象的毁灭性灾难,因此,大坝安全问题就显得日益突出和重要。保证大坝安全的措施可分为工程措施和非工程措施两种,两者相互依存,缺一不可。
回顾大坝安全监测的发展历史,最早可追溯到19世纪90年代,1891年德国的挨施巴赫重力坝开展了大坝位移观测,随后于1903年美国新泽西州Boont。n重力坝开展了温度观测,1908年澳大利亚新南威尔士州巴伦杰克溪薄拱坝开展了变形观测,1925年美国爱达荷州亚美尼加一佛尔兹坝开展了扬压力观测,1826年美国垦务局在Stevenson一creek试验拱坝上开展了应力及应变观测,这是最早开展安全监测的几个实例。我国从20世纪50年代开始进行安全监测工作,大坝安全监测的作用是逐渐被人们认识的,赵志仁将大坝安全监测的发展历程划分为以下3个阶段。
(1)1891年至1964年,原型观测阶段,原型观测的主要目的是研究大坝设计计算方法,检验设计,改进坝工理论。(2)1964年至1985年,由原型观测向安全监测的过度阶段,接连发生的大坝失事,让人们逐渐认识到大坝安全的重要性,逐步把保证大坝安全运行作为主要目的。(3)1985年至今,安全监测阶段,此阶段,大坝安全监测已经成为人们的共识,随着监测仪器、监测技术和资料分析方法的不断进步、发展与完善,将逐步实现大坝的安全监控。
2 大坝安全监测数据分析概述
大坝安全监测取得的大量数据为评价大坝运行状态提供了基础,但是,原始观测数据往往不能直观清晰地展示大坝性态,需要对观测数据进行分辨、解析、提炼和概括,从繁多的观测资料中找出关键问题,深刻地揭示规律并作出判断,这就需要进行监测数据分析。
2.1 监测数据分析的意义
大坝监测数据分析可以从原始数据中提取包含的信息,为大坝的建设和运行管理提供有价值的科学依据。大量工程实践表明:大坝监测数据中蕴藏了丰富的反映坝体结构性态的信息,做好观测资料分析工作既有工程应用价值又有科学研究意义。大坝安全监测数据分析的意义表现在如下几方面:(1)原始观测数据本身既包含着大坝实际运行状态的信息,又带有观测误差及外界随机因素所造成的干扰。必须经过误差分析及干扰辨析,才能揭示出真实的信息。(2)观测值是影响坝体状态的多种内外因素交织在一起的综合效应,也必须对测值作分解和剖析,将影响因素加以分解,找出主要因素及各个因素的影响程度。(3)只有将多测点的多测次的多种观测量放在一起综合考察,相互补充和验证,才能全面了解测值在空间分布上和时间发展上的相互联系,了解大坝的变化过程和发展趋势,发现变动特殊的部位和薄弱环节。(4)为了对大坝监测数据作出合理的物理解释,为了预测大坝未来的变化趋势,也都离不开监测数据分析工作。因此,大坝监测资料分析是实现大坝安全监测最终目的的一个重要环节。
2.2 监测数据分析的内容
监测资料分析的内容通常包括:认识规律、查找问题、预测变化、判断安全。
(1)认识规律:分析测值的发展过程以了解其随时间而变化的情况,如周期性、趋势、变化类型、发展速度、变动幅度等;分析测值的空间分布以了解它在不同部位的特点和差异,掌握它的分布特点及代表性测点的位置;分析测值的影响因素以了解各种外界条件及内部因素对所测物理量的作用程度、主次关系。通过这些分析,掌握坝的运行状况,认识坝的各个部位上各种测值的变化规律。(2)查找问题:对监测变量在发展过程和分布关系上发现的特殊或突出测值,联系荷载条件及结构因素进行考查,了解其是否符合正常变化规律或是否在正常变化范围之内,分析原因,找出问题。(3)预测变化:根据所掌握的规律,预测未来一定条件下测值的变化范围或取值;对于发现的问题,估计其发展趋势、变化速度和可能后果。(4)判断安全:基于对测值的分析,判断过去一段时期内坝的运行状态是否安全并对今后可能出现的最不利条件组合下坝的安全作出预先判断。
一般来讲,大坝监测资料分析可分为正分析和反演分析两个方面。正分析是指由实测资料建立原型物理观测量的数学模型,并应用这些模型监控大坝的运行。反演分析是仿效系统识别的思想,以正分析成果为依据,通过相应的理论分析,反求大坝材料的物理力学参数和项源(如坝体混凝土温度、拱坝实际梁荷载等)。吴中如院士提到通过大坝监测资料分析可以实现反馈设计,即“综合原型观测资料正分析和反演分析的成果,通过理论分析计算或归纳总结,从中寻找某些规律和信息,及时反馈到设计、施工和运行中去,从而达到优化设计、施工和运行的目的,并补充和完善现行水工设计和施工规范”。综上所述,大坝监测资料正分析中数学模型的研究与应用是实现大坝安全监测及资料分析的目的和意义的基础与根本。
3 监测数据分析方法
大坝安全监测数据分析涉及到多学科交叉的许多方法和理论,目前,常用的大坝监测数据分析方法主要有如下几种:多元回归分析、时间序列分析、灰色理论分析、频谱分析、Kalman滤波法、有限元法、人工神经网络法、小波分析法、系统论方法等等。(图1)
3.1 多元回归分析
多元回归分析方法是大坝监测数据分析中应用最为广泛的方法之一,最常用的方法就是逐步回归分析方法,基于该方法的回归统计模型广泛应用于各类监测变量的分析建模工作。以大坝变形监测的分析为例,取变形(如各种位移值)为因变量(又称效应量),取环境量(如水压、温度等)为自变量(又称影响因子),根据数理统计理论建立多元线性回归模型,用逐步回归分析方法就可以得到效应量与环境量之间的函数模型,然后就可以进行变形的物理解释和预报。由于它是一种统计分析方法,需要因变量和自变量具有较长且一致性较好的观测值序列。如果回归模型的环境变量之间存在多重共线性,可能会引起回归模型参数估计的不正确;如果观测数据序列长度不足且数据中所含随机噪声偏大,则可能会引起回归模型的过拟合现象,而破坏模型的稳健性。
在回归分析法中,当环境量之间相关性较大时,可采用主成分分析或岭回归分析,为了解决和改善回归模型中因子多重相关性和欠拟合问题,则可采用偏回归模型,该模型具有多元线性回归、相关分析和主成分分析的性能,在某些情况下甚至优于常用的逐步线性回归模型,例如王小军、杨杰、邓念武等在应用偏回归模型进行大坝监测数据分析时,还采用遗传算法进行模型的参数估计,取得了较好的效果。
3.2 时间序列分析
大坝安全监测过程中,各监测变量的实测数据自然组成了一个离散随机时间序列,因此,可以用时间序列分析理论与方法建立模型。一般认为时间序列分析方法是一种动态数据的参数化时域分析方法,它通过对动态数据进行模型阶次和参数估计建立相应的数学模型,以了解这些数据的内在结构和特性,从而对数据变化趋势做出判断和预测,具有良好的短期预测效果。进行时间序列分析时一般要求数据为平稳随机过程,否则,需要进行协整分析,对数据进行差分处理,或者采用误差修正模型。例如,徐培亮利用时间序列分析方法,对大坝变形观测资料进行分析建模得到一个AR(2)模型,并对大坝变形进行了预报,结果表明具有良好的预测精度。涂克楠、张利、郑箫等也利用时间序列对大坝监测数据进行分析,有效地提高了模型对实测数据的拟合能力和预测能力。
3.3 灰色理论分析
当观测数据的样本数不多时,不能满足时间序列分析或者回归分析模型对于数据长度的要求,此时,可采用灰色系统理论建模。该理论于20世纪80年代由邓聚龙首次提出,该方法通过将原始数列利用累加生成法变换为生成数列,从而减弱数据序列的随机性,增强规律性。例如,在大坝变形监测数据分析时,也可以大坝变形的灰微分方程来提取趋势项后建立组合模型。一般时间序列分析都是针对单测点的数据序列,如果考虑各测点之间的相关性而进行多测点的关联分析,有可能会取得更好的效果。1991年,熊支荣等人详述了灰色系统理论在水工观测资料分析中的应用情况,并对其应用时的检验标准等问题进行了探讨。同年,刘观标利用灰色系统模型对某重力坝的实测应力分析证明了灰色模型具有理论合理、严谨、成果精度较高的特点。
3.4 频谱分析
大坝监测数据的处理和分析主要在时域内进行,利用Fourier变换将监测数据序列由时域信号转换为频域信号进行分析,通过计算各谐波频率的振幅,最大振幅所对应的主频可以揭示监测量的变化周期,这样,有时在时域内看不清的数据信息在频域内可以很容易看清楚。例如,将测点的变形量作为输出,相关的环境因子作为输入,通过估计相干函数、频率响应函数和响应谱函数,就可以通过分析输入输出之间的相关性进行变形的物理解释,确定输入的贡献和影响变形的主要因子。将大坝监测数据由时域信号转换到频域信号进行分析的研究应用并不多,主要是由于该方法在应用时要求样本数量要足够多,而且要求数据是平稳的,系统是线性的,频谱分析从整个频域上对信号进行考虑,局部化性能差。
一、引言
在进行实验过程中,由于土体本身所具有的复杂性,土质质检所存在的物理学特性以及采样、运输、存储等等方面所表现出来的特点,都容易对数据造成一定程度的干扰,致使实验的结果出现误差。另外,因为实验本身受到很多因素的干扰,也同样容易发生数据偏差的问题。因此,本文着重从实验数据所涉及的内容,影响实验数据的因素,以及提升实验准确率的角度出发,对土工实验数据分析方法进行探讨。
二、土工试验数据所涉及内容
(一)土的比重实验。土工试验过程中,土的比重实验是非常重要的。一般来说,地域相同或者相近,那么土的比重也将会比较相近。但是,因为在实际操作中,其整个的操作流程比较复杂,所以不同的单位会采用本地所出具的或者考察的相关数据直接进行比重实验,这样容易导致实验数据的误差存在。
(二)土的密度实验。通过土的密度实验可以详细的了解土的组成,可以了解其组成成分的性质,能够为之后的施工提供更多的参考。土的密度与土粒的重量、孔隙体积、孔隙大小、孔隙水重等等内容息息相关,能够反映土的组成和基本结构特征。在进行实验的过程中,要注意尽量避免对取样即时进行实验,最好能够等待土样达到日常状态之后再进行试验,这样可以让土密度实验的结果更加准确。
(三)土的含水量实验。土的含水量实验可以说是土工实验中的核心内容,其实验的情况将会影响到工程地基建设,还会影响到后续工程的稳定性。不同地区的土样其含水量不同,并存在很大程度上的差异性。实验人员在进行取样的过程中,要保证其样品的均匀性,或者具有代表性,否则进行试验所获得的数据就没有任何指导意义,其数据在实践应用中的效率和质量也将会呈现大幅度的下降。
三、土性参数实验结果误差性的原因
(一)土体本身性质导致。依照相关的物理力学和力学性质,我们可以了解到土体的分层具有不均匀性,加上其所处环境的变化,可能发生的雨水冲击、水文变化、其后影响等等语速怒,都会让土体的性质发生改变。这样在进行土工试验的时候就非常容易造成实验结果的差异性,甚至有可能会成为差异产生的主要影响因素。
(二)系统误差。系统误差是由于仪器的某些不完善、测量技术上受到限制或实验方法不够完善没有保证正确的实验条件等原因产生。不同的单位所使用的仪器往往不尽相同,所使用的试验方法也有一定的出入,加上不同的试验方法让土工参数出现离散性,其所实验的数据也就会有所不同。系统误差的存在可以予以避免,其与偶然误差不同,这就需要实验室对设备和系统进行改进。
(三)偶然误差。偶然误差的特点是它的随机性。如果实验人员对某物理量只进行一次测量,其值可能比真值大也可能比真值小,这完全是偶然的,产生偶然误差的原因无法控制,所以偶然误差总是存在,通过多次测量取平均值可以减小偶然误差,但无法消除。偶然误差的存在属于客观存在的现象,其与人为原因所造成的误差有很大的差别,对于两者应当予以区分。
四、土工实验数据分析方法的应用
(一)进行数据检查,果断进行取舍。在进行实验的过程中,如果有明显不符合物理力学性质的值的范围点,则可以通过观察予以了解,实验人员要对其进行细致观察,一旦发现异常立刻予以放弃。一般判断的标准是大部分数值为范围内波动,但是有一点超出正常值或者距离正常值较远,则可以被认定为不合理。在实验数据较多的情况下可以运用3σ法则进行数据之间取舍的考量。在进行实验过程中,存在于之外数值所占比例较少,因此,大于和小于之间数值作为异常处理。
(二)土工实验数据中最小样本数问题。在土工试验过程中,最小样本数问题需要引起人们的重视。实验中的样本数要选取适当,如果样本数过小就会影响实验结果的准确性。但是,样本数的数量并不是随意定制的,其受到多种因素的影响,比如工程规模、工程精度要求、现场勘查情况等等。
(三)土体性质指标的自相关性的问题。根据以往数据实验的关联性,求的往往是其之间的线性相关系数,但是对于其自相关函数通常并没有表现出线性相关,而是指数相关。因此,不能简单依照求相关系数的方法判断其相关性。在进行土工实践过程中,往往可以通过δ对其独立性进行判断。在相关距离 范围内,图形指标基本相关;在此范围外,图形指标基本不相关。但是对于δ事先未知,因此其需要根据样本测值进行求算,一般使用递推平均法对相关距离δ进行计算,并使用间距Z对δ的影响进行综合考量。一般来说,Z /δ的数值越大,其各抽样点的土性越接近相互独立,抽样误差也就越小。
五、结束语
土工试验对于土工建设来说影响较大,其影响因素包括土体本身性质、取样仪器情况、人为因素等,需要对此方面予以重视。对其不合理点来说,可以通过3 原则进行剔除。对于其数据相关性来说,其可以通过迭代求解土性指标相关距离予以解决,通过样本的加权平均来对该区域的平均性指标进行估算。为了让样本能够满足实验需要,可以利用Bayes方法对其土性指标与因确认,从而弥补数目不准确的情况。通过此三个方面对其进行方法的应用,则可以有效提升实验数据的准确性、可靠性,可以让实验的结果更加符合实际需要。
参考文献
[1]余海龙,张利宇. 土工实验数据分析方法探讨[J].中国新技术新产品,2015,21:132-133.
前言
智能化的电网正在全面地实施建设。随着以大数据为中心的IT技术的不断融入,当前我国的供电企业展开了大数据分析的研究,以便更好地使得大数据应用到整个配网的规划当中。此外,还要根据电网的实际数据情况,把数据应用到智能变电站的建立、智能电网的调度及供电信息的采集等各个方面。进而有效地提高我国供电企业的管理水平及处理业务的能力。然而,信息化新技术在应用的过程中也具有一定的风险因素,所以需要建立大数据的安全分析结构,进而对数据进行相应的处理并把安全分析方法应用到整个供电企业的信息系统中去,进而更好地为供电企业的数据安全提供保障。
1供电企业的信息完全风险分析
大数据作为供电企业的管理工具是一把双刃剑,给供电企业管理提供了便利,提高供电企业的管理水平和管理能力的同时,也给供电企业带来了一定的挑战和风险因素。使得企业数据处理、收集及传输的风险等级提高。若企业内部的数据出现问题,则会使得数据在进行传输的过程中被盗取和窃听,这给企业的管理带来了很大的风险。除此之外,企业在进行数据中进行一定的储存和利用的过程中,也会由于大数据系统的内部维护不到位而带了很大的风险。若企业的数据被长时间地窃听,就会使得不法分子有机可乘,采用各种方法来对数据后台进行攻击和试探,并寻找系统的薄弱之处。最后实行致命的攻击,并造成系统的瘫痪。所以,大数据给在方便企业的信息管理的同时,也带来了一定的信息安全挑战。
2供电企业信息安全大数据所面临的数据安全的需要
传统的电力信息系统逐渐地走向了信息化处理的进程,智能化的电网模式带给了供电企业信息系统数据安全更大的要求。每次进行数据的访问时,都需要确定数据的访问权限,并核实访问者的身份,并查看是否被授权。供电企业的数据信息需要被完整地保护,并保障其不被删除或者恶意的篡改。一旦供电企业发生一定的突发事件,需要大数据平台对数据进行自动的备份,并使数据得到安全的保护。④要采取一定的措施来保证供电企业的数据在运行过程中的安全性不被破坏。⑤要切实保证整个供电企业的信息系统的网络安全,控制供电企业信息系统的基础安全信息网络和供电企业内部比较重要的业务系统的安全。
3供电企业的信息安全大数据分析思路
当前供电企业内容的安全信息系统逐渐地向着对抗型的信息安全系统方式转变,并使得电力系统的大数据网络可以积极地应对外界的攻击。并对潜在的敌人进行分析和识别,并归纳总结当前的供电企业的信息安全大数据的风险类型,从而采取相应的对策,并先发制人,提高安全大数据系统的防御能力。这就是当前供电企业的信息安全大数据的分析思路。大数据的分析和挖掘技术需要不断地融入到大数据的安全分析中去,下图是大数据的安全结构分析思路。供电企业的信息安全大数据分析思路是基于技术的安全分析和理念,是至今为止比较完善的大数据安全分析办法,是供电企业大数据的核心环节,是对相对分散的信息进行采集并实现存储,并对其进行一定的分析,最后把其分析结果进行分发,把所有的安全分析体系结合在一起,并实现安全技术的互动。
4供电企业信息安全大数据安全分析结构的数据处理
供电企业的信息安全大数据的结构具体根据业务的不同分为不同的数据库进行处理。关系数据库是当前最丰富的数据库,是进行供电企业信息安全处理的主要形式。而数据仓库属于一种多维的数据结构,可以允许用户进行汇总级别的计算,并对数据进行观察。事务数据库中记录了每一个事务,并同时附带了一些相互关联的附加表。文本数据库是对图象进行描述的数据库,文本数据库与图书馆数据库类似。而多媒体数据库则是对图像以及音频和视频的存储,并用于存放内容的检索。供电企业的信息安全大数据的存储往往需要先确定好处理的目标,并对数据进行量化的处理,最后对数据进行一定的评估,最后进行结果的展示。将大量的数据进行集中化的处理可以切实地反映出安全数据的指标,并根据指标对安全数据进行相应的评估。
5供电企业信息安全大数据安全分析方法
当前,进行供电企业信息安全大数据安全分析的方法有很多,随着大数据的技术体系逐渐成熟,目前对安全数据的分析算法也变得多样化,很多分析方法比如分类技术方法、序列分析方法等等对大量的数据的分析具有很好的效果。而对于不同的数据库可以采用不同的分析算法进行分析。比如,当利用关系数据库和事务数据库时,就可以利用序列分析的办法进行数据的挖掘和统计;而数据仓库除了需要进行联机处理以外,还需要进行数据的挖掘;文本数据库则是利用模式匹配以及关联分析等方法相互结合来进行数据的挖掘分析。
6结论
针对供电企业的信息安全的大数据分析有很多的途径,在进行供电企业信息安全的大数据分析时,需要对供电企业的安全数据信息进行全面预测,并利用多种分析办法综合处理。随着当前大数据网络技术的不断发展,根据大数据的分析特点进行安全分析的办法也在不断地完善。基于信息安全的大数据分析方法和思路具有很大的发展前景,安全大数据技术的不断革新,使得供电企业的防护网络更加地发达,并逐渐实现了供电企业的大数据信息安全的评估系统的完善,使得供电企业的信息安全大数据发展更为迅速。
参考文献
中图分类号:TP311 文献标识码:A 文章编号:1007-9416(2017)03-0104-02
1 综述
1.1 简介
在数字化时代,需要新一代系统架构提升业务创新能力。在新一代系统架构中,大数据是核心要素。业务应用能否自主发现与自助获得高质量的大数据,就成为业务创新成败的关键。这就要在搭建大数据平台时,就着手大数据治理相关建设。
1.2 需求和意义
从某种意义上说大数据治理架构需要以元数据为核心、提高大数据质量、透明化大数据资产、自助化数据开发、自动化数据、智能化数据安全,提升大数据平台服务能力,让大数据平台变得易使用、易获得、高质量。
但是,目前很多技术解决方案存在诸多安全和效率隐患:业务系统多,监管力度大;数据量庞大且呈碎片化分布,急需提升大数据质量;数据格式不规范、难以在短时间内找到所需数据;数据在各阶段的应用角度不同,需要降低系统间的集成复杂度。
2 功能设计
2.1 总体架构
本文讲述的数据分析方法及实现技术是建立在Hadoop/Spark技术生态圈的基础之上,以实现用户集成处理、、清理、分析的一个统一的数据处理平台;按数据类别分为线数据、归档数据;按数据格式分为非结构化数据、结构化数据;按数据模型分类为范式化模型数据、维度模型数据;按数据采集频度分为非实时数据、准实时数据处理架构;并提供数据中心平台与安全管理方案,为企业级用户建立一个通用数据处理和分析中心。如图1所示。
2.2 在线数据
在线数据在线通过接口去获得的数据,一般要求为秒级或速度更快。首先应当将数据进行区分:在线数据、或归档数据。本平台中采用:Storm或Spark Streaming框架进行实现。Spark Streaming将数据切分成片段,变成小批量时间间隔处理,Spark抽象一个持续的数据流称为DStream(离散流),一个DStream是RDD弹性分布式数据集的micro-batch微批次,RDD是分布式集合能够并行地被任何函数操作,也可以通过一个滑动窗口的数据进行变换。
2.3 归档数据
归档数据是在线存储周期超过数据生命周期规划的数据,处理的要求一般在分钟级或速度更慢。通常归档数据的计算量、数据量、数据复杂度均超过试试数据处理。本平台中采用:Hadoop、Spark技术生态体系内的框架进行计算,这里不详细阐述。
2.4 非结构化数据
通常非结构化的数据不一定具备字段,即使具备字段其长度也不固定,并且字段的又可是由可不可重复和重复的子字段组成,不仅可以包含结构化数据,更适合处理非结构化数据。常见的非结构化数据包括XML、文本、图象、声音、影音、各类应用软件产生的文件。
针对包含文字、数据的为结构化数据应当先利用数据清洗、数据治理工具进行提取,这项工作目前仍依赖技术员进行操作,由于格式的复杂性所以难以使用自动化方式进行较为高效的批处理。在治理数据的过程中,需要根据情况对数据本身额外建立描述数据结构的元数据、以及检索数据的索引服务,以便后续更佳深度利用数据。
2.5 结构化数据
结构化数据具备特定的数据结构,通常可以转换后最终用二维的结构的数据,并且其字段的含义明确,是挖掘数据价值的主要对象。
本平台中主要使用Hadoop Impala和Spark SQL来进行结构化数据的处理。Impale底层采用C++实现,而非Hadoop的基于Java的Map-Reduce机制,将性能提高了1-2个数量级。而Spark SQL提供很好的性能并且与Shark、Hive兼容。提供了对结构化数据的简便的narrow-waist操作,为高级的数据分析统一了SQL结构化查询语言与命令式语言的混合使用。
结构化数据根据采集频度可以继续分类为:非实时数据、准实时数据。
2.6 准实时数据
通常准实时数据是指数据存储在平台本身,但更新频率接近于接口调用数据源的数据。适合用于支持数据和信息的查询,但数据的再处理度不高,具有计算并发度高、数据规模大、结果可靠性较高的特点。通常使用分布式数据处理提高数据规模、使用内存数据进行计算过程缓冲和优化。本平台主要采用Spark SQL结合高速缓存Redis的技术来实现。Spark SQL作为大数据的基本查询框架,Redis作为高速缓存去缓存数据热区,减小高并发下的系统负载。
2.7 非实时数据
非实时数据主要应用于支持分析型应用,时效性较低。通常用于数据的深度利用和挖掘,例如:因素分析、信息分类、语义网络、图计算、数值拟合等。
非实时数据根据数据模型可继续分类为:范式化模型数据、维度模型数据。
2.8 范式化模型
范式化模型主要是针对关系型数据库设计范式,通常稻菔遣捎玫谌范式3NF或更高范式。面向近源数据查询、数据主题的整合。范式化模型数据的数据存储区,建议使用并行MPP数据库集群,既具备关系型数据库的优点,又兼顾了大数据下的处理。
2.9 基于维度模型
维度模型数据主要应用于业务系统的数据挖掘和分析。过去多维度数据处理主要依赖OLAP、BI等中间件技术,而在大数据和开源框架的时代下,本技术平台采用Hadoop Impala来进行实现。Impala并没有使用MapReduce这种不太适合做SQL查询的范式,而是参考了MPP并行数据库的思想另起炉灶,省掉不必要的shuffle、sort等开销,使运算得到优化。
3 应用效果
本系统在不同的业务领域上都可以应用,以2016年在某银行的应用案例为例:该银行已完成数据仓库建设,但众多数据质量问题严重影响了数据应用的效果,以不同的数据存储方式,以更高的要求去进行数据的统一管理。通过组织、制度、流程三个方面的实施,以元数据、数据标准、数据质量平台为支撑,实现了数据管控在50多个分支,60个局,1000余处的全面推广,实现了全行的覆盖;管理了120个系统和数据仓库,显著提升了新系统的快速接入能力;通过14个数据规范和流程明确了数据管控的分工;数据考核机制的实施,使其在数据质量评比中名列前茅。
4 结语
本文介绍了大数据下数据分析方法及实现技术的大体设计和思路,从需求分析、总体架构和数据处理以及数据分析这几个方面来介绍。文章在最后介绍出了这种平台的应用效果。笔者相信这些思路和技术能够在业务中能得到很好的应用。
信息通信网告警是指在网络运行异常时获得网络运行状态,对网络运行进行正确的评估,判断网络故障。告警系统的应用有效的减少了故障发生概率,提高了生产效率。多维度分析方法是告警数据的一大特点,文章将其进行具体的分析如下。
1信息通信网络告警管理的层次体系
构建网络告警管理层次体系,拓展其影响范围并实现管理创新具有必要性。在以往的信息通信网告警管理中,网络设备是其主要实现途径,有效的实现了对网络的监督。随着科技的发展,现阶段网络告警不仅可以应用网络设备,还能够实现级报警,也就是对所得信息进行分级处理,得到一定的网络状态后,从整体上考虑,完成性能级告警、业务感知告警、容量负荷类告警和网络运行异常告警等多层次的告警内容,并可以对不同的告警内容实施不同的管理方案,进一步提高了通信网的告警效率。他是按照性能需求将网络业务设定标准,超出标准后即出现报警。在通信网使用过程中,由于用户量剧增,因此容量负荷是主要故障之一。针对这类故障我们设置了运行负荷进行监测,即在超出负荷后发出预警。总之,信息通信网络的告警是多维度的,多层次的,只有这样才能保证系统的安全运行。
2信息通信网络告警数据的多维度分析方法
2.1故障工单数据的获得
故障数据是提供解决方案的基础,因此信息通信网络告警的分析首要问题就是获得数据源提供的故障数据工单,工单数据不同于告警数据,它主要体现在电子运维系统中。是通过对网络结构的分析而获得的相关数据,用以判断是否存在系统故障。对于故障处理实施在线监控,可以随时发现其中存在的故障。网络管理系统具有多样性,通常是由多个商家提供,但是可以实现对故障的集中处理,具有详细性和全面性特征。故障分析过程包括了全部字段,如设备告警息息字段、告警派单相关字段、告警标准化字段以及处理过程等。确保电子运维系统的运行安全才能保证信息通信网络的安全。其作用就是反馈信息,并对相关数据进行存储和处理。创建工单序列号,时间以及处理整个流程,进而解决故障问题。
2.2多维度信息通信网络告警数据分析
信息通信网络告警数据具有层次性,因此应根据不同的特征将其进行分类,采用独立分析与结合分析的方式提高数据的处理效率。笔者将信息通信网络告警信息分为总量类、单量类和逻辑类三种,并对其进行相应的分析。分析信息中是否存在三超信息,也就是信息量操长告警、超量告警以及超短告警,利用该方法可以快速定位故障并予以解决。通过维护人员的故障分析方法则可以保证故障工单的反馈有效,积累大量的维护经验,实现资源的共享。随着我国通信业务的发展,不仅业务量增多,业务类型也不断的增多,因此信息数据的种类是复杂的,对其处理应采用科技化的方式,以减少处理过程中的资源浪费,确保系统的运行问题。多维度分析方法分为几个重要的模块,在大量告警系统的分析下,通过小模块逐步分析,并将结果汇总的方式,得到最终的故障位置,这种分析方法符合信息系统运行规律,可以确保信息系统的运行稳定,具有积极意义。
2.3信息通信网络告警多维度分析的应用
信息通信网络告警多维度分析主要应用于电信、工业以及服务等领域,将其应用于设备管理具有高效性,由于传统设备检验过程时间长,检验效果不理想。而对其采用多维度告警分析后,能够及时查找设备故障,并提供必要的解决方案。多维度分析方法能获得网络的运行动态信息,使对网络运行的判断更加准确,对所有数据进行分析和统计,进而提高了网络运行维护水平,是我国现阶段主要推广应用的信息通信网络故障处理方式。在告警数据的分析和处理下,网络异常现象得到了解决,并且对网络运行具有监督作用,一旦出现异常,就会立刻报警。当然,多维度分析方法的预警也是准确的,不会出现误报警现象。因此为及时准确的发现通信系统故障提供了基础。未来,这一技术将进一步发展,并从根本上解决信息通信系统的故障问题,提高网络运行质量。
3总结
文章主要分析了信息通信网络的告警系统,致力于实现告警的多维度分析方法。我国信息通信的增多,对其质量要求也就更高。通过多维度分析方法可以建立完善的预警设备,对数据进行收集、整理和处理,实现对网络运行状态的实时监控,一旦出现故障,会及时告警,从而保证了设备维修,促进了设备的运行稳定。同时,多维度分析方法的实施还需要专业维修人员的配合,不断的提高我国网络运行维护水平和服务水平,提供更加优质的服务,才能促进其可持续发展。
参考文献
[1]王洋.信息通信网络告警数据多维度分析方法研究[J].网络新媒体技术,2015(4).
在我国制造行业的快速发展下,提升制造企业的管理水平已经成为当前需要重点解决的问题。随着信息技术的快速发展,促进了制造企业数据分析和决策支持的发展。通过创建企业信息管理系统,可以有效提升企业的生产效率,使各个部门之间的工作更加协调。对分散、零碎的信息进行充分挖掘和利用。利用决策模型,对企业生产管理中遇到的问题提供决策支持。
一、基于数据仓库的企业对集成的应用
(一)面向主题性
完成事务型处理的任务是传统操作型数据库进行的数据组织工作,各业务系统间存在相对独立性,按照一定的主题组织数据仓库中的数据。对主题而言,其概念比较抽象,通常情况下,一个主题同时与多个操作型数据库有关系。例如,在确定企业的采购订单时,需要分析供需情况、库存信息、供应商信息等多方面的数据的综合关系,然后做出最终的决策。
(二)集成性
一般情况下,操作型数据库进行事务处理工作与某些特定的应用关系密切,数据库间具有相对独立性,通常具有异构性。抽取、清理原有分散的数据库数据,然后对其进行系统加工、汇总和整理最终获得了数据仓库中的数据,并保证存储在数据仓库内的信息与规范的信息相一致。例如,在查询销售数据时,系统会根据输入的条件要求,进行筛选、整理后提供出最终的决策参考数据。
(三)历史变化的反映
当前的数据是操作型数据库主要关注的,但是数据仓库中还包括很多丰富的历史性信息,系统将企业从过去某一时点(如开始应用数据仓库的时点)到现在各阶段的信息完整的记录下来,企业可以以这些信息为依据,定量分析企业产品未来的发展情况。例如,企业可以通过分析产品上季度的综合销售情况以及市场反映来决策下一季度的生产量。
二、决策支持系统的概况
(一)决策系统的含义
Decision Support System 即决策支持系统,简称DSS,是指对大量数据和数学模型与数据处理模型等有机组合众多模型进行综合利用,通过人机交互功能,帮助企业各级决策者完成科学的决策的新型系统。机器学习(ML)兴起于80年代后期,自动获取知识有了新方法。数据仓库(DW)和数据挖掘(DM)两项新的决策支持技术兴起于90年代中期。数据仓库的发展是以数据库为基础发展的,支持决策是其发展目标。知识发现(KDD)是面向数据库的机器学习方法发展的结果;“数据挖掘”是发现知识的关键步骤。决策的支持也是数据库知识的功能。随着决策支持技术的不断发展,决策系统逐渐完善。
(二)决策支持系统组成部分
R.H.Sprague 提出DSS的构成部分为人机对话系统、数据库与模型库的两库结构。随着决策支持系统功能的增强与扩大,对模型与方法进行分离存储,因此,数据库、模型库与方法库构成了 DSS。近年来,DSS 将人工智能技术、专家系统、知识工程的相关思想方法引进后,以原来的结构为基础,新增知识库,将推理机制引入,最终DSS的四库结构框架形成。
随着决策支持技术的发展提高,决策支持系统的体系结构不断发展健全,传统决策支持系统中的数据库、模型库与方法库、知识库与推理机、数据仓库、OLAP、数据挖掘技术等都是其组成部分,将引进显性知识与隐性知识同时引进到决策支持过程中是这种体系结构最关键的特点,保证推理的结果更科学合理,为决策层做出决策提供更高价值的参考依据。
三、实现数据分析与决策支持方法
(一)建立制造业决策模型库
当前比较常用的决策模型系统如GIS、PDM、ERP、CRM、SCM 等。在选择决策系统时,需要根据企业的发展战略来进行选择。通过决策模型,可以为企业的生产经营提供指导,使企业可以更好的把握市场、顺应市场。企业用户决策分析的存放模型是决策模型库。进行决策的模型的建立是以大型制造企业生产过程中的材料采购、库存管理、产品生产、市场营销、财务管理、人力资源管理、研发设计、质量管理、售后服务等方面的数据为依据。决策模型被授予一定程度的权限,对数据进行访问。然后以数据仓库中获取的数据为依据,对用户指定的目标进行决策支持。系统描述现有模型的组成元素与其组成结构的知识,模型构造过程中的各类推理算法被获取。以模型构建推理算法为基础,使匹配模型的框架由新问题的属性值填充,最终决策问题模型得以建立。
(二)实施制造业决策分析
对决策模型进行求解的过程就是决策分析的实施。通过理解决策问题获得用户需要决策的目标、意图等方面信息,然后利用合适的决策模型分析获得的数据,再根据规则与模型的求解算法获得有价值的决策意见,将其提供给用户。本系统规范描述每个模型包含的求解算法利用含有通用求解算法的模型很容易求解问题。但是如果没有求解算法或者不确定利用哪种算法进行求解,平台依据以前比较成功的相似的案例,将范例的求解方法求解问题。平台会详细记录取得较好决策效果的案例,并用数据层的公用数据库进行存放,这样能够及时调用成功的相似案例进行决策分析问题的求解。
(三)协作决策支持的多环节性
通常企业决策不会通过利用单一的决策模型得到。企业管理的决策方案案是利用了多模型的协作来实现决策的。协作决策的实施系统从两个方面着手。
(1)为实现有效的智能理解需要利用人机智能交互接口实现,分解复杂的问题,最终可以得到结构有序的子问题、与决策问题有联系的事实与数据、求解方案等;
中图分类号:F01 文献标识码:A 文章编号:1006-0278(2013)02-024-01
在计量经济学中,我们一般应用的最多的数据分析是截面数据回归分析和时间序列分析,但截面数据分析和时间序列分析都有着一定的局限性。在实际经济研究当中,截面数据回归分析会遗漏掉数据的时间序列特征,例如在分析某年中国各省的GDP增长数据时,单纯的截面数据回归分析无法找出各省GDP随时间变化的特征,使得分析结果没有深度。而如果只用时间序列分析,则会遗漏掉不同截面间的联系与区别,例如在分析中国单个省市的GDP随时间增长的数据时,无法找出各个省市之间经济增长的联系与区别,因而同样无法满足我们的需要。而面板数据,是一种既包括了时间序列数据,也包括了相关截面数据的复合数据,是近年来用得较多的一种数据类型。
下面我们将基于2000-2009年中国各省GDP和财政收入的面板数据的实例来详细阐述面板数据的分析方法。
一、GDP与财政收入关系的经济学模型
财政收入是保证国家有效运转的经济基础,在一国经济建设中发挥着重要作用。随着中国经济发展速度的日益加快,财政收入不断扩大,而扩大的财政收入又以政府支出来调节和推动国民经济发展。正确认识财政收入与经济增长之间的长期关系,把握财政收入与经济增长之间的相互影响,发挥财政收入对经济发展的调节和促进功能,对于完善财税政策,深化财税体制改革,实现财政与经济之间的良性互动,具有重要的现实意义。文章就将从中国各省的面板数据出发研究,中国不同地域间财政收入和GDP之间的关系。
二、实证分析
(一)单位根检验
Eviews有两种单位根检验方法,一种在相同根的假设下的检验,包括LLC、Breintung、Hadri。另一种则是在不同根下的假设前提下,包括IPS,ADF-Fisher和PP-Fisher5。检验结果表明所有检验都拒绝原假设,因此序列GDP和CZSR均为一个2阶单整序列。
(二)协整检验
如果基于单位根检验的结果发现变量之间是同阶单整的,那么我们可以进行协整检验。协整检验是考察变量间长期均衡关系的方法。所谓的协整是指若两个或多个非平稳的变量序列,其某个线性组合后的序列呈平稳性。此时我们称这些变量序列间有协整关系存在。
在最终的结果中,Pedroni方法中除了rho-Statistic、PP-Statistic项目外都拒绝GDP和CZSR不存在协整关系的原假设,同样Kao和Johansen检验方法也都拒绝原假设,因此,上述检验结果表明,我国各省2000-20009年的GDP和财政收入面板数据间存在着协整关系。既然通过了协整检验,说明变量之间存在着长期稳定的均衡关系,其方程回归残差是平稳的,因此可以在此基础上直接对进行回归分析,此时假设方程的回归结果是较精确的。
三、建立模型
混合模型:如果从时间上看,不同个体之间不存在显著性差异;从截面上看,不同截面之间也不存在显著性差异,那么就可以直接把面板数据混合在一起用普通最小二乘法(OLS)估计参数。
我们根据混合模型的回归结果,得到财政收入和GDP之间的回归方程为:
CZSR=227.3123+0.103224*GDP
(26.47637)(0.002839)
R2=0.810995 F=1321.587
显然从模型的回归结构来看,R2的值达到了0.81,有了比较好的回归解释力,同时,GDP的回归系数为0.103224,表明各省的财政收入平均占到了国民收入的10.3%左右。
变系数模型:显然,在中国各省之间由于处在不同的地区,因而拥有不同的区位优势,那么各省的发展水平显然就不一样。正是由于这种不同的地方政策、管理水平、文化差异等会导致经济变量间出现一些关联性的变化,此时在进行模型回归的时候,我们就有必要考虑变系数模型。
在回归结果中,R2的值达到了0.97,比混合模型拥有更好的回归解释力,而在变系数模型回归结果中,GDP的回归系数大于0.5的只有、青海、宁夏三个省份,也就是说这三个省份的财政收入占到了GDP的50%以上,他们同处于经济并不是很发达的西部地区,由此可以看出,处在经济发达地区的财政收入占GDP的比重要低,而不发达地区则要高。
四、结论
通过以上的分析检验,我们发现针对于中国财政收入和GDP的面板数据,我们应建立起变系数模型,并通过模型分析,我们可以得出这样的结论,中国各省间由于存在着地域经济发展水平不同、管理水平不同以及国家的相关政策等诸多不同,造成了各省之间在财政收入以及国民收入上面存在着一定的差异。而回归结果也告诉我们,我国西部地区的财政收入占GDP的比例要明显高于东部地区,地区发展落后地区的财政收入占GDP的比例也要明显高于东部地区。因此,这为我们改善我国落后地区的经济发展提供了一定的新思路,就是对一地区的税收征收可以适当放缓,而将GDP中以前政府占用的部分归还于民众和企业,因为,按照发达地区的经验表明,财政收入所占比重过高,经济发展的活力或者就不会很高,对于进一步刺激财政收入的增加也没有任何帮助。因此,我们应该适度降低财政收入占GDP的比重,从而增加经济活力,使西部地区以及落后地区及早的跟上东部发达地区的发展步伐,从而消除我国经济发展的地域不平衡。
参考文献:
[1]谢识予,朱洪鑫.高级计量经济学[M].复旦大学出版社,2005.
一、把数据整理成表
通过学生所记录的大量数据,首先指导学生对数据进行必要的观察,从观察中发现数据的变化。
【教学片段1】
(执教《怎样得到更多的光和热》,学生们都记录完数据后。)
教师:同学们把数据记录好后,老师这里列举三个小组的数据。
表一:不同颜色纸在阳光下温度变化实验单(单位:°C,三个小组的数据)
教师:请同学们分析以上数据,你有什么发现?
学生:三次测的数据有偏差。
学生:时间越长,温度都在不断上升。
学生:温度上升有快有慢。
学生面对如此众多的数据时,不知如何入手,更何况要得出有价值的信息。如此有限的教学时间内让学生分析得到有价值的知识着实困难。因此对于数据的再次整理也是帮助学生分析的一个重要措施。
针对众多数据,分析前期,教师应在此基础上将简化后的数据表作为呈现给学生的分析数据表。该简化的方法,就是“取平均值”法,而平均值恰具有一定的科学性。于是教师通过转化数据制成单一变化数据表库,同时对已有数据进行一定规律的排列。再次整理后得到新的表。
【教学片段2】
同样执教该内容,学生整理完数据后,教师没有直接呈现学生数据表,而是先对表中数据进行“平均化”处理后才展现给学生,见表二。
教师:请同学们分析下以上数据,你有什么发现?
学生:随着光照时间延长,温度在不断升高。
表中数据进行了处理,把各次数据进行的平均值折算。一半以上学生都能直接发现数据带来的更多信息。
从复杂的数据转变到简单的数据对比,学生的思维不再关注众多数据本身,而是数据的变化乃至变化趋势。应该说数据表的简化对于学生而言容易从繁多数据中理出头绪。
二、将数据表简化
数据往往隐藏着不止一个信息或结论。在涵盖更多信息时,学生在推断上会产生干扰。
【教学片段3】
经历平均值简图分析后。
教师:(举例)我们已经发现,随着时间的增加,铝箔纸温度在不断升高。你还能得到哪些信息呢?
学生:黑色纸也随着时间增加,温度不断升高。
学生:白色纸也是。
学生:粉色纸也是。
通过分析和观察,学生对于单个条件的一组数据已经能够了解变化情况,即温度在不断升高。学生从纵向观察已经了解了温度的变化趋势:温度随着时间推移在不断上升。但教师还需指导学生横向观察认识到不同颜色纸在阳光下的温度变化。
因此,对数据表再次进行转化就显得很有必要。转化后的数据表见表三。
进行转化后的数据表从横向和纵向两个方向把表一数据进行了剖析,形成了单独存在的简化表。这样的简化表对于小学生来说,在前面的理解基础上,再次回顾到表一数据时,符合学生的认知特点。教师应有意识地引导学生对每个实验的数据进行纵向分析和横向分析,那么学生将得到更多有用的信息。而表表转化的方法,能有效引导学生,使其容易分析和理解纵向、横向数据的关系。
三、将简化表转化成图
学生的思维发展从形象思维过渡到抽象思维。学生知识的获取主要通过感性经验的积累,他们常常依靠动手操作来认识和理解世界,而他们所能认识和理解的也往往局限于他们自己可以动手操作的具体事物。如此,学生要进行抽象概念的概括时,需要把抽象的概念、数据转变成较为具体形象的“事物类”。同时,从学生的认知特点来说,小学生对于数字的敏感度还处在发展阶段。因此,在分析中期,将简化表转化为图来开展数据分析的优越性再次体现,同时有必要加强学生认图、作图以及根据图来表述和推断的能力。
1.画图
让学生认识图的构造。如横轴代表时间,单位为分钟;纵轴表示温度,单位为°C;中间的方格代表各自需要确定的位置。
学生的思维在不断发展过程中,教师需要通过简单的示意图表来指导学生,通过方格图形,依据数据来确定相应的位置点,先舍去对应位置的“直线表述”。
如对本课第二部分教学内容数据整理记录后,得表四,其中与阳光垂直放置第一组数据,描位置点。
铝箔纸温度变化情况图画法:最初温度为24°C,时间为0,描点;则点确定位置在0上方24°C位置;过了2分钟后,则点确定位置为2上方25°C位置,可以借助画对应直线来确定点的位置。描出各点之后,逐个将相邻点连成一直线,这也是科学中所涉及的折线图。
2.“改造”图,形成柱状图
以上的图对于学生还会造成一定困扰,尤其是横坐标和纵坐标对应的关系,在画图上也会有很大难度。因此,对于铝箔纸温度变化情况图的再次直观性修改显得很有必要。
柱状图是学生最早接触的直观思维图,教师指导学生对柱子的高度或长度进行对比;如果看不出来或不明显,可以用尺子量一量柱子的高度或长度,再比较一下。对于学生而言,眼前柱状图的变化比单纯数据变化更容易认识和理解,从教学效果来看,学生几乎都能直观得到数据带来的信息。在此基础上学生也能更好更快地掌握柱状图的绘画。
3.多图介入,形成最终推论
简化表后数据都可以通过作图再次直观地一一推断出相应的结论。例如表四中,从与阳光垂直放置的第一组数据能够推断出物体在阳光下温度在不断上升,很好地总结了上次课的内容,即阳光和温度的关系。
分析后期,对于数据进行柱状图的处理,学生不难推断出新的结论,即与阳光垂直放置10分钟后温度上升最高。
【教学片段4】
教师指导学生进行绘画柱状图代替数据后,对阳光照射情况不同所记录的数据进行分析。
教师:对于表四中的数据,我们能够画出多少柱状图?
学生:老师,可以运用横排摆放的位置不同来画图。
学生:可以画一种摆放方式随着时间增加的变化柱状图。
所有学生都能比较快地得出相应的结论。学生所关注的对象已经完全由单一的数据过渡到直观的变化趋势中来。同时,在柱状图得出一定科学概念之后,学生对于数据的理解更加透彻。
一、SOM算法介绍
由Kohonen提出的自组织映射(SOM)的神经网络是神经网络中适合用于对数据进行分类的有效方法。SOM神经网络包含一个输入层和一个输出层,组织成一个二维的网格结构(图1.1)。该网络能够从任意一个随机选择输入的结点开始最终形成一个拓扑结构的映射,这个映射反映了输入模式的内在的关系。但是运用SOM有一些参数的限制,首先需要指定类别数目,对映射空间结点进行权值的初始化等。如(图1.1)所示,SOM网络是一个的映射,如果这个神经元被安排在一个平面网格上面的话,这个神经网络就称为二维神经网络,因为这个网络将一个高维的输入向量映射到一个二维的平面上面。给定一个网络,输入向量是一个维的向量,相应的第个突触向量的第个元素与输入向量的第个元素相连,这样,一个维的突触向量就和第个神经元实行连接。
图1.1 SOM网络的基本结构
SOM算法描述如下:
(1)令网络学习次数,赋予初始化权值向量一个小的随机向量值,对拓扑邻域()、学习率()进行初始化,设置网络总的学习次数()。
(2)当学习次数()小于总的学习次数()时,重复步骤3至步骤6。
(3)随机选一个输入向量进入网络进行训练。
(4)确定获胜神经元,相应的权值向量为与输入向量距离最短的向量,成为获胜神经元,输入向量与获胜神经元的最短距离为,定义如下:
(1.1)
(5)按照下式更新获胜神经元及其邻域内神经元权值向量:
(1.2)
与函数定义如下:(1.3)
(6)令,如果,回到第(3)步继续训练,否则结束训练。
二、数值模拟计算
本文以HUGEindex数据库中人7000多条基因在19个正常组织中的表达情况这19个组织中表达的基因为样本对其进行分析。不同组织下的全基因表达数据构成了一个7070x59的数据矩阵,其中每一个元素表示第个基因在第个组织中的表达水平值,行向量代表基因在19个人组织中的表达水平,成为基因的表达谱,列向量代表某一组织的各基因的表达水平。
(1.4)
本文运用SOM方法对人基因19个组织的59个样本进行聚类,SOM网络的拓扑结构见(图1.2)及参数选择见表(表1.1)。
图1.2 样本聚类SOM网络结构图
上图中,根据Genechip得到的人体19个组织的59个微阵列数据所得到的信息,我们采用4x5的二维拓扑结构的SOM网络对人体组织样本进行分类(其中第(4,5)个结点为空),图中每个结点的位置(结点位置用与输入模式维数相同的向权值向量表示,初始权值由系统自动产生)为各个结点权值尺度化之后所得到的位置。
三、结论
通过分类可以将芯片实验的59个样本按照人体组织类别分为19个类别,并且与采用层次聚类法所得结果进行比较,可以看出自组织映射的聚类方法与层次聚类方法比较,可以看出采用SOM网络聚类方法比层次聚类得到的结果更为明确,其分类正确率达到了92.2%,证明了SOM方法是有效的。
参考文献:
[1]孙啸,陆祖宏,谢建明.生物信息学基础[M].北京:清华大学出版社,2005:282-285.
[2]许东,吴铮.基于matlab6.x的神经网络系统分析与设计[M].西安电了科技大学出版社,2002.
[3]阎凡平,张长水.人工神经网络与模拟进化计算[M].北京:清华大学出版社,2005.:11-34,360-395.
学生每一个学习行为的背后,都是有目的、有价值、有意义的。简言之,学生自己要真正认识到这种学习是有用的,哪怕仅仅是因为有趣、好玩,才能激发学生进行相关学习的愿望和兴趣。对于数据分析观念的培养,教师有必要替学生问一个“为什么”,问题不必明确提出,但一定要把相关信息告诉学生,引发学生强烈的认知冲突,才会产生进行数据收集、整理与分析的欲望,才会使他们认识到学习数据分析的必要性,产生兴趣,从而建立与培养其初步的数据分析观念。
以二年级上册“统计”一课的学习为例,学生首次接触“统计”的相关内容。在学生尚不真正知道与理解该词的确切含义的情况下,教材提供的课例是“统计最喜欢的动物”,以统计图形式呈现出喜欢四种动物(小猫、小狗、小兔、乌龟)的学生的人数,并提供了3道题目,但教材始终没有告诉学生,“为什么我要学习这个知识”、“为什么我要进行数据分析”。此时,对这一问题的提出与引导学生思考,只能由教师在不动声色中完成。所以,教学时,利用学生爱吃零食的特点,我调整了教学思路,首先,我征得学生同意,打算用班上卖废品的钱给学生买糖吃。此举得到学生们的一致欢迎;其次,我要求5个小组长提前去学校门口的超市,了解糖块的种类与价格,并告知其他同学;再次,我要求班委成员负责了解班上每一名同学的需求并进行分类、计算总量。每人限一块,以便于合理安排买糖的数量与花费;再次,将买来的糖带入教室,上课,进行相关的数据整理与分析;最后,完成全部教学任务后,吃糖。
当我将此想法与实际的授课过程讲给其他老师听时,有老师笑谈“孩子们学习的动力就是吃糖”。我不否认这是学生们积极参与教学活动的动力之一,因为事先我有告诉学生全部的活动过程与“完不成就不会有糖吃”的话。但不可否认的是,对于二年级的学生来说,为了达成“每个同学都能吃到自己想吃的糖”这一目标,要在活动的每一个步骤都进行相关数据的收集、整理与分析,才能正确且顺利地完成任务。简言之,等于我们告诉学生,“为什么要进行数据分析”、“只因为我们需要达成一定的目的”,并且,活动的每一步骤的数据分析都有学生亲自进行,并明确知晓这样做的原因——当然不是教师的程式化的要求,这就使得学生的数据分析工作是主动的,各成员之间是相互合作的,既使学生愉快地接受了数据分析的内容与过程,也在增强学生数据分析观念的同时,培养了学生主动学习与合作的精神。
二、挖掘数据中蕴藏的深层信息,体验数据分析的应用价值