时间:2023-03-07 15:00:43
引言:寻求写作上的突破?我们特意为您精选了4篇云计算数据论文范文,希望这些范文能够成为您写作时的参考,帮助您的文章更加丰富和深入。
云计算是并行计算和分布计算以及网格计算的发展,是一种在海量数据大规模的集合中能动态处理各种服务器数据资源的一类计算平台,在电子商务、商业金融、科研开发等领域能得到广泛的应用。它具有大规模、虚拟化、高效率、通用性、廉价等特点,能针对不同的用户的不同需求,动态透明地提供其所需的虚拟化计算和资源储存,并能及时动态回收当前用户暂不利用的数据资源以提供给其他用户,而其廉价、通用的特点,使得一般用户实现大规模的数据操作成为可能。目前来说,云计算的平台已得到良好的发展,日益成熟,基于云计算的应用已经可以相当方便的部署和操作其数据资源。
1.2数据挖掘
数据挖掘技术是现代知识发现领域的一个重要技术,它是指一个从随机的大量而不完整的模糊的实际数据中提取其中某些隐含着的具有潜在价值的实用知识与信息的过程。其具体技术有特征化、聚类、关联和预测分析等等,涉及到的高级技术领域有统计学、机器学习、模式识别、人工智能等方面。
2基于云计算的数据挖掘平台构架
网络云的发展给数据挖掘提出了新的问题和时代的挑战,同时,也为数据挖掘提供了新的计算平台和发展机遇。基于云计算的数据挖掘系统平台的发现,解决了传统的数据挖掘技术出现的时代滞慢、效率较低、功能落后、成本高昂等问题。云计算是一种商业计算模式,是网格计算与并行计算及分布式计算在一定程度上的商业实现,其动态、可伸缩的计算基于云计算的数据挖掘平台架构及其关键技术探讨文/张瑶刘辉云计算是一种在互联网时代中应运而生的新兴的网络技术,具有高效率、高容量、动态处理的特点,在社会的商业领域和科研领域表现出了其相当高的应用价值。将云计算应用于数据挖掘平台的构架之中后,将能在很大程度上为现代社会中越来越海量的数据挖掘提供一个高效率的技术平台。本文将结合云计算和数据挖掘的基本概念和现代意义,对数据挖掘的平台构架和相应的关键技术做出简要的分析探讨。摘要能力使得进行高效的海量数据挖掘的目标不再遥远。同时,云计算SaaS功能日益被理解和标准化,使得基于云计算SaaS化的数据挖掘有了理论和技术的指导,并具有了企业化与大众化的发展趋势。
2.1数据挖掘平台构架
建立在关系型数据库之上的传统的数据挖掘技术构架在现时代数据急剧膨胀和分析需求渐增的发展下已经难以应付社会的数据处理问题。而云计算的分布式存储与计算形式则接受了当代的数据挖掘难题,促成了适应时代的云计算数据挖掘平台构架的形成。其包含了面向组件的设计理念和分层设计的思想方法。其构架自下向上总共分为3层,分别为底层的云计算支撑平台层、中间的数据挖掘能力层和上层的数据挖掘云服务层。
2.2基于云计算的数据挖掘平台构架各层意义
云计算支撑平台层:顾名思义,该平台层是云计算数据挖掘平台的基础处理平台,其主要具有的功能是对分布式文件存储与数据库提供资源存储,以及实行对数据的有关处理和计算功能。数据挖掘能力层:该平台结构层主要是提供挖掘的基础能力,是数据挖掘的核心支撑平台,并对数据挖掘云服务层提供能力支撑。该平台层包含了算法数据并行处理、调度引起和服务管理的框架,该平台层可以提供系统内部的数据挖掘处理和推荐算法库,亦支持第三方的数据挖掘算法工具的进入。数据挖掘云服务层:数据挖掘云服务层的主要功能是对外提供数据挖掘操作的云服务,同时也能提供基于结构化查询的语言语句访问,提供相关的解析引擎,以便于自动调用云服务。对外数据挖掘云服务能力封装的接口形式多样,包含了基于简单对象访问协议下的Webservice、XML、HTTP以及本地应用程序的编程接口等多种形式。另外,在必要的时候,云服务层的各个业务系统可以进行数据挖掘云服务的调用和组装。
3基于云计算的数据挖掘平台构架的关键技术探讨
基于云计算的数据挖掘平台构架的形成,离不开现代先进的科技技术,其中几项关键的技术应用将在这里进行简要的阐述:
3.1云计算技术
3.1.1分布式储存技术
通过采用分布式存储的方式来存储数据,是云计算技术保证数据处理高可靠性和经济性的重要保证。用可靠的软件来弥补硬件的不足,是分布式存储技术提供廉价而又海量的数据挖掘支持的重要途径。
3.1.2虚拟化技术
在云计算的环境下,数据挖掘能实现对大量的可用的虚拟化技术的应用、整合,发展出一套全面虚拟化的运行战略。云计算和虚拟化的共同组合,使数据挖掘实现了跨系统下的资源调度,将海量的来源数据进行IT资源汇合,动态地实现对用户的虚拟化资源的供给,从而以高效率、海量动态的特点完成服务任务。
3.1.3并行云计算技术
并行云计算技术是一种对于高效执行数据挖掘计算任务极其重要的技术,并且它对云计算的某些技术细节做出了封装,例如任务并行、任务调度、任务容错和系统容错以及数据分布等。该功能代替了用户对这些细节的考虑,使得研发效率得到了提高。
3.2数据汇集调度中心
数据汇集调度中心的功能主要是完成对不同类型的数据进行汇集。它实现了对接入该云计算数据挖掘平台的业务数据收集汇合,能够解决与不同数据的相关规约问题,并能支持多样的源数据格式。
3.3服务调度与管理技术
对于基于云计算的数据挖掘平台,为了使不同业务系统能够使用本计算平台,必须要提供相应的服务调度与管理功能。服务调度解决云服务下的并行互斥以及隔离等问题,以保证安全、可靠的平台的云服务。服务管理功能要实现统一的服务注册与服务暴露功能,并且支持接入第三方的数据挖掘,以更好地扩展平台的服务能力。
云计算技术的发展为计算机的进一步技术提升提供了方向,由于云计算自身有着对空闲资源整合的优势并能使之合理化的分配,所以在当前的工作生活中发挥了重要的功能作用。云计算的出现是技术上的革新,但为人们带来方便的同时,在安全性上也存在着诸多问题,其中最为突出的就是数据的完整性,所以加强这一层面的理论研究就有着实质性意义。
1 云计算中数据完整性具备的特征及检测技术
1.1 云计算中数据完整性具备的特征分析
云计算环境下的数据完整性自身具备着鲜明的特征,主要体现在对动态操作的支持,为能够对云中的应用得以有效满足,此时就需要完整性的验证机制加以支持动态操作。当前的数据更新需要生成大量的签名标签,从而使得计算代价以及通信开销方面相对较大。另外则是无状态的认证以及对用户隐私的确保,还有就是公开认证允许任意第三方替代用户完成数据的完整性验证。
1.2 云计算中数据完整性检测技术分析
云计算中的数据完整性检测技术比较多样,此次分析比较重要的几个协议,首先是哨兵完整性检测方案,这一技术方案主要是在数据当中进行随机插入小段数据作为哨兵,在进行实际的检测过程中,对哨兵进行检测替代对整个文件的检测。这一技术方案的安全性主要体现在原始文件以及哨兵除了在数据的拥有着之外其他人是无法进行分辨的。这一协议主要是先对数据进行处理,按照纠错以及加密和哨兵产生置换等程序进行实施。
从纠错这一程序傻上来看,主要就是将文件按照每组数据当中有多块的合理化分组,通过参数纠错码加以编码。另外在加密过程中所使用的对称密钥加密编码后每块数据,再者就是哨兵的产生,而在最后的环节置换上,首先是要通过伪随机置换函数将多个哨兵及加密后数据重新的排列并混合,从而实现数据中的嵌入工作。
2 云计算的数据完整性检测方案设计
2.1 数据完整性检测模型分析
云计算所提供的服务性能及成本管理等都有着很多的优势,能够让用户享受到高规格以及大容量的计算服务,而在云计算的数据完整性检测的模型应用框架方面也比较重要,其应用框架主要有参与方以及云服务商等。在云服务商所建立的云系统方面主要是向数据的拥有着及请求者提供的云计算服务,为能有效的达到这一服务目标,云服务商就要能采取相应安全措施来对服务的安全性得以确保。
大数据的完整性检测方案上,由于大数据信息量比较大,这就决定了其和普通大量数据间的区别,并能看出普通轻量级检测协议是不能完成大数据完整性检测的。要想能够有效完成数据的完整性检测,就需要满足相应的条件,数据的检测量和检测位置可由用户自己进行定义,倘若是检测的方案不能实现检测块数量由用户定义,是通过所有数据进行的监测,这样在检测所消耗的资源及时间上都有着较大的耗费。另外就是整个协议检测阶段的效率要能够和文件以及数据块大小保持独立性,适用于大数据完整性检测协议在数据检测阶段计算量不能与数据块大小有关,否则就会造成计算随着数据块的增大而增大。
2.2 检索公钥加密算法设计
为能够保障用户的信息数据安全完整,就要进行制定相对应的方案,从方案的主要参与方上来看主要有数据信息的发送者以及接收者、服务器、可信第三方这几个方面。其中的信息数据发送者主要是对数据的创建然后通过云服务商及接收者公开密钥加密以及发送数据。而在接收者则主要是通过私钥生成的所要查询的关键信息,发送给云服务商进行检索,在接收到云服务商检索结果过程中,进行解密数据和对结果数据进行核对。再者就是云服务商以及可信第三方,云服务商主要是向接收者提供云中文件存储及搜索服务,而可信第三方则主要是对云服务商的服务加以安全评估及认证,其主要的框架如图1所示。
对数据的完整性及安全性的考虑,主要是从离线关键词猜测攻击以及抗不可区分性选择明文攻击层面进行考虑。从方案的设计过程来看,首先假设k是一个安全参数,在云计算的系统实施部署的过程中,可信第三方调用子算法来进行计算公共参数,而后通过调用子算法生成服务器及接收者公私钥对并分发。在发送者所需要的明文文件n传输到接收者的时候,要对文件n的关键词进行确认。这些程序完成之后在进行调用Trapdoor(cp,pks,skR,W)进行对对应的陷门信息进行计算,并传输至服务器,在对信息接收之后通过检索得到密文并通过函数部分进行对密文解密。在这一过程中,接收者通过函数来解密文件的密文,然后通过相关的关键词来判定返回密文和检索的要求是否是符合的。
另外也可通过全同态加密的方式进行对数据完整性进行检测,这一检测的方法主要是在隐私的保护及数据处理过程中的应用,用户把需要存储的数据通过密文的形式进行提交云端服务器,其他的用户能够直接性的对密文数据进行处理操作但不能获得原始的数据,而用户则能通过云端服务器来获取数据处理结果并进行同态加密。
3 结语
总而言之,云计算当中的数据完整性检测是保障用户数据信息的重要途径,随着科学技术的不断发展,在检测技术上也随之而得到了升级,这样对数据的完整性将会得到更有效的保障。由于本文的篇幅限制,不能进一步深化探究,希望此次努力能起到抛砖引玉的作用,以待后来者居上。
参考文献
[1]姜日敏.电信运营商数据脱敏系统建设方案探讨[J].中国科技信息,2014(08).
[2]程风刚.基于云计算的数据安全风险及防范策略[J].图书馆学研究,2014(02).
[3]王衍锋,陈典友,姜帆,关磊,范瑾辉.商业银行敏感数据识别与风险分析[J].计算机安全,2013(10).
[4]王志文,王强.云计算敏感数据防泄露技术研究[J].信息安全与通信保密,2013(08).
笔者在中国知网(cnki.net)的中国期刊全文数据库、中国学位论文全文数据库和中国会议论文全文数据库检索题名包括“云计算+档案”、 “云技术+档案”和“云档案馆”的文献(检索时间为2014-3-12),删除其中新闻报道性和重复性的论文后,共检索出78篇论文。
1.1 时间分布。这78篇相关论文的时间分布如表1所示:
由表1可见,我国档案学界对云计算的研究始于2009年,2009年后开始引起学者较多关注,到2013年掀起一个较小的研究(2013年发表相关论文共33 篇),但是依据百度和Google的搜索结果,尚未出版云计算应用于档案管理的相关著作。
1.2 主题分布。上述78篇论文,其研究的主题可以分为理论研究(介绍云计算的概念、特点、优势,应用的可行性、问题及对策等)、具体应用(研究云计算在档案业务环节的具体运用,如备份、整合与共享、利用与服务、云档案馆等)、系统和平台构建(研究基于云计算的系统和服务平台架构、服务模式等)和应用的安全性。78篇论文的主题分布如表2:
从研究的主题来看,目前档案界对云计算的理论和应用设想方面的研究占主导,分别占全部论文的43.6%和44.9%。但是,基于云计算的系统、服务平台构建的研究论文只有5篇,对于如何用技术手段来实现“云”并没有系统深入的研究。
1.3 作者机构分布。各研究主题的作者机构分布见表3:
从表3可以看出,78篇研究论文作者中有22篇来自高等院校的档案院系,占全部论文的28.2%。26篇论文作者来自其他机构,约占33.3%,其他机构包括高校除档案院系和档案馆室的其他院系和部门、事业单位、军队档案馆等。从表中数据看,高等院校的研究者倾向于研究云计算在档案业务环节的具体应用,而其他机构的研究者更注重理论研究和云计算在人力资源档案、会计档案、健康档案等领域的应用与实现。
2 主题分析
2.1 云计算的概念和特点。田雷提出:“云计算是一种网络服务方式,提供了IT服务的一种交付和使用模式,用户可以通过网络租用或免费获取所需服务。”他还提出目前云计算的三个服务层次:基础设施即服务、平台即服务、软件即服务[2]。黄正鸿认为,云计算旨在通过网络(互联网和内部网)以按需、易扩展的方式获得所需的硬件、平台、软件及服务等资源。其特点可以归纳为:资源池;按需、自助;快速弹性;广泛的网络访问;可度量的服务[3]。陈康明认为,云计算是基于网格计算、分布式计算、并行计算、效用计算、网络存储、虚拟化、负载均衡等已有网络技术发展起来的一种基于互联网络的服务信息共享模式。云计算的特点是:数据存储更加可靠、安全;资源的合理分配;先进技术理念带来的以用户为中心的个性化服务[4]。
2.2 云计算在档案领域应用的可行性分析。刘永提出,云存储在技术、管理和经济上已经具备了数字档案存储的基本条件。云存储技术是分布式文件系统技术、网格技术、集群应用等技术的集成,后三种技术在理论和实践上都逐渐成熟。云存储将分散在各地的数字信息集中存储,各档案馆(室)可以根据需求来申请适当的存储空间,降低了资金投入[5]。朱悦华、何丽萍、丁建萍认为,云计算时代“云档案”的实现具有较为完备的云计算理论基础、较为成熟的云计算技术条件、较为低廉的云计算经济成本和较为完善的云计算实践环境[6]。
2.3 云计算在档案管理中的应用优势。文杰提出了云计算在数字档案馆应用中的四大优势:确保档案服务器的可靠运行,降低服务器的出错概率;降低相关的维护费用;扩展了信息资源共享范围;丰富的终端设备[7]。彭小芹、程结晶结合云计算的特点提出云计算在档案领域的应用优势,即可靠、安全的数据存储;方便、快捷的云服务;强大的计算能力;诸多技术的集合体;经济效益;个性化;以用户服务为中心[8]。祝庆轩、桑毓域、方昀提出了云档案馆模式的优点:有利于政务信息公开;有利于统一全国各地区档案工作标准;有利于节省软硬件投资;有利于减少对计算机人才的依赖[9]。
2.4 云计算应用面临的问题和对策。黄正鸿提出云计算技术本身存在的一些问题,如标准问题、版权纠纷问题、数据隐私问题、安全问题、软件许可证问题、网络传输、用户使用习惯问题等[10]。陈康明认为,云计算应用面临的首先就是信息安全问题;其次是执行的国际标准问题。对策是完善基础设施建设;制定安全监测环节和相关技术;制定监督和管理机制[11]。文杰认为,云计算应用面临的问题主要有资源的选择问题;协议和接口问题;数据安全问题。对策包括加强人才队伍建设;完善基础设施建设;制定相关政策规范云计算标准;提供基础建设的统一监控、管理和控制;加强安全检测[12]。
2.5 云计算在档案领域的应用设想
2.5.1 云计算在档案存储、共享与服务中的应用设想。田雷提出可以通过“基础设施即服务”整合档案行业的服务器、存储器等设备,部署“云计算”环境,向各级档案部门提供基础设施服务[13]。陶水龙提出了基于云存储技术的档案数字资源的云备份和多套多地的档案数字资源备份数据存放策略,建立了云备份系统架构及其运行机制[14]。吕元智提出了国家档案信息资源“云”共享服务模式,将分散的国家档案信息资源通过云服务平台组织起来,形成一个个档案信息资源服务“云”[15]。祝庆轩、桑毓域等提出档案馆馆际云服务,将档案馆电子文件信息置于云中心,用户可以利用云计算技术检索云档案馆“虚拟资源池”[16]。卞昭玲、李俐颍等提出通过云存储解决档案信息的存储、档案信息的收集问题,同时可以共享档案信息 [17]。
2.5.2 云计算在专门档案领域内的应用研究。廖玉玲提出了基于云计算的建设工程档案全过程监管模式的系统方案[18]。刘振鹏、卞昭玲等提出了基于云计算的区域电子健康档案服务系统[19]。邓岚提出运用云计算技术搭建国家综合减灾信息管理与服务系统,并分析了云计算技术在灾害档案信息管理中的应用优势和障碍[20]。
2.6 基于云计算的数字档案管理系统和平台构建。程春雨提出国家开放档案信息资源共享利用系统应采用两级部署方式,分别部署在中央云中心和50个国家综合档案馆。中央云中心应用系统开发主要包括档案信息资源整合系统、平台管理系统、国家开放档案信息资源共享利用门户网站;省节点应用系统开发主要包括省节点档案信息资源整合系统和基础工具包软件[21]。程结晶提出要构建统一的云存储平台,采用虚拟化技术,开发基于“元数据”访问的分布式数字档案数据访问接口,构建完整的云服务平台来实现数字档案资源的访问服务、请求认证服务、安全数据传输服务和快速资源搜索和资源发现服务[22]。郑光辉提出了基于云计算技术的数字档案利用系统设计方案,详细描述了基于云计算的档案信息资源整合系统、云平台管理系统及开放数字档案利用门户设计方案[23]。蔡学美提出云计算数字档案馆系统主要是由云计算数字档案管理应用程序、数字管理节点、计算机专用网络、安全防火墙、公用和私有的硬件设施等构成[24]。朱悦华、何丽萍等提出构建“云档案”资源共享系统,其系统理论模型由资源层、管理中间件层和服务层等三层构成[25]。
2.7 云计算应用的安全性。徐华、薛四新等提出云数字档案馆安全保障体系应包括防御系统、监控系统、容灾备份系统、应急响应系统和技术支撑系统,通过安全法规体系、安全组织体系、安全管理制度体系、安全人员培养和培训体系来保证[26]。崔海莉、张惠达提出将档案信息管理系统推入云的基础设施上,服务中断、数据失真、敏感信息泄露是可能遭遇的技术风险,组织策略、准入退出机制是可能遭遇的管理风险[27]。
3 问题与展望
3.1 问题。首先,研究内容重理论轻技术。当前对于云计算基础理论的研究较多,关于如何运用技术手段实现其具体应用的研究较少。78篇论文中只有5篇从技术角度阐释了云计算应用于档案领域的具体实现方式。应用设想相关论文仅仅止步于“设想”,对具体应用及如何实现其应用轻描淡写,缺乏技术因素。
其次,研究缺乏实践基础。相对于云技术在其他领域的快速实现,传说中的云档案馆、档案云尚未付诸实施,对于云技术的应用需求也没有实际调研,因此,大多数研究缺乏一定的实践基础。
3.2 展望
1.引言
虚拟化技术使得云计算中心的规模越来越强大,为确保云计算数据中心能够高效运行,加强对云计算机数据中心的监测与管理就显得尤为重要。本文研究了云计算资源监测系统的关键技术和如何确定资源监测的周期,为进一步的云计算资源监测打下理论基础。
2.资源消耗监测系统的应用技术分析
传统的系统资源消耗监测技术有多种,例如采用PostgreSQL数据库,或采用Web应用程序等均可实现[1],在本文中,提出了另一种监测技术: XML技术[2]。XML(eXtensible Markup Language,可扩展标记语言)起源于SGML(Standard Generalized Markup Language),是SGML的一个简化版本,非常适合于在Web上或者其它多种数据源间进行数据的交换。XML技术相对于前几种监测技术而言,具有支持智能代码、智能搜索以及平台无关性的优点,目前已经成为一种通用的数据交换方式,被广泛作为跨平台数据交互的工具[3]。因此,云计算资源的数据监测系统数据收集能够采用XML来实现。
基于XML的树状文档结构特点,可以构建出云数据中心资源消耗监测模型,如图1所示:
图1中各层监控节点与物理机间的对应关系如表1所示:
资源消耗监测模型通过Socket实现三层结构间的连接[4]。Terminal层由Ordinary nodes组成,Ordinary nodes部署在云系统服务器上,对Terminal层Ordinary nodes的设计要求是对单个节点资源消耗信息通过XML进行获取,并向上层传递。在Ordinary nodes上配置XML获取CPU、内存、网络属性及各自的利用率,并将此信息传到Server层数据库中,再由Server层数据库汇总,并对数据进行稀释处理后,向Managers层数据库传递。在Managers层的中心服务器上部署Monitoring center并提供数据库访问接口,通过Web Interface以网页界面形式展示所调用Managers层数据库,形成监测结果,为实现云计算任务的调度提供数据支持。
3资源消耗监测系统监测周期的确定
资源消耗监测系统Terminal端的功能是实现节点监测,其监测周期是资源实际性能值与负载监测值之间决定其一致性的最主要的因素。一致性指标反应了监测资源的实际值与监测值之间的吻合情况。在云计算资源消耗监测中,主要包括CPU、内存和带宽三类资源的消耗,这三类资源消耗在实时负载均衡调度、资源节能调度、计算资源利润最大化等方面,均属于最重要的指标,对其确定一致性指标具有重要意义。
在此以CPU资源消耗为例,确定监测周期与一致性的关系。在实验中,采用每秒钟采样5次,即设置监测周期为200ms,以一台HP服务器为实验监测对象,在服务器上部署了Refresh回调对象,Refresh回调对象是以ICE[5]对象的形式实现的。就常识来说,监测周期越短必然一致性越高,实测值和真实值越吻合。经试验结果显示,采样周期越短,资源消耗监测值和实际负载消耗的一致性程度越高,这与常识一致;在1.8秒之后,采样值和实际负载的一致性呈震荡波形,说明在采样周期大于1.8秒时,其一致性变差,对监测结果的准确性影响明显;在[0,1]秒内采样值和实际负载的一致性迅速增加,在[1,1.8]内,一致性增加趋于平缓,因此通过一致性来综合考虑监测周期的取值,监测周期的合理区间应该为(0,1.8]秒,1秒应该是较好的选择。
4.结语
文章提出了资源消耗监测模型,对云计算资源消耗监测系统的应用技术进行了分析,并确定了云计算资源消耗监测系统的监测周期,为实现后续的资源调度提供了技术和数据的理论基础。今后的工作是根据资源消耗监测平台上获取的数据,从如何实现云计算资源合理调度、节能调度以及计算资源利润最大化等方面进行进一步的研究。
参考文献
[1] 田文洪,赵勇.数据中心资源优化调度理论与实践[M].北京:电子工业出版社.2014.
[2] 姚瑶.基于时间序列的电信信息预测监控系统的开发[D] .东南大学:硕士学位论文,2008:4-9.