时间:2023-03-14 14:51:23
引言:寻求写作上的突破?我们特意为您精选了12篇数据云存储方案范文,希望这些范文能够成为您写作时的参考,帮助您的文章更加丰富和深入。
中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2016)07-0006-03
1 概述
近年来,随着大数据和移动互联网的发展,以及国家、大型企业信息化的大力建设,很多政府部门和企事业单位都纷纷建立了存储大量数据和媒体的应用系统[1]。1998 年图灵奖获得者 Jim Gray 曾断言:现在每18个月新增的存储量等于有史以来存储量之和。根据预测,2020年数据宇宙将达到35.2 ZB(1 ZB = 1百万PB)[5]。面对每天产生的大量数据,银行、国有企业、中大型企业等都耗费大量人力、物力、财力去建立自己的数据中心。但对于小型企业或服务短时用户来说,建立数据中心的费用是不值得去耗费或完全无法支付得起的,从而催生了一种按需收费的云存储技术。
随着云计算和软件即(SaaS)服务的兴起和发展,云存储已成为信息存储领域研究的热点话题。与传统的存储设备相比,云存储不仅仅是多个磁盘的整合,更是一个网络设备、存储设备、服务器、应用软件、公用访问接口、接入网和客户端程序等多个部分组成的系统[2-3]。云存储主要提供的是存储服务,用户通过网络将自己的数据上传至云服务提供商提供的在线存储空间中(公有云)。用户只需对自己所存储的那部分数据所占的存储空间支付费用,不必花费高昂的费用去搭建数据中心,节省了大量的费用。如果用户数据需要安全和保密,则企业或用户可根据自身条件和情况,搭建企业内部的数据中心,用来保存机密性数据,同公有云协同构成混合云来提供存储服务。
云存储是通过集群技术、分布式文件系统,将网络中大量不同类型的存储设备整合起来协同工作,共同对外提供数据存储和业务访问功能[5]。此概念一经提出,就得到众多存储厂商的广泛关注和支持。Amazon公司推出弹性块存储(EBS)技术支持数据持久性存储;Google推出在线存储服务GDrive;EMC公司收购BerkeleyDataSystems,取得该公司的Mozy在线服务软件,并开展SaaS业务;Microsoft公司推出WindowsAzure,并在美国各地建立庞大的数据中心;IBM也将云计算标准作为全球备份中心扩展方案的一部分;阿里巴巴也在世界各地逐渐建立起了庞大的数据中心Aliyun[4]。那么面对众多的云服务提供商,用户选择单云还是多云成为需要考虑的问题。对于用户来讲,不仅要满足用户对于性能和安全的要求,还应尽量地去降低成本;而对于提供商来讲,则重在考虑存储效率及服务的安全性和稳定性,保证满足用户的正常需求。
为应对云服务商垄断和单点故障问题,在学术界就有人提出多云存储架构。为更好地解决多云存储中的性能和可靠性保证,本文提出一种基于多云存储的数据放置策略方案,通过优化数据放置和副本存储方案,提高数据访问性能和存储效率。这样既可以为用户提供安全稳定的存储服务,服务商还可进一步提高存储效率。
2 基于多云存储的数据放置策略设计
2.1 云计算与云存储
云计算是在分布式处理(distributed computing)、并行处理(parallel computing)和网格计算(grid computing)等基础上进一步发展的产物,是透过网络将庞大的计算处理程序自动分拆成无数个较小的子程序,然后再交由多台服务器所组成的庞大系统经计算、分析后、将处理结果回传给用户[6]。运用该技术,将不同地区、不同类型的单一服务器或PC中的计算资源和存储资源整合,通过虚拟化技术统一到庞大的云计算系统中,达到可在数秒内处理数以万计的数据请求和访问。云计算系统不仅具备对数据进行处理和计算的功能,还具备存储大量数据的能力,由此可以把云存储理解为以数据存储和数据管理为中心的云计算系统。从三层模型分析得出,云计算和云存储的访问层、接口层相同,在基础层方面,云存储增加了数据管理和数据安全的部分相关功能。
2.2 多云存储
在The ACM Symposium on Cloud Computing (SoCC) 2010会议的“RACS: A Case for Cloud Storage Diversity”的文章中就已提出云服务商垄断的概念,即当用户要将存储的全部数据从单云中迁出时,就不得不为此付出高昂的费用和代价,这样便使得用户对某个云服务平台存在依赖与绑定。在2011年,Amazon 云平台因数据过度备份而耗尽其存储空间,从而导致Amazon云平台在短时间内出现宕机和停止服务的状况,使得多个基于Amazon平台的网站长达24小时都处在离线状态。因此为应对和解决云服务商垄断及单点故障问题,则在学术界提出多云的概念。
多云是将各种类型(public、private、hybrid clouds)和品牌(Azure、Amazon、Rackspace、Aliyun等)的云产品部署在一起。而多云存储则是将这些不同云服务提供商提供的公有云存储整合在一个统一的存储架构体系之内,用户上传的数据分散存储在不同的云存储平台上。
2.3 冗余机制
随着人们对于数据安全性及可靠性需求的不断提高,文件的单副本存储已经完全不能满足用户需求,因此就需要采用多副本进行存储,以实现数据存储的可靠性。多副本存储不仅仅在性能上可以保证数据存取的高度并行性,而且在容错上根据副本数目的不同可以提供不同层次的容错度。
当用户将数据上传至多云架构时,则需明确指出该数据的容错度、实时性需求,性能要求、数据获取的主要区域,位置控制器可根据用户数据的各项参数,决定改数据需要采用什么样的冗余机制、存储区域的选择等。例如针对于新闻来说,这类数据对于实时性要求比较高,在存储时需采用多个副本进行存储(通常为三副本存储),这样就可提供高并行存取。对于游戏数据来说,则对存取性能要求比较高,因此我们则需更高的冗余度来进行存储,以提供更优质的服务。对于国内新闻来说,超过90%以上的用户都来自国内区域,因此我们在存储数据时,则应在国内的数据中心上进行多副本冗余存储,以保证多用户的实时高并发访问。
上图(图4)为冗余机制下数据放置的结构图,当用户将需要存储的数据上传至多云平台时,首先会将数据上传至数据放置控制器,控制器根据用户设定的容错度、实时性、性能以及数据访问的区域的参数,决定数据需要采取哪种冗余机制进行存储。然后按照控制器设定的冗余要求进行冗余存储。存储数据的云平台会根据云服务商提供的区域特点,拟在每个云的不同区域(美国西部、欧洲、亚太地区、南美洲)中选取一个存储节点。然后将多个云服务商提供的存储资源进行合并,构成多节点的冗余存储架构。
图5中描述将六个文件(A、B、C、D、E、F)采用三副本冗余机制上传至多云平台架构的数据分布图。从图中可以表现出冗余机制的以下优点:(1)当用户请求文件A时,多云架构可从Azure、Amazon、Rackspace三个云存储服务中并行下载所需文件,提高用户请求访问效率,降低访问延迟。(2)解决了单云故障问题,当Amazon云平台出现故障宕机时,如用户需要获取文件B时,则可从Rackspace或Aliyun云平台进行获取,避免了单点故障问题造成的存储和访问服务中断。(3)当文件发生损坏或丢失时,可从包含该文件的两个云平台上进行快速恢复,满足用户对于容错度的需求。综上所述,引入冗余机制不仅可以满足用户对于实时信息获取的低延迟和高并发访问,避免了由于单点故障造成的数据或服务中断问题,还提供了数据丢失时的快速恢复机制,保证为用户提供可靠的数据存储和访问服务。
2.4 一致性hash算法概述
consistent hashing 算法早在 1997 年就在论文 Consistent hashing and random trees 中被提出,目前在 cache 系统中应用非常广泛。在一致性hash算法中,为了满足平衡性,引入了“虚拟节点”的概念。――“虚拟节点”( virtual node )是实际节点(机器)在 hash 空间的复制品( replica ),一实际个节点(机器)对应了若干个“虚拟节点”,这个对应个数也成为“复制个数”,“虚拟节点”在 hash 空间中以hash值排列,每个物理节点生成的虚拟节点越多,各个物理节点之间的负载越均衡,新加入的物理服务器对原有物理服务器的影响就越保持一致[7]。增加虚拟节点后,可以使得数据可以较为分散且均匀地分布在各个节点上。
上图(图6)展示了为引入虚拟节点的对象映射图,从图中可以看出当Node2节点出现故障时,object1指向了Node1节点,object2、object3、object4均指向了Node3节点,因此造成了数据分布特别不均匀;为了应对这一缺点,从而引出“虚拟节点”的概念,下图(图7)描述的是当引入虚拟节点时数据的分布情况,对比图6明显地解决了分布不均匀的问题。根据以上的分析,本文通过运用一致性hash算法到多云架构,使得上传的数据能够均匀地分布在多云架构中,缓解不同区域数据存取的访问性能和效率,提高用户体验。
2.5 场景应用
随着信息技术的发展,用户对于应用的体验要求越来越高,那么如何提高用户体验以及保证不同区域用户体验的相似性成为研究的重点话题,本文拟通过一致性hash算法来解决该问题,使得用户数据在存储时尽可能地分散均匀存储,避免数据存取的不均匀性和两极分化性。
随着应用的不断发展和普及,用户变得越来越分散,那么如何为全球各地的用户提供比较均衡的性能?因此我们提出利用一致性hash算法可以保证数据分布平衡性的特点,将此应用到多云存储架构中,保证用户体验的相对均衡,缓解不同区域用户体验的两极分化现象。例如有一款游戏,它的用户分布在全世界各地,那么我们在存储游戏本身数据和用户数据时,因为考虑到当前主流云存储服务提供商(Azure、Amazon、Rackspace等)的所有regions分布,我们会在美国西部、欧洲、亚太地区、南美洲等四个区域进行数据存储,这样既可保证处在世界各地用户的体验相差不会太大,提高应用的用户体验和评价。另一种情况,我们则会进行特殊处理。例如针对于国内新闻来讲,有可能访问该新闻数据的用户90%以上都处于国内的区域,那么我们在对数据存储时,则会将数据保存在亚太地区regions中的多个数据中心,但数据进行存取时,则应保证数据在国内区域尽可能地分散和均匀,这样不仅可保证用户集中访问的服务可靠性,还可保证全国各地的用户体验近似相同,避免出现两极分化的现象。综上所述,在对数据进行存储模式设置时,我们会根据数据的属性和情况,进行适应性地选择存储模式,在保证性能的同时,还可使得性能在不同区域中得到均衡,避免或减少两极分化的出现。
下图(图8)中描述的是对数据进行随机放置和使用一致性hash算法放置出现的情况对比。从图中上图可以看出,当我们采用随机放置策略时,有可能就会出现数据的区域聚集,导致有些区域的数据块较少。针对于图中所示情况,当美国、欧洲、亚太地区进行数据存取时,都能够较快地获取到所需数据;而当南美洲用户进行数据访问时,则有可能就会出现较大延迟,因为该区域没有存储相关数据,需要在距离较近的美国存储区域进行数据获取,但是由于距离以及网络带宽等的影响,会使得用户获取数据较慢,从而使得用户体验较差;例如当南美洲以为用户访问数据时,因为该区域未存储文件,因此用户的每一次访问都需从其他区域进行获取,那么这就导致南美洲区域的用户体验特别差;而其他三个区域包含了所有的文件,因此当这三个区域的用户访问数据时,都可以及时获取到自己所需数据,用户体验较好。这种数据放置情况下,只保证了一部分用户的较快数据访问,用户体验两极分化现象严重。图中下图表示采用一致性hash进行数据放置的情况,从中可以看出数据分布相对比较均匀,四个区域中的任何一个进行数据访问时,大多数情况都可以在自己所在区域的云上获取所需数据。当出现所需数据不在当前区域时,则可就近选择区域进行数据获取。例如当一位美国用户需要获取文件File4时,其所在区域不包含该文件,则可从距离相对较近的南美洲进行获取。由于这种情况相对较少,而且四个区域的用户出现这种情况的概率基本一致,因此在保证了用户体验较好的情况下,也进一步改善两极分化现象。
3 结论
本文针对多云存储架构下数据放置的不均衡性、用户对于信息获取实时性的需求,提出将多副本存储机制和一致性hash算法应用到多云存储架构中,多副本存储机制可以保证用户对于数据获取性能的要求,还可保证用户数据的安全性和可靠 性;一致性hash算法在保证用户对于实时信息快速获取的同时,还可保证用户体验的均衡,避免出现两极分化现象。
参考文献:
[1] 詹增荣.多云存储平台资源共享与安全架构设计[J].信息技术,2015,15:150-151.
[2] Hayes B. Cloud Computing [J].Communications of the ACM, 2008, 51(7):9-11.
[3] LIN G, DASMALCHI G, ZHU J. CloudComputing and IT as a Service:Opportun itiesand Challenges [C]//Proceedings of the IEEE6th International Conference on WebServices (ICWS’08),Sep 23-26,2008,Beijing, China. Los Alamitos, CA,USA: IEEEComputer Society, 2008:5.
[4] 周可,等.云存储技术及其应用[J].中兴通讯技术,2010,16(4):24-27.
中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2014)31-7235-02
近年来,计算机网络技术快速发展,云计算作为一种新兴的应用领域,受到了人们的广泛关注,在多个领域中迅速流行和推广。基于云计算机的安全数据存储结构可以安全的分析、共享、广利和存储大量的复杂数据,不仅可以拓展容量,其管理成本和设备投入也较低,是未来计算机存储系统的重要发展趋势。
1 基于云计算的数据存储结构概述
1.1 云计算的基本概念
云计算是由网络计算、并行处理和分布式处理发展起来的,是一种重要的分布式计算技术,云计算的基本概念是利用计算机网络将复杂的计算程序分解成若干个独立的子程序,将这些子程序交给运算系统的多层服务器来处理,处理完成后将计算结构回传给计算机网络用户。
云计算是一种对分布式数据库、网格计算、并行处理以及分布式处理的改进计算方式,可以有效地解决复杂数据的网络计算,并且为多种计算机资源提供公用的可计量的计算,是虚拟化技术和宽带技术的一种重要发展成果。云计算可以为我们的生活、工作和学习提供多样化的服务,如MSP(管理服务)、PaaS(平台即服务)以及SaaS(软件即服务)等[1],这些服务可以帮助计算机网络用户节约系统维护成本,专注于应用系统开发,省去了很多繁琐的细节过程。
1.2 云计算的数据存储结构
1) 存储层:存储层是云计算数据存储结构最基础的层次,主要由多种网络设备和存储设备组成,在存储层还有一个最主要的存储管理系统,其主要职能就是对各种硬件设备的维护升级、状态监控以及集中管理等。
2) 管理层:管理层是云计算数据存储结构的核心部分,同时也是最复杂繁琐的部分。管理层主要采用了成熟的分布式存储系统和集群管理技术,不仅具有良好的可拓展性,还可以复杂云存储系统的容灾、备份以及数据加密等任务[2],极大地满足了用户的对数据存储性能和可用性的需求。
3) 接口层:接口层是云计算数据存储结构开发和应用云储存资源最重要的部分,云计算的数据存储供应商可以通过接口层为计算机网络用户设置统一的编程和协议接口,便于用户自主开发应用程序。
4) 访问层:云计算数据存储结构的访问层是应用程序的系统入口,计算机网络用户可以通过这个入口登陆云计算数据存储系统,共享系统的数据资源。
2 基于云计算的数据存储安全技术
2.1 数据加密技术
当前,云存储系统服务商除了提供即服务(SaaS)之外,其保护私密数据的能力非常有限,因此计算机网络用户自身要注意对数据进行加密,为了确保云存储数据的完整性和机密性,无论是个人用户还是企业用户都要提高数据安全意识,使用数据加密技术,加强密钥管理[3],提高云储存数据的安全性和利用率。
2.2 数据隔离技术
由于基于云计算的数据存储结构会将用户的数据随意摆放,很多用户的数据可能会共同存储在一个虚拟服务器上,因此用户要注意使用数据隔离技术将自己的数据和其他用户的数据隔离开来,提高云计算数据存储的安全性。
2.3 访问权限控制
计算机网络用户将数据上传到云计算数据存储系统后,访问数据的优先权由计算机网络用户转移给云计算提供商,因此用户要限制云储存服务商的访问自己数据的权限,在上传数据之前,将自己设置为访问该数据的最优先级,掌握访问该数据的权限,确保云储存系统的数据安全。
3 结束语
如今的信息化网路时代,基于云计算的数据存储结构是未来存储系统重要的发展趋势,如果有效地利用云计算的数据存储结构、如果确保云计算的数据存储安全、如何提高云计算数据存储结构的运行效率等问题逐渐成为人们关注的焦点,随着云存储系统的快速发展和广泛应用,我们相信这些问题会逐渐被解决,同时也推动基于云计算的数据存储结构的不断改善和改进。
参考文献:
二、整治范围
危险化学品储存场所(含生产、经营、运输环节的罐区、库场、堆场等),重点是构成重大危险源且涉及硝酸铵等爆炸品、有毒有害气体的储存场所,甲类、乙类易燃液体及液化气体的储存场所,尤其是单独储存经营油品或化工品的罐区。
三、整治内容
(一)储存场所未取得合法规划手续、周边安全防护距离不满足安全要求的。
(二)未经过正规设计,存在违法建设和经营、未批先建、批小建大、无证经营等违法行为的。
(三)安全生产责任体系“五落实五到位”不落实,未制定和落实安全管理制度的。
(四)专职安全管理人员配置不到位,未依法依规对从业人员开展安全教育培训,从业人员无证上岗,对本岗位涉及的危险化学品安全风险不清楚、不掌握的。
(五)未对重大危险源定期辨识、评估及备案,重大危险源安全管理制度和安全操作规程不完善,未建立安全监测监控体系或体系不稳定不可靠,未及时采取有效措施消除事故隐患,重大危险源管控不到位的。
(六)安全仪表系统设计、安装、调试、操作、维护等全生命周期管理及制度不健全或不落实;液位、温度、压力等重要运行参数监控系统运行管理不到位;油罐液位超低、超高报警和自动联锁设置及运行不完好;有毒物料储罐、低温储罐、压力球罐进出物料管道和危险化学品长输管道未设置紧急切断设施;可燃、有毒气体泄漏报警系统的配置和运行不完好;可燃、有毒气体检测仪报警时,岗位人员未及时到现场确认并采取有效控制措施等安全仪表系统管理不规范的。
(七)违反爆炸品(《危险货物分类和品名编号》〈GB 6944-2012〉中规定的1.1项、1.2项)和硝酸铵类物质的危险货物集装箱应实行直装直取、不准在港区内存放的规定,与易燃易爆、有毒有害危险化学品的安全距离不符合规定要求,存在超量储存、违规混存、超高堆放、野蛮装卸等现象的。
(八)动火、进入受限空间等特殊作业违反有关国家标准要求,未建立并严格落实特殊作业管理制度;易燃易爆危险化学品储罐区未配置避雷、防静电设施并定期检修、检测;储罐切水、倒罐、装卸过程中,未安排作业人员在作业现场看护;储罐超温、超压、超液位、管线超流速操作;在储罐或与储罐连接的管道内违规添加强氧化剂、易聚合、强腐蚀等可能发生剧烈化学反应的物质;库房内违反规定混存、混放;泄漏物料不及时处置,现场有“跑、冒、滴、漏”等现象的。
(九)未审核承包商的资质和安全生产业绩,未对承包商实施入厂前安全教育,未对承包商作业过程进行现场监督、过程监控,未有效防控作业安全风险等承包商管理不到位的。
(十)未制定符合实际需求的危险化学品事故应急预案并定期开展应急培训和演练,应急预案未与地方政府有效衔接,应急救援器材、设备、物资配备使用不到位的。
(十一)未吸取天津港“8・12”特别重大火灾爆炸等同行业事故教训,未制定并落实整改措施,排查治理隐患不全面、不彻底的。
四、工作分工
安全监管部门、交通运输部门、铁路部门按照部门职责和“谁审批、谁负责”的原则分工负责。交通运输部门和铁路部门要及时将专项整治中涉及其他管理部门职责的事项通报给同级的安全监管部门;安全监管部门要做好综合协调,及时将有关事项通报同级的相关管理部门。
五、进度安排
(一)安全风险隐患摸底及企业自查自改阶段(2016年5月至7月)。
各省级安全监管、交通运输部门和各地区铁路监督管理局要动员部署涉及危险化学品储存的企业开展专项整治。省、市、县级安全监管、交通运输部门和各地区铁路监督管理局要认真组织摸排危险化学品储存场所的底数,建立危险化学品储存场所及其安全风险的分布档案,并报同级人民政府安委会,安委会将有关信息通报相关成员单位。
涉及危险化学品储存的企业要结合《国务院安全生产委员会关于深刻吸取天津港“8・12”特别重大事故教训 集中开展危险化学品安全专项整治的通知》(安委〔2016〕4号,以下简称《通知》)要求,将危险化学品储存场所安全专项整治内容作为重点,全面开展自查工作,对检查发现的问题和隐患要建立台账并及时整改;暂时不具备整改条件的,要制定有效的风险管控措施,落实责任,限期整改;不具备安全生产条件的,必须立即停产。
(二)政府部门检查督导阶段(2016年8月至10月)。
省、市、县级安全监管、交通运输部门和各地区铁路监督管理局要组织专业力量将专项整治与执法检查、专项督查紧密结合,对重点企业、重点地区、重点单位进行全面抽查督查督导,督促涉及危险化学品储存的企业落实安全生产主体责任,排查治理消除事故隐患。国家安全监管总局、交通运输部、国家铁路局将根据专项整治开展情况,适时联合组织暗访暗查督导,及时将有关情况通报各有关部门和地方人民政府,确保专项整治取得实效。
(三)总结阶段(2016年11月)。
各省级安全监管、交通运输部门和各地区铁路监督管理局要认真总结专项整治工作进展、成效和经验并及时上报。国家安全监管总局将会同交通运输部、国家铁路局全面深入总结专项整治工作实施情况,向国务院上报总结报告。
六、有关要求
(一)各地区、各有关部门、各有关单位要高度重视专项整治工作,与落实《通知》紧密结合,加强领导,精心组织,周密部署,制定具体工作方案,分解细化任务,有序推进,务求实效,确保各项工作落实到位。
(二)有关企业要将由企业主要负责人签字的自查自改情况于2016年7月5日前分别报送市、县级安全监管、交通运输部门及各地区铁路监督管理局;每月5日前将隐患整改进展情况分别报送市、县级安全监管、交通运输部门及各地区铁路监督管理局。
其次,云的网络连接能力将是对数据云迁移操作的重要考验。企业与云数据中心之间数PB的数据的来回切换是比较困难的。根据企业数据量大小不同以及网络连接能力的高低,初次的数据迁移可能会持续相当长一段时间。这里,我建议各个机构在做数据云迁移前仔细检查本机构的网络情况并对内部网络的安全现状进行评估。虽然有些云供应商提出了用物理迁移的方法来代替网络传输数据,但是我们要看到,由于工作性质的原因,有些类似于病人病历、企业核心数据等敏感数据是不能被复制或采取物理迁移的方法带走的。鉴于此,这里我推荐两种方法:当企业的数据吞吐量较大但是数据量不是特别多,对传输延迟也没过多要求时,云供应商可以提供从企业到供应商某个存储节点之间的私人链接,方便企业迁移数据。企业可以根据自己的时间,在不影响公司正常运行的情况下做数据的转移安排;当企业的数据可以提供拷贝,那么我们可以采用sneakernet的方式,即:人工网络模式。将数据通过磁盘、移动存储设备等从企业服务器拷入到云数据中心或者从云数据中心拷贝出来,目前一些云供应商为了加快数据的转移,在给企业进行数据转移时会采取一些切实有效的人工网络模式,例如Nirvanix公司,他们在给客户进行数据转移时会提供一个配置了双千兆级以太网接口的存储服务器,当客户的数据拷贝完毕,公司就会带走服务器并将数据拷贝到云数据中心。
再者,为了将数据仓库有效地转移到云端,我们得适当结构化数据并使用正确的数据分析工具及迁移方法。目前,数据迁移主要有三种方式,即:系统切换前通过工具迁移、系统切换前采用手工录入、系统切换后通过新系统生成。结合目前各个机构的情况,我们采用“系统切换前通过工具迁移”方式居多。传统关系型数据库中的数据要转移到云端非关系型数据库需要面临很多的问题,一是要解决如何从关系型数据库中快速有效地抽取大量的数据到云文件系统和数据库,二是数据的转换问题。不管采用什么方法和策略,数据迁移后一定要对数据进行校验,检查数据的完整性、一致性等。
接下来,我们要关心数据云迁移过程中的安全性问题,制定一套安全有效的数据迁移方案对数据迁移进行安全管理是十分重要的。不管企业采用什么安全性数据转移方案,都必须注意数据的丢失和备份。对于敏感数据,很多云供应是缺乏长期处理的经验的。况且数据在云服务中采用的是共享存储的方式,这会使得原本在传统烟囱式架构中很易于实现的安全策略在云环境下变得具有风险性。这里建议企业在选择云存储服务商时应仔细评估,认真查看云供应商提供的安全防护措施和采用的标准,并结合自己的实际情况提出适当的调整和修改。再者,数据的备份工作都是必不可少的。还应该对备份的数据进行测试,确保当出现一些异常情况时备份的数据可以使用。虽然一些云供应商会做这一步操作,我们还是建议企业自己备份,企业可以利用云供应商提供的备份或数据导出功能来做这个操作。不管备份在什么地方,我们都必须确保在数据转移过程中受到严密的保护。并且要求云供应商提供监控功能,监控访问数据的人员以及对核心数据的加密。
最后,如果企业对当前云供应商提供的服务不满意需要更换服务商,如何在两个服务商的云之间转移数据?这应该是当前一个很棘手的问题。由于目前云存储还处在初级阶段,各个云供应商都采用自己的加密或传输机制以区别其它厂商。因此没有一个规范和约束的统一标准。很多云存储供应商无法直接将客户数据迁移到另一家供应商,当服务出现故障时,数据将返还给客户,然后客户要再找另一家云供应商,或者将数据存储在本地服务器。这样会无形中增加很多繁琐的工作量。这里建议各个云供应商提供一组云数据管理的应用编程接口API,可以实现不同云供应商之间的数据传输,让数据迁移更为便捷。
通过以上分析我们可以看到完善的存储和数据管理策略才会让云存储变得切实可行。这里给要采取云存储的企业几点建议,一是在迁移过程中必须确保包含了全部数据源。不能只专注某个局部数据,否则会导致数据的失真和信息量的不完整,为以后的使用埋下祸端。二是优化存储。企业在做数据迁移前必须要明确迁移数据的范围,然后再从不同的数据库中把有用的数据提取出来进行智能分析。确保能整合一些孤立的存储和低效应用的存储,把存储状态恢复到最佳状态。三是尽可能的采用“自动化转移”的方式。即我们在选择数据迁移工具时,
必须确保它能加快数据转移,减少人工干预,提高迁移数据的效率和灵活性。四是应该根据不同环境有区别的复制,这样可以尽可能的回收孤立的数据或者将他们移动到更有效的平台。
本次合作也是金山云从移动互联网到3C电器领域的拓展。作为个人云存储的代表,金山快盘不仅完成了用户个人数据的存储、迁移与管理,还提供了系统的个人云存储解决方案。这既是技术层面上的突破、也是个人云存储产品完整生态环境的典型代表。
1.2.1研究目标(1)实时正确采集联合站及中转站实时数据。(2)实时海量数据存储,并压缩存储空间。(3)查询实时数据的快速响应。
1.2.2主要技术经济考核指标(1)数据采集正确性不低于99%。(2)实时海量数据存储,实现数据永久保存。(3)查询实时数据的响应速度不应高于5s。
2技术原理
2.1研究现状
随着油田自动化与数字化范围的扩大,企业数据容量很快从TB级扩展到PB级,传统的数据处理与分析技术无法满足百万甚至千万级设备同时在线的性能需求,建立符合油气生产规则的大数据处理云平台以及应用标准成为当务之急:(1)油气大数据云能同时管理海量物联设备,不仅能够满足千万级并发处理要求,而且需要确保数据的实时性响应达到工业级(低于20ms)。(2)油气大数据云通过制定数据行业标准,规范设备接入数据格式,实现设备即插即用,为物联网快速扩展提供基础。目前我国在社交网络、金融等领域,已经相继建设了大数据平台,但是在传统油气工业领域,存在着大数据产品数据格式不统一,诸多新技术应用标准化研究还比较匮乏的问题。为建立油气行业大数据云平台,需要如下几个角度开展研究:(1)大数据采集与存储技术在油气开采领域需要处理的结构化和非结构化数据量巨大、类型多样,主要包括各类数据体、成果文档、图件报表及“四化”(标准化设计、模块化建设、标准化采购、信息化提升)建设实施采集监控、仪表数据等。对于非结构化数据、整体管理比较弱、除部分实时数据,更多数据存储在磁盘上,存在各数据横向间无法联通等应用瓶颈,数据应用间标准缺乏。为了准确地对多个数据源进行数据分析,所有数据集应包含一致的元数据或描述性信息来解释测试数据被保存的原因。元数据模型包括数据结构的定义、全局数据的分片、分布、授权、事务恢复等描述。在底层架构和文件系统上要高于传统技术,能够弹性扩展。以往存储系统和存储区域网络等体系,存储和计算物理设备分类,之间通过网络接口连接,处理数据密集型计算,I/O容易形成瓶颈。通过分布式文件系统将计算和存储在物理上结合在一起,可解决I/O吞吐量制约。大数据对存储另一个技术要点就是数据格式可扩展性,对各种非结构数据进行高效管理需求。(2)大数据管理技术体系大数据管理及处理能力已经成为引领网络时代IT发展的关键;获取大量运行数据并建立对其进行动态高效处理的能力,已经成为产业竞争力的体现。从数据库(DB)到大数据(BD),看似是简单技术演进,其实还是有本质差别,有些地方颠覆了传统数据管理方式。大数据管理系统需建立类似于传统数据管理评测基准。具体有用于评测、比较不同数据库系统性能的规范,性能指标值能够客观、全面地评测各个数据库系统的性能差距。大数据价值完整体现需要多种技术协同。因此,伴随着油田下一步智能化建设需要,首先应结合目前业界已有的云技术和大数据分类方法、通过油田大数据现状进行分析、梳理油田大数据的种类和数量、界定大数据采集范围、大数据处理及管理技术规范制定。针对不同类型数据采取不同策略。参考工业大数据白皮书,结合油气生产需要制定规范如下标准。1)基础标准。如:术语、架构、平台标准等;2)数据表示标准、如编码规范、元数据规范;3)数据处理标准、采集标准、处理阶段相关标准规范
2.2数据采集引擎设计原理
2.2.1对接协议根据PLC设备型号进行数据格式解析,建立见解析规则,可与PLC直接配置连接,可轻松接入各类自动化数据、设备管理信息。
2.2.2采集引擎支持分布式采集,使用Erlang并发特性,即每个PLC使用一个单独的进程根据PLC点表规则去采集数据,每个进程之间无共享数据,每个进程都是一个单独的个体,一个PLC出现问题,并不影响其他PLC的数据采集。充分利用服务器的多核处理器和多服务器进行分布式的采集。保证读取数据的高效性、稳定性、容错性。
3经济和社会效益分析
3.1经济效益分析
在油田领域,由于存在不同时期的系统,存在多个系统,形成“信息孤岛”,从而使得企业内部各部门间协作效率低,如何保证在既有系统上设计一种简便、有效、安全的异构数据(实时数据到关系数据)交换方案,成为亟待解决的问题。在油田网络管理、过程控制及智能设备不断升级基础上,本系统对扩展原有系统数据应用,提高数据有效收集、存储、应用具有一定创新性解决方案和思路,随着现代数据库技术的发展和实时库应用认识的进一步深入。基于目前方案的实时数据库系统以其灵活性和开发性的价格必将有着更广阔的应用,也能够基于实时数据应用门槛的降低提高数据的应用价值,能够给油气生产带来更多的信息,从而为油田生产潜力的挖掘提供更强有力的支撑,带来更大的经济效益。
3.2社会效益评价
一方面,通过实时数据的有效采集通道的建立,节省了油气生产现场数据采集与设备维护人员的投入,不断改善一线工作人员的工作环境,提升其工作满意度和工作热情;另一方面,通过实时数据的永久保存和应用分析,能够实时掌握油气生产各工艺环节的生产状态,及时发现油气生产中的各类问题,提前介入,在保证正常生产的前提下,降低生产故障发生的概率,为油田周边生态环境提供了一道保障,为打造油田生态系统奠定了良好基础。
4结论及认识
4.1结论
中图分类号:TP391 文献标识码:A 文章编号:1009-3044(2016)15-0250-02
Abstract: The data acquisition, processing and interpretation system for oil exploration is a huge system with large blackbox technology, To Oil-ESB new technology without concern for the underlying system technology, Almost no need to write code to configure the system, business, data transfer integration. Oil-ESB not only has the basic functions of ESB, the new development of the 11 blackbox technology, such as: time-travel technology and Metadata management technology, ODS database technology, distributed data block cloud storage technology. It can easily achieve seismic processing and interpretation results visualization system, bulk data distributed massive data in the cloud storage system, national secret enhanced encryption technology of real-time data processing and fitting system, high performance balancing service system. Based on this research and development of a set of advanced, reasonable, perfect, efficient, and structured, systematic, easy to operate, easy to use, comprehensive organization of digital petroleum exploration system.
Key words: Oil-ESB, time-travel technology, Operational Data Store, blackbox technology, Metadata, No protocol files ferrying control technology, Distributed cloud storage technology.
1 概述
石油勘探是石油天然气勘探开发产业链中对油田开发效益影响最大、技术含量最高的一环。石油勘探信息化技术体系是由时间维、逻辑维和知识维(或专业为维)组成的一个立体的、跨学科的体系,集中体现了系统工程方法的系统化、综合化、最优化、程序化和标准化等特点。随着石油工业的发展和剩余油气藏开采难度的加大,勘探开发的融合越来越紧密,对于油藏地质的研究和开发动态分析的要求越来越深刻。为发现复杂油气藏,深入分析开采过程中不断变化的地下形势,制定调整方案,提高采收率。在地震解释、油藏数值模拟、油藏三维地质描述等方面都应用了大型的软件系统,并不断推进集成化程度,使得从寻找油藏、认识油藏到开采动态形势分析、方案预测的工作效率和质量大大提高。勘探开发一体化是适应知识化与信息化时代,加速油气资源开发,提高投资效率和增加企业效益的新理念。Oil-ESB(Oil-Enterprise Service Bus,即石油企业服务总线) 基于油气生产系统及中石油信息化等大型项目开发相关深度应用系统,应用在油田生产的各个领域,它可以在不改变现有基础结构的情况下让几代技术实现相互操作。通过简单的标准适配器和接口,很容易完成多维粒度应用(服务)和其他组件之间的互操作,能够满足大型异构企业环境的集成需求。
Oil-ESB是系统中间件技术与XML、Web服务等技术结合的产物,提供了SOA架构中最基本的连接中枢。使用Oil-ESB在几乎不需更改任何代码,以无缝的非侵入方式使油田勘探生产已有的系统具有全新的系统服务接口,并能够在系统部署环境中支持任何IT架构与数据标准,包括云计算架构与石油行业的POSC、WitsML、EPDM等数据标准。更重要的是,充当“缓冲器”的Oil-ESB,负责在诸多服务之间转换业务逻辑和数据格式与服务逻辑相分离,从而使得不同的应用系统能够同时使用同一服务,不用在某个应用程序或者数据发生变化时,修改任何服务代码。
2 石油企业服务总线Oil-ESB技术功能
Oil-ESB支持在石油分布式应用系统之间通过中间层如集成实现直接对等沟通服务功能。支持SOA描述了一种IT基础设施的应用集成模型,其中的软构件集是以一种定义清晰的层次化结构相互耦合,它包含了实现SOA分层目标所必需的基础功能部件。
Oil-ESB具有石油勘探信息化基于标准的、开放的、高性能的消息管理中心和高性能集群技术,通过多年的研制积累与开发,目前Oil-ESB具有(如图1)30个石油企业服务总线功能,即:穿越技术、多元数据管理技术、国密的增强加密技术、ODS生产数据库技术、大块数据无协议文件摆渡控制技术、分布式数据块云存储技术、实时数据处理与拟合技术、高性能均衡服务技术、中介服务、穿越服务、服务编排、多元协议转换服务注册、服务查找、服务监控的开发接口、多元数据处理与管理系统、消息服务中心、消息告警、消息路由、消息控制、加密与安全控制、集群环境ESB Server的管理及各种日志控制级别、服务线程配置各种维度的事前预警、事中协议、事后统计分析、扩展框架、SLA服务等级协议管理、无协议文件摆渡控制系统、松耦合接口、OPC控制接口、QOS质量控管理制系统
3 穿越技术与多元数据管理技术
如图2所示,是基于穿越技术与多元数据管理技术所设计研发的地震解释成果信息化平台系统的页面截取。此系统功能说明:无论是勘探数据采集人员、地震资料处理人员或是地震资料解释人员;无论数据来源什么年代、使用什么技术;还可能是几代石油勘探人的技术、成果、数据都经过时间与空间的穿越与多元数据处理管理技术,将整个生产科研应用集成在此地震解释成果信息化平台系统的可视化系统窗体上,供油田勘探开发人员识别、研究、查询,为油田生产提供可靠的技术保障应用。
地震解释成果信息化平台系统的可视化系统是以勘探综合测网图为底层图层,加载多元工区图层数据和区域内井资料图层数据。实现可视化查询功能:在在震工区框中实现标右键选中工区,鼠标左键实现查询功能,可查询的项有:测线位置、测线信息、纸剖面浏览、SEGY单剖面资料浏览、SEGY层位解释数据浏览、单速度剖面浏览、单条速度剖面基本信息的浏览;实现管理、查询、使用的数据有:地震资料解释数据、地质分层数据、连井多井地层对比图、地震解释成果图、成果报告及多媒体、地质分析数据及图件的名称、制作日期、类型、图件位置等信息,实现工区分类,各工区下按时间、图件类型进行分类,便于查找及浏览;在此界面中点击字段名称,可按字段进行排序、过滤、分组等,查询结果可保存或打印。井资料组合数据管理,实现右键选中井,鼠标左键实现各项查询功能有:完井信息、测井曲线、试油试采数据、综合录井图等与井相关的信息解释成果,可管理、下载、过滤、分组查询等,结果可保存或打印。
4 OIL-ESB分布式大块数据云存储技术
石油勘探数据被称为大块数据,它可能是几百MB到几个TB,一般数据文件大小为几个GB至上百个GB,这类大块数据的存储与使用都非常耗时、耗资源,Oil-ESB分布式大块数据云存储技术采用多元分布式存储池技术,按大数据分析决策树法进行大块数据进行一类和二类数据高速分割,实现了海量数据的高速压缩、高速读写和高速传输,为支持海量数据处理,实时海量数据分析提供了优良的存储架构。大块数据存储系统作为一个整体,存储系统虽然由多套物理上分散的存储节点组成,但是在逻辑上其为不可分割的一个整体,在使用和管理上就是一套独立的存储系统。它提供一整套完整的技术方式对整个存储云进行统一的管理和监控。Oil-ESB分布式大块数据云存储系统提供了完全基于图形界面的管理工具,也提供了基于命令行的管理工具,可以根据自己的喜好来选择合适的管理工具进行整个存储系统的管理、配置、监控等任务。使用Oil-ESB分布式大块数据云存储系统所提供的数据存储和访问的功能而不需关心存储的结构和操作,系统会利用逻辑位置和物理位置的映射,在相应的物理位置找到所需要的数据。
5 结论
Oil-ESB是面向服务架构(SOA)有效整合资源并利用资源的有效中间软件系统,它在标准的ESB基本功能基础上为石油企业信息化业务增加油田应用系统相应的功能, Oil-ESB的技术研究与使用改变了石油行业传统的软件平台系统的IT架构,Oil-ESB实现了网络通信、平台互连、数据转换、系统可移植性和全系统安全性标准接口的石油企业基础软件平台的互通互用。石油勘探信息化实现了以Oil-ESB为新中间件技术的全新企业信息化的IT新基础服务架构,使石油勘探行业信息化建设更上一台阶。
Oil-ESB依托石油云计算架构的应用,正逐步研发向Oil-EBB(Oil Enterprise Business Bus, 石油企业业务总线)方向拓展,oil-ESB在石油企业更关注信息化与IT服务,而oil-EBB更关注油田生产业务执行服务,为油田勘探生产、科研攻关、高产稳产做出应有的贡献。
京东云用技术为618保驾护航
京东是云计算最忠实、最彻底的实践者,此次618大促,整个京东商城的核心系统都建立在京东云平台之上,支撑着从用户下单到商品配送的整体环节。
一、引言
随着环境信息化建设的逐步深入,各级环保部门产生的数据量急剧增加。数据产生的范围也逐步扩大,涵盖环保科学研究、环保行政执法、环境监测分析、环保基础设施建设、生态保护以及其它环保行政主管部门。大多数数据都以最原始的形态存在,不利于数据信息互通和共享,造成大大小小的信息“孤岛”。而大数据是需要新处理模式才能具有更强的决策力,洞察发展力和流程优化能力的海量、高增长率和多样化的信息资产。大数据技术的战略意义不在于掌握庞大的数据信息,而在于对这些含有意义的数据进行专业化处理,并转化为具有决策功能的信息。本文研究的重点是利用物联网、云计算、大数据技术对这些数据进行有效融合,搭建环保大数据信息共享管理平台,为环境管理提供决策支持。
二、平台的定位
针对环保系统各业务之间缺乏联系,系统内部数据管理及信息共享困难等问题,环保大数据信息共享管理平台作为一个科学、完整、统一的信息共享平台,打破环保行业各系统之间的信息孤岛,促进信息的互联互通,实现环保信息与业务的共享,从而提高环境保护行业的综合决策能力和公共服务能力。
该平台综合应用“物联网、云计算、大数据管理”等先进技术,为环保行业用户提供新型数据管理平台,为大数据运营提供新的合作模式,主要实现功能如下:
(1)多源、异构数据采集。通过RFID技术、传感器等物联网底层传感技术,实时采集污染源、生态等信息;
(2)海量数据处理。包括海量异构数据的融合转换、数据云存储、数据实时分析及环保数据挖掘等;
(3)云桌面安全管理。引入云桌面从根本上保障数据存储安全,作为数据运营的基础。
三、平台设计理念
环保大数据信息共享管理平台拥有行业领先的设计理念,围绕环保行业大数据的“感知、管理、存储、展现、应用”等五个层面的需求,提出了针对性的整体创新技术方案。
四、平台系统架构
环保大数据信息共享管理平台架构由数据采集、数据存储、应用展示三大系统模块构成如图1。
(1)分布式采集系统:基于“桌面云”技术,统一各类数据的逻辑模型,建立统一的物联网数据采集系统;
(2)环境数据中心汇聚存储管理平台:通过数据格式的转换,统一建模,构建异构信息的集中存储管理平台;
(3)环境数据应用展示平台:实现仪器设备及环境监测信息的统一展现、以及运营管理系统;
(4)云计算和存储中心:基于IaaS虚拟化技术,为环保数据信息共享管理平台提供弹承载系统。
五、平台核心功能架构
围绕环保行业大数据的“感知、管理、存储、展现、应用”,提出了整体创新技术方案如图2。
5.1数据感知层
为解决当前仪器设备分散、品牌各异的难题,构建物联网的环境数据采集体系,统一采集规范,建立统一数据采集平台,针对各类型设备开发接口,管理接入各类型的物联网设备,实时异构信息的统一采集;
5.2数据管理层
考虑到传统利用PC服务器连接仪器设备采集数据的方式易发生数据外泄的状况,基于桌面云的环境数据安全管理,采用桌面云主机连接仪器,保证采集数据存储在服务器上、无法拷贝,从最根本上解决数据安全问题,保证数据的产业价值;
5.3数据存储层
环保数据具有复杂性和动态性,涉及多部门/地区/领域,需要处理大量的数据,基于环境专题数据建设“IaaS-PaaSSaaS”三种层次的多元化云服务,弹性架构设计,为应用数据平台提供弹承载体系;
5.4数据展现层
当前不同品牌、型号的仪器设备所产生的实验数据不能集中管理、集中查询且人工收集管理耗时耗力,对多源异构的海量数据进行数据转换、主题建模、分析展现,可保证所有监测站的环境数据可以统一汇聚、处理和展现;
5.5数据应用层
传统环评业务采用人工报送检测形式,由各站点自行负责,管理松散,没有运营机制,空置率相当高,导致丰富数据资源无法产生经营效益。为强化环境数据、仪器设备运营共享管理,在运营管理模块加入了数据运营和计费功能,让环境检测工作流程化,将原有手动化的检测流程改造为业务开通运营流程,数据不仅可以流转起来,还可作为资产参与运营,实现闲散设备的自我造血,自我运转。
六、结束语
本方案适用于环保行业IT支撑系统数据整合,无论是为了降低数据存储成本,提高数据共享效率,还是为了探索大数据技术引入,或是实现支撑系统各域的数据融合,都可参考本方案架构进行搭建。
参 考 文 献
中图分类号:F270.7
信息化建设已逐渐成为增强企业竞争力的重要手段。传统的企业信息化建设模式主要是软件供应商为企业开发各类管理软件,每家企业内部独立部署所需的IT资源,这种建设模式已不能很好地动态适应企业的要求。
1 云计算
1.1 定义
云计算并不是突然出现的,它是集中计算、分布式计算、并行计算、和网格计算的发展,是适合于目前商业需求和技术可行性的一种IT资源使用模式。
NIST(美国国家标准技术研究所)给云计算的定义较为权威:[1]Cloud computing is a model for enabling ubiquitous, convenient, on-demand network access to a shared pool of configurable computing resources (e.g., networks, servers, storage, applications, and services) that can be rapidly provisioned and released with minimal management effort or service provider interaction.即云计算是对共享的可配置的计算资源(如网络、服务器、存储、应用和服务)提供无所不在、方便的、随需的网络访问。
1.2 分类[2]
1.2.1 根据云的部署模式和云的使用范围进行分类
根据云的部署模式和云的使用范围可以将云分为3类:公共云(Public cloud)、私有云(Private cloud)和混合云(Hybrid cloud)。当云以服务方式提供给大众时,称为公共云。公共云由云提供商运行,可以提供从应用程序、软件运行环境,到物理基础设施等方方面面的IT资源的安装、管理、部署和维护。私有云是指企业自己使用的云,它所有的服务和设施不是供别人使用,而是供自己内部人员或分支机构使用。混合云,是把“公共云”和“私有云”结合到一起的方式。
1.2.2 针对云计算的服务层次进行分类
根据NIST定义,云计算主要分为三种服务层次:基础架构即服务,平台即服务和软件即服务。SaaS(软件即服务),是指用户获取软件服务的一种新形式。它不需要用户将软件产品安装在自己的电脑或服务器上,而是按某种服务水平协议(SLA)直接通过网络向专门的提供商获取自己所需要的、带有相应软件功能的服务。PaaS(平台即服务),是指将一个完整的计算机平台,包括应用设计、开发、测试和应用部署,都作为一种服务提供给客户。IaaS(基础设施即服务),是指企业或个人可以使用云计算技术来远程访问计算资源,这包括计算、存储以及应用虚拟化技术所提供的相关功能。
2 国内企业信息化现状
我国企业信息化总体水平比较低,特别是很多中小型企业和老企业,原因是多方面的。
(1)企业信息化的认知程度不够。主要是信息化建设投资成本较高,存在风险。
(2)信息系统开发过程中,业务流程调查分析不够详细,造成系统脱离业务实际。系统使用过程中可扩展能力和灵活性差。
(3)企业信息孤岛现象严重,各信息系统之间集成性差,数据共享性差。
1)信息化建设模式的转变。使用云计算,可以让企业根据自己需要租用应用程序服务和基础设施服务,进而根据自己的实际情况决定建设模式。
2)减轻信息化基础设施的投资风险。在传统的信息化实现方式下,企业部署应用程序,需要自行购买服务器等基础设施,工作负荷尖峰情况其规模、数量都难以确定。
3)降低信息化资金的支出。云计算的按需租用特征有助于降低企业信息化资金的支出。尤其是信息系统的后期维护成本。
3 构建基于云计算的企业信息系统
3.1 基于云计算的企业信息化基本框架
企业应用云计算模式进行信息化建设的基本框架可以在信息化建设流程的基础上进行改进,主要包括以下几个模块[3]:详细需求分析(包括自身现状的分析和云计算特征匹配分析);云计算信息化的选择策略(包括供应商和产品的选择策略);云计算服务模式的采用(IaaS、PaaS和SaaS服务模式的分析与选择);云计算的实施和运行操作(平台设计、运行和维护);以及云计算的支持项目如:安全性、网络稳定性、计费方式等。
3.2 具体实施步骤
第一步要进行需求分析。要对当前的企业使用的IT路线图进行细致的了解,对企业的业务现状和目前IT环境等进行综合研究和讨论,查找需求中能够利用到云计算特点的地方。这一步完成之后,应该可以明确是否需要采用云计算,是采用公共云计算资源还是建立私有云,以及要使用或提供哪一层的服务。
第二步要对云计算的整体方案进行选择与设计。包括采用什么样的硬件平台、操作系统平台、应用软件、用户访问模式、安全系统设计和自动化流程设计等。这一步结束后,应该可以得到云计算的实施方案,方案中各种软硬件、服务的组成,以及实施计划。
第三步是云计算方案的实施。根据云计算的方案逐步将硬件、软件等计算资源部署到位,全面管理,建立服务系统等。
通过对该企业信息系统现状及网络基础设施的分析,对其云平台的总体规划:构建混合云服务模式来实现系统整体部署。公共云平台部署方案基于对外宣传网站的信息安全性不高的特点,以及降低企业信息服务维护成本的考虑,把对外门户网站、SMTP服务以及企业协作办公系统放在公共云的平台。基于原有企业IT设施构建私有云平台,主要包括:采用标准的业务流程、应用和软件SaaS模式实现安全信息较高的人力信息、财务信息、业务分析管理服务;采用标准化的软件平台PaaS模式提供共享中间件、开发工具、共享Web资源和共享数据库等;采用标准化的、虚拟化的基础架构资源服务IaaS提供服务器资源池、存储资源池、桌面云等服务;同时提供云服务管理与支撑服务如服务供应、服务受理、服务保障、服务计量等。
4 结语
云计算技术的兴起,提供了一种适应于企业信息化发展需要的具体方式。目前,云计算技术在国内企业应用中得到了大力的发展,企业只有充分了解云计算所带来的挑战和机遇,才能更好地适应这种信息化的创新。
参考文献:
[1]Peter Mell,Timothy Grance. The NIST Definition of Cloud Computing [EB/OL].http://csrc.nist.gov/publications/nistpubs/800-145/SP800-145.pdf,2012 September
[2]朱进之.智慧的云计算[M].电子工业出版社,2011-4.第二版:59-63.
[3]杨振东.基于云计算的中小企业信息化建设模式研究[D].中国海洋大学,2010-6.
从“存好”到“管好”
“当前,各种规模的企业都遇到一个相同的问题,就是数据量的快速增长。尤其是像电子邮件、视频、图像、科研数据等这类非结构化数据,不仅增长非常快,而且采用传统的手段去存储和管理这些数据显得十分困难。”日立数据系统首席执行官Jack Domme举例说,“有统计表明,2020年全球数据总量将是2009年的42倍。在未来三年中,全球将产生10亿多个应用。所有数据都具有价值,关键是企业应该采用什么样的手段和工具去存储、管理和控制这些数据,让企业从中获取更多的价值。”
Jack Domme谈到的其实就是大数据带来的新挑战。从存储的角度看,整个业界都面临着一个重要的转折点,即从单纯的数据存储转向深入挖掘数据的价值。在过去的20年中,用户主要做的一件事就是把从各种设备中获取的数据和信息安全、快速地存储到相应的存储设备中。在这个时期,存储设备的性能、容量和安全性是企业用户最关注的。但是现在,当数据已经积累到一定程度,企业用户除了继续做好数据存储的事情以外,还要考虑如何对这些数据进行处理、管控,并深入挖掘其价值,为企业所用。此外,对于不断增加的非结构化数据,习惯了处理数据库等结构化数据的用户还要重新认识和研究,并采用新的管理工具。
HDS赞助IDC对亚太区的150位大型企业IT高管进行了一次调查,其结果显示,虽然不同地区的企业的存储管理成熟度各不相同,但是大家都一致认为,确保数据的关联性和有效管理数据的增长是企业遇到的最大挑战。IDC亚太区企业基础设施研究副总裁助理Simon Piff表示,只有少数企业为应对可预见的大数据趋势做好了充分准备。
企业用户应该如何应对大数据的挑战呢?易启宏认为,当前企业用户面临的主要问题有两个:第一,如何把将现有的数据和信息转化成业务价值;第二,如何应用管理手段把数据变成企业的战略资产,进而获得竞争优势。HDS的云解决方案可以为用户提供一种盈利的手段,帮助用户从数据中获取更多的价值。
云的三个阶梯
初次听说HDS的“三朵云”时,记者忽然联想到华为赛门铁克于去年5月的“4+1朵云”战略。“4+1朵云”包括企业数据云、业务保护云、增值服务云、媒体共享云和模块化交付云。“4+1朵云”中的几朵云就像是一个魔方的几个模块,各自独立但又相互关联。HDS“三朵云”中的基础架构云、内容云和信息云则是递进关系,就像是三个相连的台阶,基础架构云是内容云和信息云的根基,而内容云和信息云是在基础架构云之上衍生出来的应用。易启宏分析说:“这三朵云之间并不互相排斥。比如,一个从事内容密集型业务的公司,它必须先建立一个基础架构云,然后才能在此基础上通过云的方式实现内容的搜索、归档等,也就是内容即服务。”
构建基础架构云的目的是为用户提供一个动态的基础设施。用户可以利用HDS的可按需扩展的存储虚拟化产品、融合数据中心解决方案等对服务器、存储和网络资源进行整合和集成管理,从而为各种云服务提供一个统一的支持平台。对于HDS来说,构建基础架构云并不是一件难事,因为HDS的存储虚拟化技术很早以前就已用于构建动态的基础设施。
在峰会上,HDS了几个云服务软件包,主要包括Hitachi Cloud Service、Hitachi Cloud Solution Package以及云管理门户。中小企业不用采购新的硬件设备,只要通过HDS提供的主文件服务包、针对Windows SharePoint的云服务包等,就可以轻松享受到云服务带来的种种好处。日立数据系统亚太区解决方案与产品部高级总监 Phil Gann表示:“服务器、存储、网络等硬件设备的集成,甚至是硬件与软件之间的集成是一种必然的趋势。HDS除了将其硬件与Microsoft的一些软件进行整合以外,还会与Oracle、SAP等合作,针对视频监控、医疗、高性能计算等应用推出整合的解决方案。”
构建内容云的目标是实现内容的流动。HDS通过单一平台和一系列智能工具,可以支持不同类型数据的索引、搜索和发现。Phil Gann表示,内容云可以被用于归档和内容即服务这类应用。如果基础架构即服务的核心是让服务独立于存储介质,那么内容云的核心就是让内容与创建它的应用脱钩。这样一来,数据就更容易被找到、共享和重新利用。
为了充实内容云,HDS收购了在非结构化数据处理方面拥有独特技术的BlueArc公司。此举将使HDS在基于文件的虚拟化、内置智能分层和非结构化数据处理等方面拥有更多优势,并且可以使企业用户更容易地从基础架构云过渡到内容云。Phil Gann表示,HDS可以在单一平台上支持结构化和非结构化的数据,并且提供对不同类型数据的无缝访问、搜索、保存、整合和归档的能力。
信息云可以帮助用户实现快速精确的数据分析。在HDS的信息云中,各种信息分析工具和流程能够与底层的基础设施实现整合。企业通过复制和重组各自独立的结构化和非结构化数据,同时结合智能分析工具,就能从这些数据中获取更高的价值。信息云完全可以满足大数据对数据存储,特别是数据分析和挖掘的需求。
HDS此前收购ParaScale公司就是为构建完整的信息云做准备的。ParaScale不仅可以提供一个大规模的横向扩展的文件系统,而且可以将文件系统与大规模存储相结合,一起处理结构化和非结化数据。易启宏表示,HDS信息云的相关解决方案正在研发之中。
链接
云就在你身边
从理论上来说,将数据移至云环境是一个很简单的问题,但实际上,这个过程中有很多重要的问题需要提前考虑。比如,目前企业网络的带宽多大?数据规模多大?是否需要恢复数据?可接受的数据恢复时间是多长?云服务提供商是否允许企业“植入”数据(例如,将驱动器或设备发送给客户,由客户在本地备份其数据,然后将驱动器/设备递送给提供商)?云服务提供商是否有基于云的服务器,以便企业用户直接从云存储中恢复数据?有效规划对于将数据迁移成功具有举足轻重的作用。
慎重选择网络
下面以两个计划将50TB 数据移至云端的企业用户为例,其中一个客户拥有一个 T-1 线路,而另一个客户则有光纤 OC-3 网络(见图)。
很显然,不同网络基础对迁移的影响颇大。但是,目前假设的是一个仅有最低 WAN 开销,且无其他网络负载的“原始”环境。但如果企业使用这些线路上网、收发电子邮箱或拨打 IP 电话的话,那么,对于带宽和数据传输的时间影响不言而喻。
此外,从表中的数据不难看出,将数据写入云只是第一步,企业用户在部署云存储之前需要考虑的问题有很多,尤其是在灾难事件发生的情况下,云是企业存储资源的一部分,因此将数据找回来特别是备份或者归档数据将更加重要。
选择云服务提供商
在数据迁移之前,企业最好问云服务提供商几个问题:云服务提供商允许企业向云端“植入”数据吗?有基于云的服务器以便企业能够直接从云存储恢复数据吗?如果遇到灾难,云服务提供商会将存有企业数据的驱动器递送给企业以供数据恢复吗?
云服务提供商对这些问题的回答至关重要。随着大规模、50TB 数据云解决方案的出现,企业可以利用这些解决方案应对上述挑战?一般来说,这些解决方案需要具备以下条件:
首先,向云环境“植入”数据的功能使企业能够将介质递送至云服务提供商,随后只需以在线方式即可发送变更数据。在充分利用了集成数据缩减技术(如源端重复数据删除和压缩)的情况下,这种方式显著减少了“植入”数据所需的带宽资源。
其次,一旦出现大规模灾难,企业能够通过服务提供商的云接入口进行数据恢复。此外,尤其是拥有专用1Mbps带宽的企业还应可以使用工具,以多流方式将数据传至云环境中,并最大程度地利用带宽。一些云服务商在数据管理软件中引入了第三代重复数据删除技术,可以在客户端删除90% 的冗余备份和归档数据。这种方式将客户端、磁盘、磁带中的重复数据删除扩展到整个企业,将网络中发送的数据量锐减90%,藉此帮助企业加快将大量备份或归档数据迁移至云环境的速度,从数月缩短至数天、数小时。
此外,对于将来考虑将硬件及物理设备迁移到“云端”的企业,以上建议也会使这些企业的云存储部署准备更加充分和周到。
拥有 T-1 线路的企业
50TB 的数据,通过 1.544 Mbps(链路也称为 T-1 线路)= 79124 小时或者近 3297 天;
首次通过 T-1 备份 50TB 数据(典型重复数据删除率为 57%)= 33549 小时或 1398 天;
连续通过 T-1 备份 50TB 数据(典型不间断重复数据删除率为 90%)= 8387 小时或 349 天,这代表了预计 10% 的日增量和 90% 的重复数据删除率。
说明:对于云服务提供商而言,收到每日增量数据的时间并不合理。
拥有 OC-3 网络的企业
50TB 数据,通过 OC-3 = 788 小时或者近 32 天;