时间:2023-08-21 09:26:18
引言:寻求写作上的突破?我们特意为您精选了12篇大数据云计算技术范文,希望这些范文能够成为您写作时的参考,帮助您的文章更加丰富和深入。
通过对大数据的汇集、智能分析和挖掘技术,发现数据中的潜在价值信息,帮助人们做出正确决策,这就是大数据产业的利益。国外大数据的起步比较早,比较成功的大数据应用案例有:商业龙头沃尔玛公司通过对消费者的购物数据进行分析,了解顾客的行为喜好,对超市的商品结构进行搭配重置以增加销售额;亚马逊公司通过大数据构建自己的推荐系统,每年可以靠此多收益20%;奥巴马通过大数据分析系统进行数据挖掘,用科学的手段获取选票、募集资金,赢得了总统竞选的胜利。相比于国外,国内的大数据研究和应用还处于起步和发展中的阶段,比较成功的案例有:淘宝数据魔方平台,通过大数据,为买家量身打造完善的购物体验产品;新浪微博大数据产品,通过大量的社交数据,创造不同的社会经济价值等。
1.2云计算的发展
云计算可以像电力资源一样提供弹性的按需服务,事实上它是集合了一系列的服务提供给用户。云计算的核心可分为三个层次,分别为基础设施层、平台层、应用层,如图2所示。云计算将基础设施、软件运行环境、应用程序抽象成服务,具有可靠性高、可用性强、规模可伸缩等特点,满足了不同企业的发展需求,各个云服务提供商根据各自服务对象的差别分别开发了各具特色的云服务。(1)基础设施即服务层基础设施即服务(InfrastructureasaService,IaaS)层通过部署硬件基础设施对外提供服务,用户可以根据各自的需求购买虚拟或实体的计算、存储、网络等资源。用户可以在购买的空间内部署和运行软件,包括操作系统和应用程序。消费者不能管理或控制任何云计算基础设施,但能控制操作系统的选择、存储空间、部署的应用,也有可能获得有限制的网络组件(如防火墙、负载均衡器等)的控制。云服务提供商为了使硬件资源得到更有效的利用,引入了Xen、KVM、VMware等虚拟化技术,使得云服务商可以提供更个性化的IaaS服务。亚马逊弹性云计算(AmazonElasticComputeCloud,AmazonEC2)是亚马逊Web服务产品之一,AmazonEC2利用其全球性的数据中心网络,为客户提供虚拟主机服务,让使用者可以租用云服务运行所需应用的系统。(2)平台即服务层平台即服务(PlatformasaService,PaaS)层是指云计算应用程序开发和部署的平台,包括应用设计、应用开发、应用测试和应用托管,都作为一种服务提供给客户。开发者只需要上传代码和数据就可以使用云服务,而无需关注底层的具体实现方式和管理模式。鉴于PaaS平台的重要意义,国内外厂商根据各自的战略提出了相应的PaaS平台,国外的如GoogleAppEngine(GAE),通过GAE,即使在重载和数据量极大的情况下,也可以轻松构建能安全运行的应用程序。国内也有新浪的SAE(SinaAppEngine)、阿里的ACE(AliyunCloudEnginee)等。(3)软件即服务层软件即服务(SoftasaService,SaaS)层是为云计算终端用户提供基于互联网软件应用服务的平台。随着Web服务、HTML5、AJAX、Mashup等技术的成熟与标准化,SaaS应用近年来发展迅速,典型的SaaS应用包括GoogleApps、SalesforceCRM等。国外云计算平台比较成功的应用案例有:亚马逊电子商务网站根据用户的购买行为和搜索技术搭建Hadoop集群,构建推荐系统;Twitter社交网站搭建Hadoop分布式系统用于用户关联的建立。国内云计算平台的成功案例有:阿里巴巴目前整个集群达到1700个节点,数据容量达到24.3PB,并且以每天255TB的速率不断攀升;2013年,华为推出国内首个运营云平台,目前为止与该平台签订协议的ISV有3000多家。
1.3云计算相关技术
(1)分布式文件系统分布式文件系统(GoogleFileSystem,GFS)[3]是Google公司针对云计算过程处理海量数据而专门设计的。一个GFS集群由一个主节点和多个从节点组成,用户可以通过客户端访问文件系统,进行正常的文件处理工作。在云计算中,海量数据文件被分割成多个固定大小的数据块,这些数据块被自动分配到不同的从节点存储,并会在多个节点进行备份存储,以免数据丢失。主服务器管理文件系统记录文件的各种属性,包括文件名、访问控制权限、文件存储块映射、块物理信息等数据。正是通过这个表,文件系统可以准确地找到文件存储的位置,避免数据丢失,保证数据安全。图3是GFS的体系结构示意,每一个节点都是普通的Linux服务器,GFS的工作就是协调成百上千的服务器为各种应用提供服务。(2)分布式并行数据库BigTableBigTable[4]是一个为管理大规模结构化数据而设计的分布式存储系统,可以扩展到PB级数据和上千台服务器。很多Google的项目使用BigTable存储数据,这些应用对BigTable提出了不同的挑战,比如对数据规模的要求、对时延的要求。BigTable能满足这些多变的要求,为这些产品成功地提供了灵活、高性能的存储解决方案。BigTable采用的键是三维的,分别是行键(RowKey)、列键(ColumnKey)和时间戳(Timestamp)。行键和列键都是字节串,时间戳是64位整型;值是一个字节串,可以用(row:string,column:string,time:int64)string来表示一条键值对记录。(3)分布式计算框架MapReduceMapReduce[5]是Google公司提出的大数据技术计算框架,被广泛应用于数据挖掘、海量数据处理以及机器学习等领域,由于其并行化处理数据的强大能力,越来越多的厂商根据MapReduce思想开发了各自的云计算平台,其中以Apache公司的Hadoop最为典型。MapReduce由Map和Reduce两个阶段组成。用户只需要编写简单的map()和reduce()函数就可以完成复杂分布式程序设计,而不用了解计算框架的底层实现。MapReduce的数据分析流程如图4所示。分布在不同服务器节点上的海量数据首先通过split()函数被拆分成Key/Value键值对,map()函数以该键值对为输入,将该键值对进行函数处理,产生一系列的中间结果并存入磁盘。MapReduce的中间过程shuffle()将所有具有相同Key值的键值对传递给Reduce环节,Reduce会收集中间结果,并将相同的Value值合并,完成所有工作后将结果输出给用户。MapReduce是一个并行的计算框架,主要体现在不同的服务器节点同时启动相同的工作,并且在每个独立的服务器节点上又可以启动多个map()、reduce()并行计算。
2基于云计算的大数据处理
目前大数据处理的基本流程如图5所示,整个流程经过数据源的采集,用不同的方式进行处理和加工,形成标准的格式,存储下来;然后用合适的数据计算处理方式将数据推送到数据分析和挖掘平台,通过有效的数据分析和挖掘手段,找出大数据中有价值的信息;最后通过可视化技术将信息展现给人们。
2.1数据采集存储
大数据具有不同结构的数据(包括结构、半结构、非结构),针对不同类型的数据,在进行云计算的分布采集时,需要选择不同的数据采集方式收集数据,这也是大数据处理中最基础的一步。采集到的数据并不是都适合推送到后面的平台,需要对其进一步处理,例如来源不同的数据,需要对其进行加载合并;数据存在噪声或者干扰点的,需要对其进行“清洗”和“去噪”等操作,从而保障数据的有效性;数据的格式或者量纲不统一的,需要对其进行标准化等转换处理;最后处理生成的数据,通过特定的数据库,如NoSQL数据(Google的BigTable,Amazon的Dynamo)进行存储,方便进行下一步的数据读取。由于传统的数据仓库无法适应大数据的存储要求,目前基于云计算的数据仓库都是采用列式存储。列式存储的数据具有相同的数据类型,可以大大提高数据的压缩率,例如华为的云存储服务MOS(MassiveObjectService)的数据持久性高达99.9%,同时提供高效率的端到端保障。
2.2数据计算模式
这一环节需要根据处理的数据类型和既定目标,选择合适的计算模型处理数据。由于数据量的庞大,会消耗大量的计算资源,因此,传统的计算技术很难使用大数据的环境条件,取而代之的是分而治之的分布式计算模式,具有代表性的几种计算模式的特点见表1。采用批处理方式计算的Hadoop平台,例如,Facebook拥有全球最大规模的Hadoop集群,集群机器目前超过3000台,CPU核心更是超过30000个,可以存储的数据量能够达到惊人的40PB;采用流处理方式计算的Storm平台分布式计算的时延比Hadoop更小;实时处理方式计算的Spark是一种基于内存的计算模式,例如,Yahoo运用Spark技术在广告营销中实时寻找目标用户,目前在Yahoo部署的Spark集群有112台节点和9.2TB内存;交互处理方式计算的Dremel在处理PB级别的数据时耗时可以缩短至秒级,并且无需大量的并发。
2.3数据分析挖掘
数据分析挖掘环节是从海量数据中发现隐藏规律和有价值信息的过程,这个环节是大数据处理流程最为有价值和核心的部分,传统的数据分析方法有机器学习、商业智能等。传统的数据挖掘十大算法[6](其中有K-Means、Na觙veBayes、SVM、EM、Apriori等)在云计算环境下都得到了大幅度的并行优化,在大数据的背景下,计算速度得到了很大程度的提升。现在新兴的深度学习是原始机器学习的一个新领域,动机是在于建立、模拟人脑进行分析学习的神经网络,它模仿人脑的机制来解释数据,这种新的数据分析挖掘技术已经在计算机视觉、语音识别、自然语言处理等领域有了成功的应用。
2.4数据解释展现
将挖掘出来的复杂信息进行数据解释和展现是整个大数据处理流程的最后一个环节,数据分析的结果需要向客户进行恰当的展现。与传统的数据输出和文本展示等方式不同,现在绝大部分的企业都通过引进“数据可视化”技术来展示大数据分析的结果信息,这种方式以图像、动画等方式,形象地向客户展现数据处理分析的结果,也容易被客户理解和接受,更为先进的是,现在逐步形成的“交互式可视化技术”,大大地方便了数据与人之间的“亲密交流”。目前面向大数据主流应用的可视化技术见表2。
3大数据和云计算的未来挑战
大数据需要超大存储容量的计算能力,云计算作为一种新的计算模式,为大数据的应用研究提供了技术支持,大数据和云计算的完美结合,相得益彰,发挥了各自的最大优势,为社会创造了巨大的价值。虽然国内大数据和云计算的研究还是处于初步阶段,但随着研究的不断进行,所面临的问题也越来越多。在大数据向前不断迈进的阶段里,如何让我们对大数据的研究朝着有利于全人类的方向发展成为了重中之重。
3.1重要战略资源
在这个信息社会里,大数据将会成为众多企业甚至是国家层面的重要战略资源。国家层面要将大数据上升为国家战略。奥巴马在2012年3月将“大数据战略”上升为最高国策,像陆权、海权、空权一样,将数据的占有和控制作为重要的国家核心能力。大数据资源也会成为各种机构和企业的重要资产以及提升企业社会竞争力的有力武器。在大数据市场里,客户的各种数据信息都会为企业创造价值,也会在促进消费水平、提高广告效应等方面扮演重要的角色。
3.2数据隐私安全
大数据如果运用得当,可以有效地帮助相关领域做出帮助和决策,但若这些数据被泄露和窃取,随之而来的将是个人信息及财产的安全问题得不到保障。2011年索尼公司遭到黑客攻击,造成一亿份客户资料泄露,经济亏损约1.71亿美元。为了解决大数据的数据隐私安全问题,Roy等在2010年提出了一种隐私保护系统,将信息流控制和差分隐私保护技术融入到云计算平台中,防止MapReduce计算过程中的数据泄露问题。在数据更新飞速的情况下,如何维护数据的隐私安全成为大数据时代研究的重点方向。
3.3智慧城市
人口的增长给城市交通、医疗、建筑等各方面带来了不小的压力,智慧城市就是依靠大数据和云计算技术,实现城市高效的管理、便捷的民生服务、可持续的产业发展。在刚刚结束的“两会”的政府工作报告中,总理也特意强调了智慧城市发展的重要性,目前国家智慧城市试点已遍布全国各地,多达409个。智慧安防、智慧交通、智慧医疗等都是智慧城市应用领域。智慧城市的建设也趋使大数据人才的培养。据预测,到2015年,大数据将会出现约100万的人才缺口,全球将新增440万个与大数据相关的工作岗位来填补这个空缺。
中图分类号:G424 文献标识码:A 文章编号:1009-3044(2014)09-1853-01
2012年,联合国大数据政务白皮书,提出了各国政府(包括联合国在内)的一个历史性机遇:利用丰富的大数据对社会经济做出具体的分析,帮助政府更好的运行经济服务社会。同年,奥巴马在美国白宫宣布将“大数据战略”上升为国家意志,将大数据定义为“未来的新石油”并加大投资拉动相关产业。2013年12月5日-5日,由中国计算机学会主办,中国CCF大数据专家委员会承办的主题为“应用驱动的架构与技术”的中国大数据技术大会,这次大会成为大数据技术与应用深度结合的新起点,成为产业界、科技界与政府部门密切合作的新平台,进一步推动我国大数据的产学研。2014年3月1日,在北京举行的贵州・北京大数据产业推介会上,贵州共获投730.2亿元用于大数据产业的发展,这一伟大的壮举将全面推动贵州互联网,网络营销发展进而影响贵州经济发展。百年大计,教育为本,在贵州“后发赶超,跨越发展”的过程中,教育的改善提升成了社会发展步伐是否稳健的重心,随着大数据的到来,贵州的教育正张开腾飞的羽翼迎接新一轮的跨越赶超,贵州在全国率先完成中小学生学习信息管理系统,学生学籍信息入库。为加快推进职业人才培养体系建设,促进经济工作稳定快速发展,省教育厅、人社厅等多家单位携手并进,联合出台了加快职业人才教育培养的实施方案,以贵阳为中心,打造职业教育核心发展区,规划高职办学规模达到25万人,为贵州大数据产业发展提供充足的人才保障,建成具有贵州特色的现代职业教育体系。在大数据背景的前提下,贵州的职业教育发展将踏上更加非凡和精彩的跨越之旅。
1 大数据、云计算简介
麦肯锡公司在2011年了一个前沿领域的研究:大数据。虽然到现在为止没有一个明确的定义,但是,大数据不是海量数据的表面理解,具有数据体量巨大,数据类型繁多,价值密度低,处理速度快等特点。 “云计算是通过网络提供可伸缩的廉价的分布式计算能力”。云计算代表了以虚拟化技术为核心、以低成本为目标的动态可扩展网络应用基础设施,是近几年来最有代表性的网络计算技术与模式。从技术上看,大数据与云计算的关系就像一枚硬币的正反面一样密不可分。大数据必然无法用单台的计算机进行处理,必须采用分布式计算架构。它的特色在于对海量数据的挖掘,但它必须依托云计算的分布式处理、分布式数据库、云存储和虚拟化技术。
2 高职院校大数据条件下云计算的应用
云计算的应用使得高校在信息工具化的时代能够脱离原始的“信息孤岛”现象,集中了原本分散的国内及世界的教育资源,让社会与学校,学校与教师,教师与学生之间有了更深的互动和相互带动,把社会各行各业对教育有利的资源通过计算机与网络终端带动教育的发展。高职教育与传统的本科教育不同,重点是培养学生的实际操作能力,通过资源库的分析和选取并优化应用,可以提高高职教育的目标性。
2.1 依据社会人才需求信息,调整专业设置
目前的社会公开招聘信息都是通过互联网至少在全国范围内进行公开招考的,近几年,百度等各大网站都可以轻易的分析出
招聘的条件和专业。各大中型企业招聘的专业类型等都可以通过数据提取,数据分析得到各专业的需求状况,通过这些计算、分析这些大数据,可以适当迅速的调整专业设置和专业学习计划,以适应信息瞬息万变的时代需求。
2.2 利用数据库优秀教育资源,提高教学效果
近年来,各大高校,职院都在进行重点专业的课改工作,很多优秀的课程教学视频和配套资源等上网,通过相关网站对教育资源的数据进行搜索,在相应的学院,教研室,进行数据的分析和研讨,经过相应的更改后可以直接应用我们的教学和管理中,可以充分吸取网络教育资源的精华,变成自己教学工作进步的工具。
2.3 充分利用电子图书馆,扩展“校企合作”的形式
贵州是教育相对落后的地区,首先,经济基础决定上层建筑,资金配套的硬件措施是制
约学校教学工作前进的桥梁,近几年,国家的西部发展计划和贵州省对教育尤其是职业教育的大力支持,使得,学校的教学环境有了很大的改善,很多学校都配套修建了电子图书馆和电子信息实训室。“校企合作”首先在发达地区开展,在贵州,合作项目近三年才开始试行,以贵州职业技术学院为例,2012年,由政府搭台的“中兴网络学院”项目达成协议,中兴在贵州职院第一次投入一千万元建立实训室并开始招生,除了学校教学计划必须完成的课程外,中兴选派有实战经验的一线老师加强学生实训的教学和指导,让学生更深入的练习自己的职业技能,除了学习学校扎实的基础理论,更吸收了中兴企业信息化的优势。
3 高职教改的新方向
尽管EMC在存储业界堪称老大,但目睹了EMC World 2011的宏大规模还是令记者吃惊不已:会议举办地拉斯维加斯机场里竖立的一块块广告牌、偌大的大会会场座无虚席的火爆场面、上万人参会的熙熙攘攘的会场内外、现场500多场讲座和100场动手实验室及展示、一次次的新闻⋯⋯这些除了表明EMC在业界的领导地位和影响力外,更说明企业用户急需解决当前IT遇到的种种难题和困惑。
对于当前用户面对的海量数据,Joe Tucci分析说,在疯狂增长的企业数据中,有90%的数据是非结构化数据,像文件、照片、视频、电子邮件或社交网络通信。同时,除了数据量的增长外,目前使用的数据类型、管理数据的方式,以及企业员工使用的设备(包括桌面和智能手机)的数量也在不断增加。他认为,新型的开源网络应用框架正在改变数据创建和访问的方式,而具有新型框架的客户将会把内部基础架构转移到基于x86服务器的私有云,并与公共云服务合作伙伴结成联盟,未来企业云的模式将是由私有云和公共云共同组成的混合云。而无论是私有云、公共云还是混合云以及大数据,都给企业带来了IT转型的机会。这些大趋势正在转变企业管理信息资产、从信息资产提取价值的方式。
Gartner数据显示,2010年有35%的企业部署了私有云,而2011年还将有超过30%的企业参与其中。Joe Tucci表示:“在云计算中,信息安全是企业关注的首要问题,因此,能否让企业信任私有云、公共云或混合云是云计算发展的关键所在,我们确信EMC能够得到企业的认同。”
为了帮助用户尽快踏上“云”的征程,有效管理大数据,在这次大会上,EMC推出了新一代全球可访问云存储平台Atmos 2.0,以更加强大、高效率地管理分布式大数据和云环境。Atmos 2.0的管理速度提高了5倍,管理效率提高了65%。
另外,EMC还宣布Symmetrix VMAX系列存储系统为进一步加速用户的云计算进程而增加了多项新功能。据说,今年以来,EMC已经推出超过50种全新的Symmetrix VMAX功能,促使EMC今年第一季度高端存储产品收入增长了25%。
“闪电计划(Project Lightning)”是EMC此次的一项进一步促进闪存技术应用的战略,即推出基于PCIe/闪存的服务器高速缓存技术,在服务器中集成闪存,并将其作为阵列的高速缓存和存储系统。此消息一出,尽管EMC否认其将涉足服务器领域,但还是有不少人对此表示怀疑。
大数据重在数据分析
“大数据(Big Data)”可以说是继云计算之后的又一新鲜名词,也是此次EMC World的主题之一。
中图分类号:TP393 文献标识码:A 文章编号:1009-3044(2016)34-0003-02
随着互联网的快速发展,人们逐步感受到了“信息大爆炸”,特别是各种移动通讯和物联网的发展,数以亿计的网络用户随时产生数据。目前全球的数据总量达到了ZB规模,大数据成为人们关注的热点话题,生活中的很多方面都可以和大数据技术进行结合,通过大数据技术来为我们服务。
大数据技术虽然给我们的生活带来了巨大的改变,但是大数据技术要求计算机具有相应的大数据处理能力,为此,云计算的概念产生了。云计算是分布式计算、网络存储、负载均衡等相关技术发展融合的产物。云计算通过网络将庞大的计算机处理任务进行分解,把分解后的较小的计算任务交给众多的网络数据计算服务器,经过网络服务器的分析处理之后把结果重新传回给用户。移动云计算是指通过移动互联网以按需、易扩展的方式获得所需的基础设施、平台、软件或应用等的一种IT资源或信息服务的交付与使用模式。[1]
1 大数据技术
现今的世界是一个数据的世界,我们身边到处都充满着数据,比如打电话的语音数据、发短信的文字数据、微信的聊天数据、报纸、杂志、网络购物等等。这么多的数据实时地影响了我们的工作、生活、学习,甚至社会的发展。根据维基百科的定义,大数据(Big Data)是用于数据集的一个术语,是指大小超出了常用的软件工具在运行时间内可以承受的收集、管理和处理数据能力的数据集。[2]美国IBM公司定义了大数据的3V特点,即规模性(Volume)、多样性(Variety)、高速性(Velocity)。规模性表示大数据涉及的数据量巨大,一方面人们的生活中产生了很多的具体数据,另一方面是互联网通信中移动通信的虚拟数据,这些数据的数据量是非常巨大的。多样性表示大数据中数据类型的复杂多样,其中包括最常见的文本数据、图像数据、语音数据和视频数据,除此之外还有很多其他的结构化、半结构化和非结构化的数据。高速性表示大数据技术必须具有实时性,比如实时路况导航、全球股价波动、一些通信业务的处理等等。
大数据技术的发展越来越成熟,大数据的价值也越来越受到人们的关注,对于数据处理的实时性和有效性要求越来越高。大数据在公共服务、商业智能、科学研究等领域发挥着巨大的作用,影响力越来越大,大数据技术的使用一定会给我们带来巨大的价值。社会中的各行各业可以通过大数据技术来完成各项工作,比如大数据在汽车制造业中的应用,福特汽车的产品开发团队曾经就对汽车行李箱的打开形式进行研究。车后行李箱的打开有两种形式手动式和电动式,如果采用电动式,能自动打开、便捷智能,但是这种方式会影响到车门开启有限的困扰。此前采用定期调查的形式并没有发现这个问题,但后来对社交媒体的关注和分析,发现很多用户在谈论这个问题,这对福特汽车以后的产品设计是非常有帮助的。
数据分析是大数据技术的核心,通过对相关数据的分析产生有价值的信息是大数据技术的关键。通过对数据的分析,可以产生有价值的规律和结果并辅助人们进行更为合理的决策。在大数据分析方面除了传统的技术外,人工智能技术邻域的很多方法被用得越来越多,包括统计分析、机器学习、数据挖掘等。数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的数据中提取隐含在其中的、人们事先不知道的,但又是潜在有用信息和知识的过程。统计分析就是基于数学邻域的统计学原理,对数据进行收集、组织和解释的科学。机器学习作为人工智能邻域的重要内容,分为监督学习和无监督学习两大类。[3]常见的方法包括聚类算法、预测算法、回归算法、朴素贝叶斯算法、支持向量机算法等。这些算法往往需要较大的计算资源和较强的计算能力,云计算正好满足了大数据技术在这个方面的需求。
2 移动云计算技术
云计算已经发展成为IT行业的一个热门技术,目前的主要云计算设备和服务都是针对PC机而言的,但是随着无线路由的快速普及以及无线终端设备的大量出现,将云计算运用于移动环境是必然的发展趋势。根据相关的数据统计,全国的移动电话用户累计达到10亿以上,现有的终端计算能力、存储容量都是非常有限的,已经难以满足很多用户的需求,而云计算恰好能给用户提供服务。云计算是一种新型的应用模式,通过网络按需实现软件处理能力、存储资源等。[4]移动云计算正是基于云计算的概念出现的,它结合了移动网络和云计算的概念。移动云计算通过移动的终端用户进行网络互连,并以按需、易扩展的方式获得所需的基础设施、平台等相关的网络资源和信息。
云计算的一个主要优点就是在“云端”提供了大容量的存储空间和高速的计算能力。即使客户端的移动设备本身性能不够,但是只要能进行数据的输入、输出,就可以和云端进行交互,让云端提供计算和处理服务得到客户想要的结果。移动云计算的特点是终端硬件及系统无关性,这是因为终端不进行真正的大量计算和数据的存储,而是通过移动网络把数据和计算任务上传到云端让云端来进行计算和处理。移动云计算还消除了计算的地域性限制,普通的云计算由于终端设备的地理位置固定,给很多的实际应用带来不便,但是移动云计算可以通过移动网络进行数据传输和计算。如果移动网络有足够的带宽,那么移动云计算就能实现实时的数据计算,让客户在终端或者手机上看到最及时的处理结果。
移动云计算中比较成熟的应用有移动云存储。目前,很多公司推出了自己的移动云存储服务,在移动云上可以存放照片、文档、邮件、视频等相关内容。传统的存储方法是客户在存储资料时,都是通过U盘或是硬盘等存储设备。这种存储方式有明显的缺c,当U盘或是硬盘丢失、损坏或是忘记随身携带等,都可能造成想要取出存储资料却取不出来的状况。移动云存储是把资料上传到网络上的移动云存储服务器,只要能上网可以随时随地取出存储资料,不用担心资料的丢失或损坏。基于移动云计算的移动商务是商业发展的新模式。随着移动终端设备的大量使用,很多商务都是在网络上进行操作的,例如购物网站、微信支付等。除此之外移动云计算在医疗、邮件推送、远程教育等方面都有着非常成功的应用。
3 大数据与移动云计算
本地单机的数据处理模式成本越来越高,而且扩展性比较差,并且随着要处理的数据量不断增加特别是对于大数据的应用,相应的处理性能会遇到瓶颈,在这种情况下,出现了云计算技术。云计算具备了较好的弹性,在动态调配资源、支持多用户按需工作等特点正好符合了大数据的应用需求。云计算以其高可靠性、强大的计算能力和海量的存储空间成为解决大数据问题的重要技术,但是云计算不能在动态系统中进行应用,这使得移动云计算成为云计算新的发展方向,特别是移动终端可以方便地通过无线网络上网来使用移动云计算提供的各种服务。
大数据的落脚点在于“数据”,提供了对数据操作的各种方法,包括对数据的采集、分析、挖掘、存储等。移动云计算更多体现在“计算”,看重的是通过互联网产生的计算能力,移动云计算中很多的相关技术正是大数据技术的基础。大数据技术首先要有大量的存储数据,存储数据的传统方法是数据库技术,但是现在的数据量越来越大,已经超过了传统数据库的存储模式,而移动云计算正好给这些数据的存储提供了空间。其次是对大量数据的初步操作包括数据的提取、标注、表达等,移动云计算通过互联网可以把这些任务进行分解,分成许多较小的数据处理任务并分配给网络中的很多移动终端用户,让他们在空闲的时候处理这些任务。最后是对移动云上存储的大量数据进行分析,分析的手段包括数据过滤、数据分类、数据聚类等,移动云计算同样可以像上边那样把任务进行分解并在网络中寻找空闲的处理设备辅助完成这些任务。
基于移釉萍扑慵际豕钩傻拇笫据系统,能够提供大数据处理所需要的相关技术。大数据与移动云计算的结合,将是相得益彰,相互都可以更好地发挥作用。移动云计算为大数据提供强大的存储和计算能力,更加迅速便捷完成大数据的处理任务,而大数据的相关业务能为移动云计算找到更多更好的实际应用。
大数据和移动云计算在气象领域的应用,以前的气象服务信息大多只是将气象的监测数据提供给用户,由用户自己去综合使用,这显然仅仅是气象预报产业中的初级阶段。现在,人们通过移动网络可以及时获得气温、紫外线指数、感冒指数、晨练指数、洗车指数等更精细化的气象信息,并利用大数据分析软件可以获得更多的用户想知道的数据信息,体现出单一数据无法表达的价值和效益。
社交网络是现在人们沟通的主要形式之一,用户通过移动终端使用社交网络,伴随着用户的社交过程会产生大量的数据,通过大数据的分析技术可以发现一个人和另一个人是怎么样联系上的,另外也可以通过两个人的社交关系,找到让他们进行联系的渠道。不管我们在使用微信朋友圈还是微博账户,软件系统经常会提示我们哪个人可能是我们的朋友或者是同学,给你一个加入好友的提示,这就是大数据与移动云计算相结合应用的一个实例。
地图导航古已有之,而发展到今天的电子地图导航更成为人们出行旅游的指南针。用户使用移动终端比如手机、平板电脑通过移动互联网把自己的实时地理位置信息传送到网络上,由此可以进行打车、聚会、餐饮、购物、汽车导航等应用。大数据技术通过分析可以知道在哪些地方,什么样的服务是在这个地理位置上的人最需要的,移动云计算把这样的消息出去后,可以给我们提供最便利的服务。比如在商场附近可能有更多的人需要打车,在人烟稀少的地方可能有更多的人需要方向导航等。
医疗行业具有数据量大、复杂性高等特点,医疗行业被认为是最能让大数据分析技术发扬光大的一个传统领域。移动云计算利用移动终端可以随时采集病人的相关数据信息,比如脉搏、血压、照片等,这些数据随着时间的推移将构成海量的数据。此外,医生对于病人的诊断结果也会保存在移动云存储中,当同样类型的病症再次出现的时候,移动终端可以根据大数据的分析技术给病人提出最合理的治疗建议。这样既节省了医生的人力资源,又节省了病人排队等待的时间,更能在第一时间解决病人的病情。麦肯锡的报告中指出,大数据技术可以帮助美国的医疗行业一年创造3千亿美元的附加价值。
大数据利用了移动云计算的方便性,可以随时随地对数据进行处理并提供了及时的服务,移动云计算通过大数据找到了更好的应用方向。没有大数据对于大量信息的积累,移动云计算的计算能力再强也找不到用武之地,同样如果没有移动云计算的强大计算能力,那么大数据积累的大量信息也毫无价值。
4 总结
如果说大数据是巨大的宝藏,那么移动云计算是开发这个宝藏的最有利的工具。没有移动云计算的强大计算能力,那么大数据中的相关数据就是一堆毫无用处的冗余数据。另一方面移动云计算也正是由于大数据的信息量大,本地单机处理能力有限才发展起来的,没有大数据的信息累积,那么移动云计算也得不到完全的发挥,所以大数据与移动云计算是相辅相成的关系。
参考文献:
[1] 赵华, 王海阔. 移动云计算综述[J]. 电脑知识与技术, 2012(1).
[2] 何清. 大数据与云计算[J]. 中国安防, 2014(1).
随着物联网、网络、移动通信等的快速发展,特别是互联网的普及使得信息传播的规模和速度呈现几何增长,人们获取信息的途径和方式开始变得异常丰富,人们事实上已经进入了“信息大爆炸”时代。与此同时信息传播的大容量、高效性和准确性也对现有的数据处理体系提出了更高要求。根据大数据摩尔定律,人类世界的数据产生量将按照每两年一倍的速率增长,预计2020年世界数据量将超过35亿GB,“大数据”时代迫在眉睫。“大数据”具有离散型、随机性、发散性、爆发性等特点。近年来,随着云技术的兴起全面革新了传统的数据技术,大容量、多样化、快速处理、信息价值性和准确性为了云技术背景下大数据处理的五大主要特征。如何利用云计算技术对大数据进行高效处理已经成为了信息技术发展亟待解决的关键问题。
1 大数据和云计算的关系
云计算技术是指利用集中式远程计算资源池,通过按需分配的方式,为终端用户提供强大而廉价的计算服务技术。云计算技术作为一种数据处理方式,其技术特点包括:一是资源池在物理上是对终端用户完全透明的;二是能够为任何行业提供规模化计算服务,其服务能力可看做是“无限”的;三是其应用部署快速便捷,服务能力和方式是可以完全按照终端客户要求定制的,具有极强的弹性伸缩能力;四是云端数据获取方便,能够资源共享,用户使用成本低廉。
云计算技术是目前最强大的数据存储、传输和处理平台,它是大数据处理的最优选择。云计算能够为大数据提供几乎“无限”的存储空间和处理能力,满足其超大容量存储和超级复杂的处理需求,也是传统存储方式无法实现的。云计算侧重数据的计算处理,而大数据需要强大数据处理能力,因而它是云计算的处理对象。此外大数据所产生的业务需求也为云计算的实现提供了更多的形式。
2 基于云计算的大数据处理技术
2.1 大数据的采集技术
目前数据采集方式主要分为集中式和分布式两大类。其中分布式的灵活性较强,而集中式的全局性较好。实际上大数据采集的对象通常包括组织内部和相互独立组织间的各类数据,而云计算恰好具有并行处理的优势,因而可采取混合式采集方式能够更加有效地完成数据采集任务。即在各个组织内部采用集中式数据采集方式,通过在组织内配置中心服务器,作为集中式数据注册机构,用于存储和共享内部的数据。在相互独立组织间,采用云计算的集群技术、虚拟化技术等在各独立组织中心服务器间采用分布式采集方式实现数据采集、组织间对接和共享。大数据结构类型包括结构化、半结构和非结构化数据,因而在应用云计算技术进行分布式采集时,可依托其超强的扩展性和容错力,将数据池内数据进行同构化,从而实现数据进行分类存储。
2.2 大数据的存储技术
由于超大体量、离散、复杂的数据特点,传统数据存储模式已经难以满足大数据存储要求。一方面单结点的数据仓库在容量上难以满足呈几何增长的数据量,在运行效率上也难以满足大数据的分析处理需求。另一方面传统数据仓库按行存储模式,虽然可以实现大容量索引和视图,但实际操作中其时间和空间过高。而云计算主要采取列式存储模式,即区分数据不同属性,不同属性列都单独存放。云计算中列式存储的优势在于在投影数据时只需查询其属性列,系统处理量和处理效率显著提升。此外按数据属性进行列式存储,数据仓库中相邻列数据的相似性更高,因而能够得到更高的数据压缩率,进一步减少存储所需空间。
2.3 大数据的挖掘技术
联机分析能够完成数据的复杂处理,得到直观结果,实现决策性分析。云计算并行模式下联机分析能够基于数据全局,建立多维分析模型对数据进行多维度分析,从而尽可能获得全面的分析结构。由此可见多维度分析是联机分析的重要特征,而云计算技术下数据仓库正好是通过多维数据组织的。
联机分析对数据的处理仅仅只是表面的,其获取的信息价值并不高,难以得到数据深层次的含义与内在关联。而数据挖掘正是在联机分析的基础上,从超大体量的数据仓库中提取数据所蕴含的隐性信息,并将这些信息用规律、概念或是模型等表现出来。基于云计算的数据挖掘主要采用分布式并行挖掘技术。与其他串行方式相比,云计算技术下并行数据挖掘能够利用机器集群拆分分布式系统中的并行任务,并将拆分后的各个任务分别交由不同的机器去处理,从而实现大规模数据处理,其时间成本也大大降低。
2.4 大数据的可视化技术
上文所述数据挖掘可实现大数据的深层次、多维度分析,获取更多有用信息。而云计算平台下可视化技术则能够将上述信息具体化,从而使数据及其有关结构的相关信息能够更直观地表现出来,更容易被发觉和理解。可视化技术是指在存储空间中,将数据库及其中数据以图像(图形)的形式表示出来,并在其中再采用其他的分析手段获取图像中所蕴含的未知信息。而原有的数据处理仅仅只能够从数据本身入手,分析和观察数据中的内在信息。云计算下的可视化技术不但能够实现非空间数据的多维度图像显示,而且能够实现检索过程的直观图形显示,从而帮助人们更好地挖掘和理解信息,信息检索效率也大大提升。
3 结语
在数据爆炸时代,云计算的出现为大数据的存储和处理提供了可能,也为数据处理系统的功能扩展提供了重要保障。以往的数据管理将收集和存储作为重点,而在云计算模式下,大数据管理将更多地侧重数据分析、挖掘及管理模式的创新。目前数据采集和统计技术已经较为成熟,利用云计算进一步丰富大数据的存储和处理方式,实现更高层次的数据挖掘和可视化将是今后需要解决的问题之一。
参考文献
[1]孟小峰,慈祥.大数据管理:概念,技术与挑战[J].计算机研究与发展,2013,50(1):146+169.
[2]吴雪琴,基于云计算的大数据信息检索技术研究[J].电脑知识与技术,2014,10(10):38-41.
0引言
在计算机技术不断发展的时代,它已经普遍应用到了很多领域里。计算机技术的研发与应用对很多行业的传统经营模式造成了很大的困扰。这种趋势也让这些行业开始走向转型。根据研究结果可以看出,要想将公司的管理水平以及生产效率提高,就需要将计算机技术合理地应用到该公司的管理生产上。所以如何在这个时代合理的在公司中引用计算机软件技术已经成为一种重要的命题。
1我国计算机软件技术发展现状
在信息时代的不断发展下,每个领域都已经发觉到计算机技术给企业所带来的效益,并且它在社会发展中的地位也越来越高。很多公司都开始研究数据库的相关工作,其主要目的就是为了今后更好的发展,这样也有效地为社会提供了很大的便利。目前,计算机软件技术发展的重要趋势就在于大数据。这个大数据主要指的是大量的信息资料,也就是说,它能够给应用者提供他们所需的大量相关信息资料。根据大数据有效地对网络数据进行整理,这样就能够提供更加优质的服务给应用者。大数据的优势在于可以有一定的决策力,并且具备了很强的观察能力。这些优势可以帮助它能够在网络应用中对数据库进行扩大填充。这样不仅能够扩大数据库,还能够逐渐地积累了数据。根据调查结果可以看出,我国在未来几年里,大数据的总量将会突破到当前的一倍[1]。这个时代的到来为计算机软件技术今后的发展提供了很大的空间,从而推动力社会效益以及经济发展。但是随着大数据的不断发展,人才、公共关系等方面都面临着很大的挑战。
2大数据时代计算机软件技术的相关应用
2.1虚拟化技术
这项技术主要是根据虚拟的信息进行管理的,同时也会对这些信息进行优化。将虚拟化技术科学地使用不仅可以提高信息处理的速度,还能够确保应用者的操作灵活度。现阶段虚拟技术受到很多公司的欢迎,这项技术在计算机中能够体现的同时,也可以在人们的日常生活中体现。2015年,将这项技术应用在了大数据中,使其提高了虚拟技术的科研高度,并且也完善了大数据对虚拟软件的功能,这样就很好的推动了虚拟技术的发展[2]。
2.2云储存技术
当前很多企业、机构都在应用这项技术,应用者只要将网络终端设备连接至网络,就可以在云储存中进行相关内容的查找,它打破了传统的模式。云储存是一个由很多了储存单位组成的整体,它能够调动多种功能来完成工作,从而将资料储存完成。在这个时代出现的云储存技术能够为应用者提供便捷的信息搜索服务。这个技术在整个大数据时代信息处理过程中是非常重要的。
2.3信息安全技术
在大数据的时代下,很多数据之间都会存在一些联系。信息数据有可能会受到这种关系的不良影响。为了保证数据的安全,相关研究人员要对整个数据库进行合理地调整。互联网很容易受到病毒的侵入,但是大数据是要在互联网的基础上进行统计的,所以信息安全技术是一个很重要的环节。即使我国的互联网技术起步较晚,但是我国的信息安全技术已经在世界上占据一定地位。在大数据的不断发展下,计算机软件技术会遇到越来越多的挑战。所以要根据现实情况,制定出符合自身发展的策略,不断地完善数据处理技术,从而提高数据的可靠性。
3计算机软件技术发展过程中的注意事项
3.1信息通信
通过数据分析软件,对客源流失的问题进行了有效的分析,并且针对于行业管理方面所存在的问题制定出有效的方案。IBM最新研究了一种分析软件就是网络分析加速器,它不仅可以给公司提供一个平台,还能够给运营决策的制定提供很大的帮助[3]。
3.2商业运营
我们以动物园的运营为例,相关的管理人员利用即时功能平台随时掌握游客的访问信息,这样就能够让管理者即时的掌控动物园的运营情况。所以合理地使用计算机软件技术,不仅促进商业经济的发展,还能够确保公司在竞争中所占据的优势。就通信行业来看,工作人员你就可以借助计算机软件技术对客户信息进行统计分析,并且可以根据这些信息对客户的习惯进行总结,从而制定出符合客户自身需求的方案。这样就是利用大数据分析来协助各个行业更好的工作,以至于实现经济和社会的双重效益。
3.3公司信息解决方案
在这个大数据时代里,为了更好的提供优质的信息给公司,我们可以在数据挖掘环节进行以下几方面的突破。(1)抽样。其主要指的是在生产过程中对样本数据进行抽取,并且这些数据事有一定代表性的。相关工作人员会定位这些样本容量,这样会帮助产品的研发以及应用。另外,选择这种方法最重要的一点就是操作上非常方便,在整个过程中会应用到粘贴、复制等工具。(2)开发和探索。这一方面主要指的是分析一些异常值、趋向性的数据,这样就能够有效地提高人们对于数据的认知。在这个环节,只要科学的应用计算机软件,就可以提高整个过程的工作效率。这个过程中会应用到统计报告、变亮选择等工具。(3)修改。工作人员的目标就是模型的选择,数据通过转换变量的方式进行修改。在整个过程中,使用产品编码转变、缺失处理等工具。随后还需要对数据进行分析,这样修改这个环节才算完成。(4)模型。采用模型相关技术对结果进行验证。这一步骤是公司决策过程中的重要环节,因为它不仅可以确保产品的质量,还能够推动公司的经济收益。这个过程中应用了网络资源、逻辑回归等工具及技术。(5)定位。其主要是将评定技术与模型相比较,得出相关数据,然后对数据进行研究与分析。在整个过程中,相关工作人员需要不断地进行探索,找到新的方式。另外,为了确保工作人员能够直观的了解到数据,就需要选取可视化工具,这样不仅能够丰富数据的表现形式,还能够加深工作人员对数据的理解。
4计算机软件技术在大数据时代面临的挑战
上海科技网拥有丰富的网络信息服务资源,城域网在本地有60多个网络节点,自有光缆达1600多皮长公里,基本覆盖本地市区和各郊县,拥有两个独立的AS网络号,与中国三大基础运营商BGP互联。自建自营的互联网数据中心有漕河泾机房(500组标准柜)和宝山云计算中心(1600组标准柜),均按照国际领先的Tier-942标准建造和运营。
上海科技网拥有IDC、IP-VPN、ISP、ICP和CPN等互联网特许经营牌照,并通过了ISO20000信息服务流程管理体系和ISO27001信息安全管理体系,以及信息系统安全等级保护三级。
二、云计算的定义及特征
“云计算”最早是从IBM和谷歌等大型互联网公司处理海量数据的实践中提出。云计算(CloudComputing)是基于互联网的相关服务的增加、使用和交付模式,通常涉及通过互联网来提供动态易扩展且经常是虚拟化的资源。美国国家标准与技术研究院对云计算给出的定义是:云计算是一种按使用量付费的模式,这种模式提供可用的、便捷的、按需的网络访问,进入可配置的计算资源共享池,这些资源能够被快速提供,只需投入很少的管理工作,或与服务供应商进行很少的交互。云计算具有以下特征;支持多人共享资源池,服务由一组资源支撑,云计算借助虚拟化技术,按照客户需求对存储、计算、内存、网络等资源化进行动态的分配;随需的自助服务,用户可以随时随地的用任何网络设备调用云计算资源;按需的自助服务,用户可以根据自身的需求,自行调整或者修改所需计算资源或服务;服务费用低廉,用户只需支付少量的费用即可满足对信息处理的需要。
三、大数据、云计算之间的关系
大数据与云计算的关系很密切,大数据离不开云计算,云计算也离不开大数据,两者相互依赖,互为依存。大数据本身就是一个复杂的问题集,大数据必须有云作为基础架构,才能得以顺畅运营。大数据必须依靠云计算技术来实现对庞大数据资源的挖掘和整理,从而提炼有价值的信息(见图1)。
四、大数据、云计算助推管理会计转型升级
(一)基于大数据和云计算的管理会计思维变革
大数据、云计算时代,财务数据的容量在不断增大,人们不再一味地追求数据的精确度,也不再依赖抽样分析,数据的时间价值和完整面貌开始显现,数据价值挖掘的核心向动态、实时、全部的数据处理转变,人们更加注重利用数据的及时性和完整性;大数据、云计算时代,财务管理决策流程也将发生变革,事物之间直接的因果关系也不再是关注的重点,人们开始转向认识、研究和利用事物之间的相关关系;大数据、云计算时代,财务分析开始从基于单类型的结构化数据向多类型的非结构化数据转变,财务信息和非财务信息实现高度融合,财务决策信息更加全面系统深入,相关度、准确度和可靠度不断提升。(见图2)
(二)管理会计由注重事后分析向基于过程控制转变
对企业的经营管理活动进行事后研究和分析是传统管理会计关注的重点,通过所分析经营管理活动事后反馈的数据结果来发现企业经营管理活动存在的问题,提出相应的整改意见并对未来的经营管理活动给出指导意见。但是,在现阶段瞬息万变的商业环境下,仅在事后对经营管理活动的结果进行分析不能及时,动态,全面和深入地了解企业,要更加注重对经营管理活动过程的分析。基于大数据和云计算的应用,财务人员不再局限于在事后对结果进行分析,反馈和监督,还能够实现过程中对重要经济指标偏离的差异分析、关键原因查找、纠偏控制及成功的关键驱动因素的深挖掘、再甄别、过程行动计划和方案的动态修订和完善、核心要素资源的重组和再配置等一系列管理过程。有效助推企业实现从经营性控制向规划性控制转变;从事后经营管理向全过程经营管理转变;从静态经营管理向动态经营管理转变。基于大数据和云计算的应用,管理会计能在事前、事中、事后对企业的经营活动实现全过程,多方位,深层次的管控,从而有效的提升管理会计信息的及时性,相关性和有效性。
(三)借助大数据和云计算实现财务信息和非财务信息的高度融合,提高财务决策的相关性和准确性
大数据、云计算时代,对管理者投资决策有用的信息不仅仅限于财务信息,企业内部跨部门的数据、过去和现时跨业务形态的数据、合作伙伴和竞争对手的数据、上下游企业之间形成的供应链数据等等结构化和非结构化的数据组成一个广义的大财务数据系统,形成一个集财务分析、战略分析、商业模式分析和前景分析于一体的生态系统。基于大数据和云计算的大财务数据系统,有效实现财务信息和非财务信息的高度融合,为企业提供信息更加及时,内涵更加丰富,领域更加广泛,分析更加深入全面的综合财务报告,有效的避免了传统财务报告信息来源单一,内容粗略简单,结果反馈迟缓等不好的方面,综合财务报告不仅能够及时、动态、高效地反映企业所处的商业环境和社会环境,还能对企业战略规划、业绩状况、综合治理、和发展前景等诸多与企业可持续发展息息相关的重要信息进行有效整合,深度解析。大数据、云计算技术使得财务决策更加科学合理,财务信息和非财务信息的高度融合,使得单纯依靠财务信息决策导致的不可控的非系统风险得到极大程度的降低。大数据和云计算技术的应用,也使得财务与企业各部门之间的关系更加密不可分,企业各部门各业务系统的数据共享中心形成一个有机的整体,不同业务系统之间的“信息孤岛”效应也得到有效的解决,使得企业作为一个大的生态系统运行更加健康有序。
(四)大数据和云计算助力企业提升资金管理水平
良好的资金管理体系不仅能有效强化资金内部控制,确保货币资金的安全,提高资金的使用效益,还能有效保障公司经营活动的顺利开展,并根据资金的实时流向及动态监控为公司管理者提出合理的资金使用的建议和措施,提升企业的生产、经营管理水平。大数据、云计算技术为集团企业实现全过程、全方位、全覆盖、全周期的资金管理和科学的经营决策提供了技术支撑。集团企业可可以按年度、月度、每周、每日甚至每时每刻对经营活动、投资活动和筹资活动发生的资金收入和出进行监管、考核和预测,使得企业的资金预算更加准确,最大限度的减少资金积压,不断提高资金的使用效率。大数据、云计算时代,企业借助云会计平台进行实时全过程全方位可视化监控分子公司所有与资金运作的相关信息,记录分子公司每一笔资金的流向,分析各分子公司资金的利用效率,从而对分子公司进行考核。企业可借助大数据、云计算技术对所有的与资金收付相关的历史业务数据进行分析,分析企业不同区域,不同时间,不同业务涉及的不同现金流活动,借此帮助企业预测相同区域,相同时间,相同或者类似业务日常经营活动可能发生的资金收入和支出。企业通过云计算技术分析研究存储在大数据中心与企业资金管理相关的采购数据、销售数据、现金流数据、同行业及相关行业数据、资金分析数据、银企互联数据,实现对企业资金收付管理、资金调拨管理、资金分析和考核管理的动态化全过程监管。在大数据、云计算时代,不仅资金的管理水平得到迅速提升,随着新型金融业态兴起,资金管理由侧重于资金集中和调配向不同层次的产融结合转变。企业可以有效利用资本市场优化企业的资本结构,利用业务支付时间差取得沉淀资金,利用各种金融工具拓展企业的经济业务,实现企业的资金管理与产业经营、资本运营的深入融合。
2012年,企业对于云解决方案的思维模式将发生变化。首先,在企业以及政府部门中,云将从考虑阶段广泛进入实施。更多的IT机构将从成本中心转向利润中心,这部分是因为采用了云计算。另外,“离群”云集成和点到点应用集成将被更具战略性的、全公司范围的数据集成战略所取代。这个战略跨越了本地部署和云环境,为即使是中型企业提供了一个单一、统一的公司数据视图。
由于云计算部署的加快,在公共云方面,Gartner预测,到2013年,云计算在整体IT预算中会增长20%或更多,到2016年底,有超过50%的Global 1000公司将在公共云中存放客户敏感数据。在Informatica,我们相信,在2012年,混合环境将成为常态,机构将需要访问和分析在其IT环境中的数据,全面跨越传统的本地部署,以及私有和公共云。
云部署的加快,对大数据解决方案产生了深刻的影响。Informatica相信,越来越多的客户数据“生存”在完全不同的云环境中,公司向面临更多的对于数据质量的挑战。尽管价值客户的慷慨赠与就在云中,但要得到一个非常理想的其客户的单一视图以告知以客户为中心的营销战略,会更难而不是更容易。
同时,2012年,法规遵从、风险管理和推动以客户为中心将继续是机构了解和改善其数据状态的推动力。然而,Gartner预测,“到2015年,超过85%的财富500企业将无法有效地利用大数据获得竞争优势。”Informatica相信,尽管有关于大数据的持续的推广,但是大多数的机构将继续为实现他们所访问的数据的1%的潜在价值而努力,需要利用大数据解决方案获得更大的竞争优势。
在2012年,在大数据解决方案将会如何影响客户服务和关系方面,Gartner预测,“对访问和识别能力的需求,在‘大数据’源,如社交网络中,单个客户、产品和供应商被推荐,以及把他们内部地连接到授权的主数据上,将为改善市场、销售和客户服务提供一个新的机会。”Informatica相信,机构将从理论和计划转向实际部署数据治理和主数据管理(MDM)最佳实践。同时,通过对社交和位置数据的分析获得对客户前所未有的了解,将使得更多的机构放弃大众化营销,转而赞成不仅仅是针对个体的个性化营销,而且针对那些可以影响其他人购买行为的个体进行个性化营销。
紫光股份向云服务商转型的良好开端是了首台云计算机——紫云1000。紫光云计算机是基于云计算的技术思路构建的软硬件一体的大数据平台。负责云计算机研发的紫光软件集团首席技术官陈炜介绍说,紫光云计算机历经两年研发,采用与个人计算机、超级计算机完全不同的分布式体系架构,借助虚拟化技术将多个成本相对较低的计算资源融合成一台具有强大计算能力的计算机。紫光云计算机可以满足大数据处理、高吞吐率和高安全信息服务等多类应用需求,其计算能力和存储能力可以动态伸缩并无限扩展。
紫云1000可以作为企业云计算基础架构的一部分。“企业不用自己再对各类软硬件进行集成。”陈炜表示,“客户使用云计算机就像使用一台PC一样方便。与传统IT系统的部署相比,云计算机的部署时间可以缩短90%。”从各项技术指标看,紫云1000确有过人之处:单台紫云1000的CPU处理器数量可以从6个扩展至65535个,存储空间可由20TB扩展到85PB,吞吐量达到1.2GB/s,数据检索速度达到30亿条/秒。紫云1000从架构上区分主要包括两层:最底层是标准化的硬件,其上是紫光股份拥有自主知识产权的虚拟化模块、大数据模块和快速部署模块。紫云1000作为一个云计算平台,可以支持各类应用模块,比如邮件、即时通信、语音系统、个人网盘、数据共享等。
陈炜将紫云1000的特色归纳为以下四个方面:第一,软硬件一体化,从而大大降低了IT系统的整体拥有成本;第二,具有快速、无限的扩展能力,其分布式的大数据处理架构保证系统可随客户数据和业务的增长而实现线性扩展;第三,具有很高的可用性,其元数据服务器采用主备双机热备技术,在主机发生故障时,备机可自动接替其工作,而数据节点也采用冗余备份机制,任意一个节点出现故障,数据也不丢失,服务不会停止;第四,具有高效性,数据处理速度非常快,数据可在不同节点之间动态移动,同时保证各节点的动态平衡。
“数据”方面的情况则是,数据量飞速增长。最近,IDC了2012数字宇宙研究报告,报告调高了对数字宇宙增长速度的预测。2010年,IDC预测到2020年,数字宇宙的规模为35ZB。在最新的报告中,这一数字变为40ZB。
2013年,我们还将看到,云计算、大数据浪潮正在引发IT厂商格局的巨变。思科公司董事长钱伯斯最近做出预言,微软、IBM、惠普、SAP、甲骨文和思科等科技巨头,5年内将有两家或3家不在名单之列。同时,EMC、VMware进一步提出软件定义数据中心的理念,将云计算的变革推向深入。
在IT产业中,EMC公司的规模并不算很大。2012年销售收入预测为216亿美元~217.5亿美元,而它在IT业界的地位超过了很多规模大的公司。EMC之所以能够引领云计算、大数据潮流,是因为公司决策层能够敏锐地洞悉行业技术趋势,从产品、技术和解决方案上提前布局。
最近,EMC公司全球11位高管从技术的角度,对2013年全球技术趋势进行了预测。这11位高管分别来自信息安全、信息智能、企业存储、闪存产品、备份恢复、大数据分析等部门。他们认为云基础架构和大数据分析处理的最新需求趋势是:
由于软件智能、跨域基础架构管理软件包以及对象存储开放接口技术的广泛采用,混合云模式将变成现实;
大数据存储将催生新型应用,IT创新和变化的速度加快;
提供单点式工具的大数据初创公司前景不乐观,客户需要集成式解决方案;
信息安全需要基于大数据分析的深度防御战略;
企业级存储将更多采用行业标准组件、企业级闪存和领先的驱动器技术;
闪存将成为常态产品,相变存储器将迎来投资热潮;
统一存储方面,从服务器、网络到存储,将普遍采用闪存技术;
“重复数据删除技术+磁盘备份”的模式将进一步替代磁带备份,备份恢复朝着“IT即服务”方向发展;
企业内容管理方面,基于云服务模式、以内容为中心的解决方案将达到质变点;
中图分类号:TP393 文献标识码:A 文章编号:1009-3044(2014)32-7574-02
1 概述
当代云计算数据中心的存储节点数量少则几十万多则上百万,在规模如此庞大的海量存储系统中,节点失效或磁盘损毁已然成为一种常态,此外,由于网络设备或者传输线路故障等原因导致的数据丢失或短时不可用现象也常有发生。如果用户或企业不能随时随地存取自己所需的数据,甚至发生数据丢失的现象,将大大影响客户满意度,甚至给企业带来巨大的经济损失,因此,必须采取有效措施及相关技术策略来保证云端数据的可靠存储。
2 云端数据中心拓扑结构
云端数据中心是大数据存储的基础平台,数据的可靠性及访问效率与网络节点的拓扑结构紧密相关。按节点功能类型的不同,可将数据中心节点的拓扑结构分成三种类型[1]:①以server(服务器)为为中央节点的星型结构;②以 switch(交换机)为中央节点的星型结构;③混合结构。三种拓扑结构的特点如下:
以server为中央节点的结构将多台server通过传输介质直接互连起来,在这种结构中,server兼任switch的角色,一方面承担数据的加工处理工作,另一方面承担分组的存储转发工作,以server为中心的结构增加了服务器之间的网络带宽,摆脱了对交换机的过度依赖,提高了吞吐量;但是server之间的链路带宽的不均衡增加了布网的复杂度。
以switch为中央节点的结构将各台server通过switch进行互连,switch和server各司其职,switch负责分组的路由转发,server负责数据的存储加工,这种结构布网简单,操作方便,可扩展性强,在现代企业数据中心应用较广泛;但以交换机为中心的结构存在底层server利用率低、switch资源浪费较为严重、网络带宽容量有限、灵活性差等缺点。
混合结构是以上两种结构的一种扩展,其设计融合了这两种结构的优点并有效避开了各自的缺陷。
3 云端数据容灾技术
容灾技术是云端大数据可靠存储的一种关键技术,良好的容灾策略不但能有效提升大数据存储系统的可靠性,还有助于提升系统的访问效率。容灾策略一般都采用冗余备份技术来实现,以确保当出现某种突发状况导致存储系统中的文件、数据、片段丢失或者严重损坏时,系统可准确而快速地访问冗余数据来维持系统的稳定运行[2]。一般来说,容灾技术按策略的不同主要分两种:①复制冗余策略;②纠删编码冗余策略。
3.1 复制冗余策略
复制冗余策略为系统中的每一个数据都建立一个或多个副本,并把若干个副本分散存储在不同的网络节点上,当遇到某个数据损毁或失效不能正常使用时,可通过访问最近的存储节点来获取与原件完全一致的副本数据[3]。基于复制的冗余策略主要关注2个方面的问题:(1)副本数量设置;(2)数据放置方法。
3.1.1副本数量设置
副本系数设置主要采取两种方式: ①静态设置副本数量,目前主流的分布式文件系统Hadoop的HDFS、谷歌的GFS都采用3副本策略,这种静态设置方法操作简单,但灵活性差;②随机动态设置副本数量,即系统根据数据的访问频率、出错概率及网络状况等动态因素随机地确定副本系数,动态地删除或添加副本,这种动态机制能大大增加存储空间的利用率,但动态计算过程增加了系统的开销;
3.1.2数据放置方法
巧妙的数据放置方法能通过提高并行访问量来提升云端大规模数据的访问效率,目前,数据放置方法一般采用顺序放置和随机放置[4]。
①顺序放置方法把数据副本按顺序分布存储在不同节点上,使得排列数目相对较少,针对系统的随机失效有一定的防护性,顺序放置方法技术简单、易于实现和维护,但在具体应用时,因失效具有很强的相关性,局部的网络故障或节点失效就有可能导致整个机架的数据不可访问。
②随机放置方法是在可放置节点中随机地选择一系列节点来存放数据副本,此方法能够降低关联对系统可靠性带来的负面影响,但在实际应用中,由于节点的存储、计算能力各不相同、数据的访问热度也不尽一致,往往达不到理想的均衡负载效果。
3.2纠删编码冗余策略
3.2.2 LDPC编码
LDPC码是从蒙特卡洛及图论演进而成的编译码技术,因其稀疏检验矩阵(少量元素是1,其余部分全是0)特性,被研究者广泛用于设计复杂度低的解码算法,LDPC码可以有效提升系统的容灾能力,但是构造不规则码字的难度也相应成倍地增加。
3.2.3阵列编码
阵列码的编译码过程只涉及基础的二进制异或运算,技术实现相对容易,而且在采用同等编译码的前提下,阵列码比RS码更能有效地提高系统的可靠性,与此同时保持其计算域不变大,阵列码技术一直是大数据可靠存储关键技术的研究热点,被广泛的应用于磁盘阵列及网格存储系统中。
3.2.4 RS编码
RS码是一种高效的纠错码,既可以纠正突发错误,又可以纠正随机错误,在通信领域中有极其广泛的应用,近年来,随着大数据存储技术的快速、多元化发展,有研究者对RS编码行了改造,并将其应用于数据存储领域以提高系统的容错性。
4 云端系统节能减耗技术
数据存储是各种云计算服务赖以施展的基础,在云计算环境下,底层数据中心节点的规模庞大,使得数据存储成本极高,主要源于添置各种网络硬件设施(大型服务器、交换机、路由器等)以及支付各种存储设备的高额电能消耗等。高涨的能耗开销不但增加了系统的运营及维护成本,更催化了大气温室效应,严重破坏了自然界的生态环境,因此,不论从服务商盈利的角度,还是从环境保护的角度出发,节能减耗技术都显得尤为必要。
当前,分布式存储系统的节能减耗技术主要集中在两个方面:①硬件节能策略,主要致力于降低存储系统中的硬件设备能耗;②软件节能策略,通过使用一些专业软件来实现系统资源的有效分配及使用。
参考文献:
[1] Popa L, Ratnasamy S, Iannaccone G,et al. A Cost Comparison of Data Center Network Architectures[Z]. 2010.
[2] 吴朱华.云计算核心技术剖析[M].北京:人民邮电出版社,2011.