时间:2022-03-06 11:50:12
引言:寻求写作上的突破?我们特意为您精选了12篇大数据解决方案范文,希望这些范文能够成为您写作时的参考,帮助您的文章更加丰富和深入。
背景:
“放权”不“撒手”
这是值得品味的两个事件的时间节点:2015年9月25日,浦东区院党组集体听取综合管理信息平台一期开发建设情况最后一次专题汇报,次日该平台随即投入试运行;2015年9月28日,上海市检察机关举行入额仪式,全市首批入额检察官遴选工作基本完成,上海检察机关司法改革主体架构全面落地。细心比对就会发现,浦东区院综合管理信息平台一期开发与这轮司法改革密切相关,推进时间衔接都显得极具用心。浦东区院检察长陈思群介绍,在上级部署的完善司法人员分类管理、健全司法人员职业保障、完善司法责任制等四项司法改革中,落实司法责任制是推进其他几项改革的基础和前提。司法责任不落实、司法行为不规范,其他改革就无法顺利推进。浦东区院党组适应司法改革新要求,决定以落实司法责任制为基础,着手研发规范检察官办案及检察权运行的数据管理系统,着重构建对检察权运行的有效监督机制及修改完善的数据提供支持,同时建立起一套科学的检察官司法办案的考评机制。
随着员额制检察官“谁办案谁负责”、“谁决定谁负责”和“终身追责”制度的推行,今后检察官自主决定案件的比重将会有很大的增幅。权力下放,办案提速,终身追责,如何确保检察权规范运行?陈思群检察长认为,党组和领导现在肩上的担子,相比过去不是减负而是增加了。她说:“开发这个平台,我们设计的初衷,就是依托信息科技,动态与高效地服务与监督检察权运行,以保障公正司法和提高司法公信力。”综合管理信息平台以实时、准确、全面的大数据,按照检察权的权力清单,刚性引导检察官在司法办案中形成正确的权力思维、规则思维、监督思维与底线思维,成为浦东区院进一步深化司法体制改革的有力抓手。
浦东区院综合管理信息平台一期项目的成功开发,在现代信息社会下运用大数据强化检察官队伍管理监督,牵住了司法体制改革完善司法责任制的“牛鼻子”,得到了上级院和中央政法委有关调研组的肯定。
序列:
“一个都不能少”
通过该院综合管理信息平台演示,全院126名员额制检察官的办案等情况均可适时动态地展示。平台将海量的数据资源整合为44项核心指标和31项辅助指标,从案件、时间、人员、绩效四个维度对检察官办案活动进行实时统计、分析和管理,且基本实现自动抓取、自动分析、直接展示。检察官办案评价指标,由办案数量、案件质量、职业操守、研修成果四块内容构成。把办案数量、质量、效率、规范司法、工作作风和工作态度、违法违纪等方面内容纳入到考核中,体现出激励作用和正确的工作导向。点击某个检察官姓名进入子栏目,可进一步查询其所办的每个案件的基本情况及案管部门督导员的案件评查结果。如果输入命令对全院检察官的办案情况进行面上统计分析,屏幕会即时显示全院检察官办案业绩的排名,并以直柱图和曲线图形象显示,也可根据需要开展相应的检察官办案具体情况统计分析。该院检察长、副检察长与检委会专职委员,作为员额制检察官序列一员,全部列入平台的管理序列中。各司法办案场所办案情况,以及风险预警和社会评价“一键”切入。在平台的远程讯问室全程视频显示栏中看到,每周都有检察长领导层直接办案的记载。根据权限,可以观摩提审视频的全程录像。目前检察长直接办案已形成新常态。他们所有办案“规定动作”与“自选动作”,全部纳入平台的数据管理。检察长办案,通过平台“晒”的功能也走进了普通干警的视野。
据浦东区院负责综合管理信息平台一期开发建设的朱毅敏副检察长介绍,平台开发历时半年,由职能部门等会同网络信息公司共同研发,研究会、工作例会等大大小小的会开了不少,可谓“机关算尽”。朱毅敏副检察长说:“综合信息管理平台是一个大数据分析平台,能为检察权视野下的领导力与执行力提供可靠的数据支持。我们评估梳理了检察办案环节中所有可能存在的风险点,并按权力清单点阵设置全部植入平台的管理模块。我们希望通过大数据管理,找到一个管控检察权运行的解决方案。”他表示,平台一期完成也标志着二期研发开始。在硬件支撑上,平台一期为即将推开的大部制改革预留了模块衔接空间。今后,强化平台的服务、管理、决策、考评四大功能,将是平台未来的总体方向。记者在采访中了解到,浦东新区人民检察院的综合平台一期开发建设项目能为上海检察司法档案升级版开发提供“检察业绩”的数据援引接入服务。
数据:
“躺着”会“中枪”
浦东新区人民检察院全新页面的综合管理信息平台,给干警们最大的感觉变化,不是“换面孔”,而是“调结构”。其中“检察官管理”――做为四大导航栏目之一,在内网首页赫然醒目。点击“检察官管理”,就会进入一个庞大的个体与群体信息数据管理系统。所有员额制检察官的办案情况全程“留痕”,清晰反映主任检察官、独任检察官、检察官和授权检察官助理行使决定权、审核权、承办权的职权定位和责任归属。办案数量包括案件受理数、审结数、审结率、审核数,办案质量包括总评查数、重点评查、随机评查和专项评查,办案效果包括追捕、追诉、纠正违法、检察建议等法律监督,不仅在同条线中可以纵向比较排列,不同处室间也可进行横向比较,以柱形图和曲线图展示,并能模拟反映各项指标的趋势。
美团云(Meituan Open Services, MOS)是美团推出的公有云平台,致力于为千万用户提供最稳定、可靠、高效的基础设施云服务以及大数据解决方案。2013年5月,美团云正式对外开放计算资源。公有云推出初期就引发了行业内巨大的关注,资源很快售罄。同年7月,美团全业务实现向云平台的完整迁移和部署。美团云目前全面支撑美团业务,网络流量已经达到了500T/天,承载超过两亿用户的高并发访问量,支持Web端和App端多业务类型,美团云的稳定性、可信性,经过了大规模商业实践的验证。
2015年3月,美团云获得IDC牌照,8月对外开放首个高品质的自建机房。同时,可信云服务大会上,美团云正式通过可信云服务认证,在各项云服务指标的完备性和规范性方面得到了业内的认可,并凭借各项优势独揽“电商云服务奖”。目前,美团云的服务范围覆盖O2O生活服务提供商、在线教育、知名电商、互联网金融、智能硬件、新媒体、汽车等。随着获得了可信云服务认证,美团云也将继续依靠强大的技术团队,不断优化产品,注重用户体验,为更多企业级用户提供最优的底层架构以及稳定的网络服务。
据悉,截止到目前,美团的年度活跃买家数达1.3亿,合作商家超过160万户,预计2015年全年交易额将超过1000亿元。
美团庞大的数据量驱动了美团云大数据分析服务的“大梦想”。美团云CTO李爽谈到,美团云软硬一体的解决方案完全基于开源Hadoop解决方案,降低上手成本,万兆网络互联、支持Native Client和Rest API。此外,李爽还介绍了美团云经典BI产品:客户洞察和在线推荐。客户洞察通过观察、了解客户,将采集到的客户数据转化为所需的信息。在线推荐则是在线推荐筛选目标客户,生成静态名单、营销信息和接触信息。同时,他还举例了中传与美团携手同闯“互联网+”的例子。最后,李爽总结了美团在大数据方面的经验,并展示了美团云的数据平台、业务架构和分析平台。 “美团云致力为千万用户提供稳定的公有云服务及大数据解决方案,通过打造更加稳定、高效和创新活力的新一代公有云平台,我们很高兴和华为在云数据中心网络领域展开全面和良好的合作,并将双方的创新成果成功商用。我们期待这些创新能提升网络运营效率,进一步提升用户体验,为我们的客户创造更多价值!”目前,美团云正在和更多的企业合作,拓展大数据解决方案。”
携手华为 深耕云计算网络
随着美团网云化业务的爆发式增长,网络规模不断扩大,如何构建适应未来业务增长的云计算网络?如何持续提升业务上线效率,缩短上线周期?如何简化网络运维,降低运维成本,同时释放服务器能力?如何保证美团在线业务安全永续运营等几大问题,成为美团网建设的核心诉求。
“华为与美团在云数据中心网络领域有着深入且良好的合作,本次美团云成功部署华为敏捷数据中心SDN方案,有效地支撑其战略及业务的发展需求,在业界也具有重要的里程碑意义。” 华为交换机与企业通信产品线总裁刘少伟表示,“作为全球领先的信息与通信解决方案供应商,华为围绕客户的需求持续创新,与合作伙伴开放合作,在企业网络领域为客户提供有竞争力的解决方案和服务,持续提升客户体验,为客户创造最大价值。”
同时,华为企业BG网络产品总工Mark Wu表示:“此次美团云部署的华为CE12800数据中心交换机以及敏捷控制器Agile Controller,旨在为客户打造弹性、简单、开放的云数据中心网络,让网络更敏捷地为业务服务,帮助美团云连接云计算未来。”
详细解读SDN商用网络
为了构建适应未来业务发展的云计算网络,实现美团云 “稳定提升价值”的理念目标,美团与华为在SDN领域展开战略合作,携手共建面向云数据中心的SDN商用网络。
■SDN实现租户网络自动化,加速美团云业务部署
华为敏捷控制器Agile Controller兼容ODL开放架构,通过3类接口、40个API和美团云深度对接,协同美团云平台实现业务快速发放,实现了租户网络自动化,加速美团云业务部署。
■硬件VXLAN构建多租户网络,服务器性能提升2倍
美团云部署华为基于硬件VXLAN方案,把支持租户的数量由4K扩充到16M,以适应业务爆发式增长;同时通过CloudEngine交换机采用硬件VXLAN构建多租户网络,实现租户间的隔离,服务器性能提升2倍;另外,硬件VXLAN方式支持异构多虚拟计算平台,相对软件方式有很好的兼容性。
■端到端业务路径可视,实现租户网络精细化运维
华为Agile Controller敏捷控制器与CloudEngine交换机配合,打破overlay网络中虚拟网络的运维黑盒,由Agile Controller构造下发探测报文,网络转发节点逐跳上送路径信息,实现VM层面的转发路径可视,物理和虚拟网络统一运维。
■业界最佳的“双”平面扩展能力,支撑业务爆发性增长
在控制面,华为Agile Controller敏捷控制器支持业界最大的1:64弹性集群,支持业务无损升级;在转发面,全球最高性能的CE12800数据中心核心交换机,支持160Tbps交换容量,单线卡支持3.6Tbps的交换能力,是业界水平的3倍;线卡支持100ms超大缓存,满足大数据业务需求;整机支持平滑演进,满足美团云数据中心5-10年业务发展需求。
行业概述
近年来互联网发生了巨大的变化,移动互联网、社交网络、电子商务大大扩展了互联网的疆界和应用领域。互联网行业在大数据技术浪潮中的异军突起,也将为整个信息技术产业带来新的机遇。一方面,大数据会催生对IT产品与解决方案更多的需求,将涵盖从硬件、软件到信息服务等多个层面;另一方面,越来越多的互联网公司正在通过云交付的模式,将自身对于大数据集的存储、计算与分析能力开放给第三方,使得数据即服务(Data as a Service)成为影响产业格局的新一代业务模式。”
方案架构
曙光互联网大数据平台解决方案从逻辑上分为硬件层、存储层、计算层和其上支持的各种业务模型。其中硬件平台统一为整合计算和存储能力的存储服务器,服务器之间通过以太网互相连接。这种不再需要门类繁多的存储设备和服务器类型的设计可以大大简化管理和建设的复杂程度。存储层存储上层业务中的结构化数据和非结构化数据。结构化数据保存在关系数据库中,网页信息等非结构化数据已Key-Value的形式保存在NoSql存储系统中。计算层负责将存储层中管理的数据转化为上层应用所需要的数据集,包括数据存储、关键字快速检索等。业务层则可以利用大数据平台提供的存储和计算资源,这些资源都可以以资源池的方式呈现,以多租户的形式提供给上层的应用。
曙光互联网大数据平台逻辑结构示意图如下所示:
什么是大数据?
早在1980年,当时著名的未来学家阿尔文·托夫勒便在其著作《第三次浪潮》中热情洋溢地将大数据赞颂为“第三次浪潮的华彩乐章”。不过直到时光抵达2009年,“大数据”才开始成为互联网信息技术行业的流行词汇。
环顾四周,我们都已经切身感受到了当今的信息量正在以前所未有的速度膨胀。当我们的普通民众在上世纪90年代刚刚接触个人计算机的时候,1MB的磁盘,1GB的硬盘已经是不错的配置。然而现在呢?GB、TB都已经无法满足我们丈量数据大小的需要,PB、EB、ZB已经义无反顾地承担起了丈量数据的大任。
随着互联网自媒体的普及,每天都有数以亿计的人在发微博、写微信、更新个人主页、使用社交网站、发表个人评论……全球互联网上每天会有220万TB的新数据产生,90%的数据都是在过去的24个月内创造出来的,如今,这个比例还在不断上升。
在维克托·迈尔-舍恩伯格及肯尼斯·库克耶编写的《大数据时代》中,他们对大数据的表述是:大数据(big data),或称巨量资料,指的是所涉及的资料量规模巨大到无法透过目前主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。他们对大数据的特性进行了归纳,提出了4V特点,即Volume(数据量大)、Velocity(要求实时性强)、Variety(数据的种类多样)、Value(数据是有价值的)。
而《互联网周刊》则认为“大数据”的概念远不止大量的数据和处理大量数据的技术,或者所谓的“4V特点”之类的简单概念。大数据是涵盖了人们在大规模数据的基础上所能做到的事务,而这些事务在小规模数据的基础上是无法实现的。换句话说,大数据让我们能够以一种前所未有的方式,通过对海量数据进行分析,获得具有巨大价值的产品和服务,或者深刻的洞见,进而最终形成变革世界的力量。
2 大数据应用的现状分析
最早提出世界已经迎来“大数据”时代的机构则是全球知名的咨询公司——麦肯锡。麦肯锡在其研究报告中指出:数据已经渗透到每一个行业和业务职能领域,逐渐成为重要的生产因素;而人们对于海量数据的运用将预示着新一波生产率增长和消费者盈余浪潮的到来。
大家都或多或少地意识到应该能从这些海量的数据中获取些什么,然而究竟我们能获取到什么呢?
一个被广为传播的典型案例是:在2012年初美国的一家Target超市,一位愤怒的父亲突然闯进来对店铺经理咆哮道:“你们竟然给我17岁的女儿发婴儿尿片和童车的优惠券,她才17岁啊!”经理下意识地认为是店里出了问题,也许是误发了优惠券,于是立即向这位父亲道歉。然而经理却没有意识到,其实这是公司正在运行的一套大数据系统得出的分析结论。
Target会从其会员的购买记录中去了解该顾客的性格、类别等一些列业务活动。上面的例子正是Target为适龄女性创建的一套怀孕期变化分析模型,如果相关客户第一次购买了婴儿用品,系统将会在接下去的几年中根据婴儿的生长周期向顾客推荐相关的产品,从而培养和提高客户的忠诚度。
果然,一个月后,该名愤怒的父亲打电话给商铺道歉,因为Target发来的婴儿用品优惠券不是误会,他的女儿确实怀孕了。
利用数据挖掘用户的行为习惯和喜好,在凌乱纷繁的数据背后发掘出更符合用户兴趣和习惯的信息、产品和服务,并对这些目标化的信息、产品和服务进行针对性地调整和优化,这便是大数据能带给商家最诱人的价值之一。
随着社交网络在人们生产生活中地位的快速提升,大量UGC(User Generated Content用户自生成的内容)进入互联网,上述价值的实现也变得越来越明显。
事实上,全球IT业巨头都已经意识到数据的重要意义和“大数据”时代的到来。包括IBM、EMC、惠普、微软在内的全球知名跨国公司都陆续通过收购与“大数据”相关的厂商来实现技术整合。
目前典型的大数据应用领域有:
商业智能。例如:用户行为分析,即结合用户资料、产品、服务、计费、财务等信息进行综合分析,得出细致、精确的结果,实现对用户个性化的策略控制,这在营销网络的流量经营分析中占有越来越举足轻重的地位。个性化推荐,即在各类增值业务中,根据用户喜好推荐各类业务或应用,这已成为运营商和门户提供商服务用户的一个最有效方式之一,比如应用商店的软件推荐、IPTV视频节目的点播推荐、购物或旅游网站的猜你喜欢等。
公共服务。一方面,公共机构可以利用大数据技术把积累的海量历史数据进行挖掘利用,从而提供更为广泛和深度的公共服务,如实时路况和交通引导;另一方面,公共机构也可以通过对某些领域的大数据实时分析,提高危机的预判能力,如疾病预防、环境保护等,为实现更好、更科学的危机响应提供技术基础。
政府决策。通过对数据的挖掘,从而有效提高政府决策的科学性和时效性。例如:日本大地震发生后仅仅9分钟,美国国家海洋和大气管理局(NOAA)就了详细的海啸预警。并且随即NOAA通过对海洋传感器获得的实时数据进行了计算机模拟,制定出详细的应急方案,并将制作的海啸影响模型实时在了YouTube等网站上。
3 大数据解决方案的现状分析
以往谈及大的数据通常用来形容一个公司创造的大量非结构化和半结构化的数据。如今把“大数据”作为一个专有名词提及,通常指的是解决问题的一种方法,即通过收集和整理生产生活中方方面面的数据,然后对其进行整理、挖掘、分析、处理,进而从中获得有用的价值信息。这种衍化出的新的商业模式即为通常意义上的大数据解决方案。
虽然通常意义上的大数据解决方案描述了一种通常的行为,但要实现这种通常的行为,往往会遇到诸多技术和硬件上的问题。一个显而易见的问题就是:大数据包络万象,而且像音频、文本信息、视频、图片等非结构化数据正以突飞猛进的速度增长 ,加上移动互联网的普及所带来的如位置、生活信息等富含价值的数据,现有的,或者传统的对数据的处理手段和硬件配置已越来越跟不上数据发展的步伐。
于是革命爆发了!
哈佛大学社会学教授加里·金就说道:“这是一场革命,庞大的数据资源使得各个领域开始了量化进程,无论学术界、商界还是政府,所有领域都将开始这种进程。”
数据需要存储,存储需要设备,存储设备的容量和可扩展性以及读取的速度成为了一大问题(容量问题);大数据不是一日而成的,往往都需要一定周期的积累,在数据的积累过程中,以前的数据和现在的数据在存储上应该是能保持一致的,无论设备升级与否,而且这些数据要长期有效,这是一个持久的问题(积累问题);与持久相对应的,互联网是变化的、经济活动是变化的、整个世界都是变化的,针对某些实时问题,如交易、金融等,用已经过去的数据显然是不合适的,这也是一大问题(延迟问题);大数据包络万象,有些是可以随意获得、和消除的,有些,如金融数据、医疗信息、政府情报等,则是需要按不同级别进行保护和加密的,特别是在需要交叉数据参考的应用中,不同部分的数据有着不同的安全需要,这又是一大问题(安全问题);为了满足上述问题,我们显然可以通过不断加大投入,购买更多的存储设备、雇佣跟多的工作人员、建设更多的数据中心和分析中心,但这一切都是由成本的,特别是对于以盈利为目的的商业机构而言,成本和收益永远都是最优先考虑的问题之一(成本问题);当然还有很多其他的问题,这里就不一一罗列了。
驱动商业机构解决上述问题的动力肯定是商业利益。以全球知名的IT制造与服务和咨询提供商IBM为例,其全球CEO调研显示,唯有在数据获取、将数据转换为洞察力、再将洞察力转化为行动力等方面表现优秀的企业,才能有持续的绩效表现。绩效突出者从海量数据中挖掘出有价信息的能力是绩效不佳者的2倍。
IBM认为由于当今企业、市场、社会、政府之间的联系变得越来越紧密,传统的数据分析正日益呈现出“大数据”时代的新特点,即容量要求更高、速度要求更快、数据类型多样和数据来源复杂4个方面。结合多家领先市场咨询机构的调研数据显示:
2010-2015年,“大数据”市场年均符合增长率为39.4%,将是整个信息与通信技术市场增速的7倍;管理及维护数据的成本将是购买存储设备所需成本的4倍;全球数据量的年均复合增长速度为59%;未来需要分析的信息源中,混合类型数据所占比重将高达85%;数据分析直接受到服务器性能制约的数据量将占到总体的87%;仅2012年一年,服务器在整体“大数据”市场投资中就将占去14%的比重。
这就意味着传统计算的低效正在为企业发展带来阻碍,企业感到当前的IT系统变得更加复杂且难以管理。数据显示:企业用于运营和维护IT系统的费用已经超过整体预算的70%,并且这一比例仍在持续增长;企业有三分之二的IT项目及解决方案部署超出了原定计划;IT架构的复杂度将以当前速度每两年就增加一倍。
于是出乎绝大多数人意料的事情发生了:IT部门,这个曾经作为企业现代化和创新化能力标志的部门,正越来越成为企业新创新的阻力而非动力。
怎么办?
很多人立即想到了另外一个热词:“云计算”。
IBM全球高级副总裁Rod Adkins认为,当前全球IT领域有了令人振奋的发展趋势和挑战,现在每天有大量数据和信息生成,这为大数据分析提供了机会;数据中心的挑战也为IT提供了新机会,比如云计算,能降低数据中心成本。
EMC资深产品经理李君鹏认为,大数据本身就是一个问题集,云技术是目前解决大数据问题集最重要有效的手段。云计算提供了基础架构平台,大数据应用在这个平台上运行。目前公认处理大数据集最有效手段的分布式处理,也是云计算思想的一种具体体现。Teradata技术总监Stephen Brobst则表示,公有云架构对数据仓库没有影响,因为企业的CIO不会无缘无故把财务数据或者客户数据放到云上,那样很危险。然而,是私有云架构确实有影响:第一,通过私有云,可以巩固数据集市,减少利用率不足的问题;第二,可以通过灵敏的方式将数据集成,实现业务价值。
于是有人就此理解为:大数据的最佳解决方案是采用云计算和分布式处理,利用互联网将运算能力、存储能力都做分布式的处理,认为这样做就可以最大程度上地降低成本、增加扩展性和灵活性。
然而事实真的如此吗?
让我们来分析一下最近IBM公司在国内针对百万人口的城市级信息中心制定的解决方案:
面对数量庞大且增长迅速的各类交通信息:120万辆机动车电子卡、4万辆机动车的实时GPS定位、200万笔公交IC卡数据、518个高清卡口的113亿张图片等,该市信息中心的领导意识到,当前多个项目能源消耗大、占地要求非常高、并且原有的网络设备难以满足新增的需求,网络设备经常更换,并且这些相互独立的数据库、服务器和存储,以及不同的访问权限和没有统一的管理界面,让本就压力巨大的数据中心的效率大打折扣,同时也极大浪费了宝贵的人力、能源和其他各种资源。
IBM给出的解决方案是:
首先,在基础平台上摒弃了分布式的服务器架构,而是采用大型服务器在基础架构上对处理能力、I/O吞吐和主存储进行了整合,这样做的最大亮点是,将原有成百计的分布式服务器整合到了个位数,极大地节省了空间和能源,做到绿色环保;因为不用考虑各分布式服务器之间的互通互联和各服务器之间的状态及负载均衡与调配,节省了相当数量的管理人员;另外大型服务器自身端到端的管理功能和适用于异构工作负载且基于策略的框架,有效帮助信息中心实现中心控制,实现极高的性能。
其次,在整合的基础平台之上,采用“云计算”框架虚拟化设计,实现了智能交通和政务网站的整合。这一方案让用户在使用上可以享受与分布式架构相同甚至更加优越的性能。由基础平台通过虚拟化形成的任意数量的虚机,在统一云管理软件URM的配置下,能够提供统一的管理视图和管理机制,简化在多套异构业务系统环境下系统的运营和维护工作。
而在本方案中的存储部分则采用了运行稳定、性能领先、技术成熟的SAN网络架构,具有很好的稳定性, 能为前端各应用提供可靠的数据存储平台,并且整个SAN网络中的部件都配置了双冗余组件,保证任一部件的损坏不会影响整个系统的运行,而关键数据库的数据都通过合理的备份策略,定期备份在了物理磁带上,保证关键数据的绝对安全。
总结下来,整合的基础平台,“云计算”框架的虚拟化设计,和定制化的高速存储,打造出了最稳定、最可靠、最安全、最绿色的运行环境,让政府的大数据应用完美落地。
可见,大数据的解决方案不同于纯粹云计算的解决方案,虽然云计算带来了看上去更便宜的处理能力和存储能力,但对于往往都有相当数量级规模的大数据应用而言,在基础架构上巧妙地整合和部分的集中,反而能更好地解决安全性、可靠性、稳定性和绿色环保的需要。
4 结束语
大数据为云计算大规模与分布式的计算能力提供了应用的空间,解决了传统计算机无法解决的问题,海量的数据需要足够存储来容纳它,快速、低廉、绿色的数据中心将成为这一切的关键。
然而大数据并不意味着整合的、集中式的服务器架构已走向了末路,相反,大数据所带来的规模效应,使得我们越来越需要更加高效可靠的大型整合的混合负载服务器,巧妙地整合和适当的集中,将成为大数据解决方案里重要的一种思想和方向,特别是针对关键行业的核心数据,高安全、高可靠、高稳定将始终是使用者的首要考虑。
参考文献:
大数据(Big Data)是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合。大数据的价值不在于数据量的庞大,而是其中隐含的有价值的商业信息。一般来说大数据数量巨大 、类型繁多、价值密度低,商业价值高、处理速度快等四个方面的特征。
二、企业客户关系管理的定义
客户关系管理(Customer Relationship Management,简称CRM)是企业为提高企业在整个行业中的竞争力,以一定的信息技术为手段,通过为客户提供个性化或有针对性的服务及改进对客户的服务水平,达到提高客户满意度与忠诚度而树立的一种以客户为中心的经营理念。企业进行客户关系管理的目的是为了寻找企业的潜在客户,洞悉客户的真实需求,为客户提供及时有针对性的服务,使客户满意,达到使客户成为企业的忠诚客户,不断为企业带来利润的目的。
三、用大数据进行企业客户关系管理的优势
顾名思义,大数据就是数据量庞大,线上线下大量的数据为企业进行客户关系管理节省了搜集数据的时间及成本。在庞大的数据中,企业根据客户的购买、搜索行为等对客户进行识别,洞悉客户的需求,为客户提供服务。大数据的信息处理速度极快,企业利用大数据技术抓住关键信息,要依据云计算构架,即时处理分析数据,了解客户信息,洞察客户需求,提供及时和个性化的服务。而网络的普及也使得客户分享信息便捷、快速和广泛。
四、基于大数据的企业客户关系管理策略
(一)基于大数据的企业客户价值分析
1.分析企业客户价值的意义
企业的利润是客户创造的,企业发展的主要动力之一是不断地获取新客户,在获取新客户的过程中,要合理进行资源分配。运用大数据技术分析客户的行为,识别企业的潜在客户,比较获得客户的价值,运用大数据技术处理大量的数据,选择有价值的客户。
2.识别潜在客户
为了节约成本,企业可直接安装大数据处理软件来实施企业的客户关系管理。根据庞大的数据量,利用大数据技术快速识别出哪些客户是企业的潜在客户。潜在客户是有可能购买企业的产品,成为企业的新客户,为企业带来利润的客户。识别企业的潜在客户的方法:
3.客户细分
客户细分是指企业根据客户对产品的需求及交易心理等的不同或根据客户的收入、年龄、性别等属性把客户细分为不同的群体,同一群体中的客户具有相似性,而不同群体间差异较大。客户细分可使企业制定对不同客户的管理策略,如大客户与小客户,优质客户与劣质客户。企业不可能使所有客户满意,这就需要企业区分客户的价值,留住有价值的客户,才能为企业带来大利润。
(二)基于大数据的企业客户获取策略
“以客户为中心”是企业客户关系管理的导向。 对线上线下收集到的数据整理筛选,通过语义引擎、可视化分析、数据质量与数据管理了解客户信息,然后预测性分析客户有什么需求。了解客户的需求后,即可为客户提供及时和个性化的服务。为客户提供服务,通常通过售前、售中、售后三个不同的阶段满足客户的需求。只有客户满意了,客户才会再次购买企业的产品。在向顾客销售产品时,时时要记住客户是上帝,满足客户的需求是关键。
(三)基于大数据的企业客户保持策略
(一)客户保持的重要性
企业80%的利润来自20%的老顾客。老顾客可为企业推荐新客户和传递好的口碑,为企业节约了大量的成本。老客户好的评价会吸引新客户而差评会让新客户流失。所以维持老客户,是企业进行客户关系管理必不可少的重要手段之一。
(二)加强与客户的双向沟通
企业加强与客户的沟通,可使客户更了解企业的产品和感受到企业的关怀,也可使企业更多的了解客户信息及客户需求。商业经验表明,一个对产品或服务不满的客户会向周围的11个人抱怨,但是抱怨结果如果处理的好,95%的人会再次购买公司的产品。
(三)捆绑销售
李成刚说,我国已经从网络安全兼管、舆情监控与引导入手,利用大数据实施网络治理,开展网络空间内容监管和应急相应平台建设。“要立足智慧城市建设,推进大数据安全应用。建设对‘防御、监测、评估、治理、运营’五位一体网络安全治理能力。”
发展大数据
要同步构建安全体系
360公司创始人兼总裁、360企业安全集团董事长齐向东表示,大数据技术是一把双刃剑,在鼓励发展的同时,一定要同步构建大数据安全体系,要用大数据方法来解决大数据安全难题。
近来,大数据安全事件呈高发之势。日前,广东警方破获一起高科技经济犯罪案件,17岁的“黑客”攻破了多个商业银行网站,窃取了储户的身份证号、银行卡号、支付密码等数据,带领一批人在网上大肆盗刷别人的信用卡,涉案金额近15亿元,涉及银行49家。
类似的案例不胜枚举。齐向东表示,当前,接入互联网的设备越多,网络攻击的发生机率就越高,网络攻击首先瞄准大数据,攻击造成大数据丢失、情报泄密和破坏网络安全运行。大数据技术是一把双刃剑,既可以造福社会、造福人民,又可以被一些人用来损害社会公共利益和民众利益。如果不能很好地解决安全问题,就会影响发展。因此,各级政府在鼓励发展大数据的同时,要同步考虑构建大数据安全体系。
传统安全思路
无法保障大数据安全
2016年年初,在全球最大规模的企业信息安全领域的会议RSA大会上,与会人员有一个基本共识,传统的防护思路已经无法保障网络安全,用大数据的方法做安全是不争的事实。
传统网络安全的防护思路是划分边界,将内网外网分开、业务网和公众网分离,用终端设备将潜在风险隔离。通过在每个边界设立网关设备和网络流量设备,来守住“边界”,以期解决安全问题。
但随着移动互联网、云服务的出现,移动终端在4G信号、WiFi信号、电缆之间穿梭,网络边界实际上已经消亡了。
但网络攻击者以“分钟级”千变万化。齐向东说:“360安全中心每天发现木马样本近千万个,每天发现的各种软硬件漏洞、网站漏洞超过120个,每一个木马每一个漏洞,都可能攻破预先部署的安全设备和安全软件。”他认为,现在要保障大数据安全,最重要的是要“看得见、管得住”。通俗的说,就是要能在被攻击的时候,能够看见在被谁攻击、如何被攻击;还要能在被攻击的时候,管住核心数据资产的安全,黑客就算进得来,但是带不走。
数据驱动安全
1 引言
电信数据平台承载着电信网中各类用户数据的收集过滤,存储聚合,分析挖掘等功能,为企业对于用户的各种决策提供一定数据支撑。同时,电信数据平台也通过收集相关的信令数据,监控电信网的实际运行情况,是企业的核心系统之一。
传统电信数据平台由数据仓库和关系型数据库构成。数据采集端收集各种信息,如用户状态,用户位置,终端日志,网络状态等一系列异构的数据信息,并统一汇总到数据仓库。数据仓库中存储有全量信息,通过运行各种ETL程序,将庞大的数据仓库的信息分门别类转移到例如Oracle,DB2,Sybase等各类关系型数据库的各个表中。数据分析人员一般通过类似于商业智能的平台,通过撰写SQL语句,提取关系型数据库中的有用数据,来简单的分析各类问题。传统的电信数据平台,具有集中式,造价昂贵,部署和运维复杂等特点。在相当长一段时期内,由于单位时间生成的数据规模没有显著增加,没有到达数据库的使用瓶颈,传统的电信数据平台可以较好的应对各种需求。但随着单位时间内,采集端生成的数据飞速膨胀,每天生成数十亿乃至上百亿的各类异构数据需要存储和分析,传统的电信数据平台逐渐暴露了其不足之处。
传统的电信数据平台组织方案有以下两个方面的不足需要改进。首先是对于海量数据存储和查询较为困难。中心型的关系型数据库难以承受较高的用户查询负载,并且关系型数据库的成本开销较为昂贵,并不支持简单的线性扩展,若采用数据库分库和分表等辅助手段,则整个数据平台的复杂性有较大提升并且难以维护,所以传统的电信数据平台不能应对海量数据的存储和查询。第二点不足是实时性不足。一般而言,数据在数据仓库构建就需要很长的数据,由数据仓库经ETL程序归并到各类数据库同样耗时巨大且有很多冗余的处理,同时批处理系统分析数据的延时在小时级别以上,随着越来越多数据采集端的部署,数据产生速度越来越快,规模越来越大,实时对数据进行分析,并把结果进行可视化,对于实时监控的需求越来越重要,传统的电信数据平台延时较大,不能够适应数据实时性的要求。
针对以上分析的不足,本文提出一种基于Lambda架构的电信数据平台解决方案。Lambda架构,是Nathan Marz提出的一个实时大数据处理框架,具备高吞吐量和低延时的特点。本文结合Lambda架构,阐述了新型电信数据平台的基本构成和各层的职责,同时也具体介绍了各层使用的互联网开源大数据项目,描述了整个工作流程和数据流向,体现了新型电信数据平台具备的高吞吐量,低延时,高容错性的特点,解决了传统电信数据平台难以应对海量数据存储和查询,以及不能实时分析的不足。为电信网各数据平台在新需求下的转型提供了一个良好的尝试。
2 相关技术介绍
2.1 Lambda架构
Lambda架构是由Nathan Marz提出的一种大数据处理架构,结合了批处理计算和实时计算的特点,融合了不可变性,读写分离和复杂性隔离等一系列架构原则,具备高容错、低延时和可扩展等特点。一般分为批处理层,服务层和速度层,如图1所示。
批处理层对全量数据进行迭代计算,全量数据可以认为是一个不可变的持续增长的数据集。批处理层对于全量数据进行批处理计算,得到批处理视图,存储到服务层。服务层可以根据查询条件,对批处理视图的结果进行再次合并等处理。批处理层通过定时的重复批处理视图的更新,可以保证数据的高容错性,但是计算时间一般较长,延时较大,适用于全局规模的分析和预计算。批处理层一般由大数据批处理框架来实现。
服务层的任务是对于用户查询提供支持。它根据查询条件,随机访问视图,组合批处理视图和实时视图的结果,最终反馈给用户。服务层一般由NoSql数据库实现,但是为了降低复杂性,不允许对视图结果进行随机写操作,仅提供对于批处理视图和实时视图的加载和随机读取操作。
速度层负责实时计算增量数据。由于批处理计算比较耗时,随时而来的实时增量数据等不到有效计算,通过引入速度层解决这一问题。速度层只处理最近的数据,采用快速,增量的算法,通过实时计算,维护较小规模的实时视图,是对批处理视图更新是较高延时的一种补充。同时,由于全量数据计算的准确性,允许批处理视图最终覆盖实时视图。速度层一般由消息系统随时拉取新增的数据,并通过实时流式计算框架完成实时视图的生成。
2.2 Hadoop
Hadoop是一个处理海量数据的分布式系统基础架构。Hadoop 2.0架构由HDFS,YARN和MapReduce构成。HDFS是Hadoop中的分布式文件系统,它将海量数据存储于DataNode中,由NameNode维护各DataNode的元数据信息。YARN是Hadoop中的资源管理系统,监控每个节点,并协调MapReduce任务的分配。MapReduce是Hadoop中分布式数据处理框架,它将数据处理分为两个阶段,即Map和Reduce两个阶段,提供批处理并行计算的框架。对于Map阶段,对输入数据应用Map Function,执行结果为Key和Value的元组,相同Key的元组通过执行Reduce Function进行合并,最终生成结果。Hadoop有很丰富的其他组件支持各种需求的分析,如Pig,Hive,Impala等,这些高级工具可以自动将高级原语翻译为MapReduce任务执行,有更好的使用体验。本文,Hadoop作为Lambda架构中批处理层实现,全量数据存储在HDFS上,应用MapReduce计算,生成批处理视图。
3 结束语
本文结合Nathan Marz提出的Lambda架构和电信数据的特点,提出了基于Lambda架构的电信数据平台解决方案。本方案既可以通过全量数据的定期迭代计算,离线分析电信网收集的相关数据,生成批量视图,同时也可以通过流式计算框架,对增量数据进行实时分析,生成增量视图。同时,将批量视图和增量视图聚合,一起组合为查询服务,使得平台既有实时系统的吞吐量,有具备离线系统的完备性。
参考文I
[1]Marz N,Warren J.Big Data:Principles and best practices of scalable realtime data systems[M].Manning,2015.
[2]Chaudhri A B."Next Gen Hadoop:Gather around the campfire and I will tell you a good YARN"[J].
藉此,台达于2011年就向业界隆重推出了其InfraSuite
数据中心解决方案,InfraSuite系统,是台达专为数据中心新推出的“网络关键物理基础设施架构(NCPI)”。该架构是一个整体的解决方案,具有可扩充性、可管理性、可维护性、高集成度、易于维护、标准化和模块化的组件中嵌入专业预测性维护服务,通过该服务可以降低总拥有成本并增加可用性,代表着现代数据中心所需的“行业最佳”的实践方案。
众所周知,在完整可靠的数据中心解决方案之中,供配电的核心部件UPS必须具备安全可靠、效率卓越,并且要能依照企业营运的成长需求扩充容量等特性。而此次台达全新推出的以模块架构设计的三相不间断电源——ModulonDPH,采用标准机柜式模块设计,可以根据功率需求将25kW直接提升到200kW。而DPH支持单一机柜的N+X冗余架构,无需另外加装UPS,所以能大幅降低建置成本和设备所需空间,并且能随着企业业务成长弹性增加容量,最大的容量扩充也可通过四台DPH并机实现。
蔡博士进一步指出:“除了UPS的可靠度与扩充性外,当考虑到运营成本时,能耗一直是最重要的因素。处理能耗的基本方式就是使用节能设备。”DPH是真正在线式双转换UPS,能为数据中心提供关键电源保护并达到卓越电力性能,在业界领先群雄。在30%负载和50%负载时,DPH的AC-AC整体效率分别为95%和96%,能节省至少6%的能耗,超越整机效率仅为92%的传统机型。DPH在发挥全功率(kVA=kW)时可以达到最大供电容量。相较于输出功率因数为0.8和0.9的系统,DPH的功率分别超出25%和11%,同时也省去UPS的降额问题,因此更能节省建置成本和营运费用。
大数据不一定是复杂的分析
许多人一提到大数据,首先想到的是复杂的数据分析。这让有些希望采用大数据分析工具的用户产生了畏难情绪,也让有些用户产生了误解,认为大数据分析只是那些拥有复杂业务流程和海量数据的大企业的事。市场研究机构麦肯锡的研究人员表示:“要创造新的重大价值,并不一定要采用复杂的大数据分析方法,有时只要能保证数据的可用性或对数据应用进行基本的分析,就能获得所需的重要价值。”
不同的企业或一个企业内部不同的部门对数据分析和数据价值的理解都不相同。企业处于不同的信息化发展阶段,也会设定不同的数据分析目标,采用不同的数据分析工具。正是基于此,戴尔率先提出了大数据成熟度模型。戴尔公司全球企业级解决方案副总裁Cheryl Cook表示:“这一模型已经得到了业内许多分析机构的认可。所有行业以及所有数据应用都适用于此模型。”
如下图所示,大数据成熟度模型分成五个阶段。第一个阶段,数据处于混乱状态,数据存储无章可循,数据难以访问,企业的信息系统处于高风险状态。第二个阶段,实现数据的保留。在这个阶段,企业被动地对数据进行存储。数据虽然经过一定的处理,但还不具有高质量,数据的访问也会受到一定限制。第三个阶段,实现存储的优化。在这个阶段,通过对存储系统的进一步优化以及基于策略的控制与管理,用户可以逐步发现数据的价值。第四个阶段,实现简单的分析。在存储优化的基础上,用户可以进行数据建模和简单的数据分析,对归档数据进行搜索等。第五个阶段,实现复杂的分析。在这个阶段,大数据分析工具将得到充分应用,用户可以进行比较复杂的建模、分析和决策。经过上述五个阶段,曾经杂乱无章的数据也将经历从数据到信息再到知识的转变过程,最终成为企业决策的重要依据。
这个大数据成熟度模型可以解答人们对于大数据应用的几个疑惑。第一,用户使用大数据分析工具,并不意味着一定要进行复杂的分析。举例来说,处于存储优化阶段的用户就可以实现无障碍的数据访问,并能获得所需的数据价值。第二,大数据的应用要经历一个逐步完善的过程,必须循序渐进,先做好数据存储和优化,然后再进行数据分析。第三,大数据解决方案通常包括两个部分:一是大数据保留解决方案,二是大数据分析解决方案。将两类解决方案有机地结合在一起,才能有效降低大数据分析应用的成本,更好地挖掘数据的价值。Cheryl Cook表示,戴尔可以提供上述两种解决方案。一方面,戴尔可以提供针对结构化和非结构化数据的大数据保留解决方案,主要包括存储虚拟化与整合、应用程序优化、数据保护、灾难恢复以及数据保留与管理解决方案;另一方面,戴尔还能提供支持Hadoop、Cloudera等开源软件的大数据分析解决方案。
记者曾与包括大庆油田、太平洋保险公司等在内的一些用户进行过交流。它们目前都没有计划部署大数据应用。“从全球范围来看,大数据应用还处于起步阶段。”戴尔亚太及日本地区商用事业部企业解决方案副总裁Philip A. Davis表示,“与云计算兴起时一样,可能要经过两三年的市场培育,用户才能逐渐接受大数据应用。”
中国东方航空股份有限公司信息部总经理严振红介绍说:“在大数据的概念出现以前,我们就在做客户数据、经营数据的分析工作。但是客户数据库、经营数据库等都是相互独立的,数据不能共享。现在,我们要做的是将这些系统的数据整合起来,统一进行分析。”
Hadoop不是万能的
简单来说,Hadoop是一个能够对大量数据进行分布式处理的软件框架。Hadoop最独特的优势在于为用户提供了一个分布式的、高容错的文件系统和加速数据处理的办法。随着Web 2.0、社交网站的大规模兴起,人们需要一个高效的处理非结构化数据的平台。Hadoop正好可以满足人们的需求。有些人甚至在Hadoop和大数据之间划上了等号。Hadoop能够解决大数据应用的所有难题吗?
“Hadoop是一个复杂的工具套件。如果没有厂商或专业技术人员的帮助,用户自己部署Hadoop是一件十分困难的事。目前,Hadoop的应用并不普及。互联网用户是最早采用Hadoop平台的。”Philip A.Davis表示,“如果想让大数据解决方案充分发挥其作用,就必须搭建一个高效的信息基础架构,实现信息基础架构的自动化、智能化,同时提高其可管理性。”
Hadoop的应用是有一定技术门槛的。如今,许多IT厂商都推出了基于Hadoop的解决方案包,其目的是帮助用户简化Hadoop的部署与应用。Philip A.Davis表示:“戴尔提供的基于Hadoop的大数据分析方案可以将Hadoop的部署周期从原来的两个月缩短至两天。”
VMware全球高级副总裁范承工也认为,由于缺少精通Hadoop技术的专业人才,Hadoop的部署对于用户来说是一件费时费力的事。如今,VMware可以将Hadoop部署在虚拟化架构之上,将部署工作从半自动化变为全自动化,从而减少了人工干预,使得Hadoop的部署变得更加简单,也不容易出错。
“很多中国企业的CIO认为,大数据解决方案是有价值的,但实施起来确实有许多困难。”戴尔全球副总裁、中国区大型企业及公共事业部总经理容永康举例说,“国内懂得在Hadoop上进行开发的专业技术人员非常少。一些金融行业的用户很想现在就部署大数据解决方案,但是苦于找不到既懂Hadoop技术,又懂得金融业务的专业人才。”
Informatica首席技术官James Markarian表示:“在IT环境中,Hadoop不可能作为一个孤岛存在。为了让Hadoop跨越不同平台,用户需要将Hadoop作为其IT大环境中的一部分来管理,并通过Hadoop重复使用他们的开发技巧、资产及数据,同时还要统筹管理全部数据。”
在美国市场上,70%的大数据应用处理的还是结构化的数据。从技术的角度看,虽然Hadoop也能处理结构化的数据,但是目前基于Hadoop的大数据分析解决方案主要还是用于处理非结构化的数据。因此,用户处理结构化数据和非结构化数据通常是用两套不同的分析工具。这种混合的大数据处理模式是一种普遍现象。
从未来的发展看,非结构化数据的快速增长是大数据分析的主要驱动因素。从这个角度讲,Hadoop的应用前景还是十分广阔的。
曙光公司无锡云计算中心目前已经有200多个云应用,数据存储总量也超过了10PB。如此庞大的数据,每天的存储、管理成本对数据的拥有者来说是一个极大的负担。用历军的话来说,这些数据就像是沉睡的金矿,必须找到一个最有效的方法对数据进行组织、整合、分类、检索,深入挖掘数据的内在价值,同时还要降低管理成本,只有这样才能让这些数据闪光。开启金矿的钥匙就是大数据解决方案。
为了更好地处理这些海量数据,曙光公司两年前开始研发一种新的架构——海量数据检索处理系统,这就是XData大数据一体机的前身,因为当时还没有大数据这个概念。“XData是我们为在自己的云数据中心里提供数据挖掘服务做的铺垫。”历军表示,曙光的大数据战略可以概括为8个字:“平台一体,智汇应用”。“平台一体”包含多层含义:首先,大数据解决方案必须是存储、分析和应用三位一体;其次,XData大数据一体机实现了软硬件一体化,监控与管理一体化,产品与服务一体化,以及多种数据类型处理一体化。“智汇应用”表明,大数据天生具有鲜明的行业属性,因此大数据解决方案必须与行业需求和特色相结合,从行业切入、逐层递进,才能达到事半功倍的效果。
相比云计算,大数据从概念辨析到落地应用这中间所用的时间似乎缩短了很多。有人说,这是云计算的功劳,因为云计算在技术、观念、应用和商业模式等方面给大数据的应用做了很好的铺垫。过去几年中,曙光公司在云计算方面的布局与积淀为今天大数据战略的实施奠定了良好的基础。2013年,曙光公司将开通乌鲁木齐、哈尔滨、宁波三个城市的云计算中心,这样一来曙光在国内自投建设和负责运营的云计算中心总量将达10个。“用云的方式实现数据的分析与挖掘是未来的一个趋势。”历军表示,“我们现在主要销售大数据的解决方案,随着大数据技术走向成熟,软件更加完备,未来我们很可能会基于云提供大数据的分析服务。”
大数据厂商要全面
“大数据厂商一定要全面。数据挖掘不是一个存储厂商能独自完成的事。”历军表示,“大数据厂商必须具备很强的综合实力,能够提供包括计算、存储、分析和应用等在内的整体解决方案。XData大数据一体机的推出证明曙光已经具备了这种综合实力。”
时至今日,曙光在很多人心目中还是高性能计算领先者的形象。其实,这已经是老黄历了。曙光不仅拥有高性能计算产品,还有丰富的存储、软件产品,能够提供云计算整体解决方案,在大数据方面还有分析软件及工具等。历军表示:“我们一直在关注一些有技术特色的厂商,也曾经有过一系列成功收购,未来还希望继续通过收购等资本运作方式,不断增强自身的技术实力。”
大数据解决方案本身就是软硬件一体的,其中软件扮演着十分重要的角色。进军大数据领域对曙光的软件业务来说既是一种挑战,又是一个机遇。目前,曙光软件研发人员的数量以及对软件研发的投入都已经超过了硬件。曙光公司副总裁邵宗有表示:“我们的策略是在打造具有国际先进水平的硬件产品基础上,大力发展软件及服务业务。比如,我们希望用高品质的刀片承载不同的软件与应用,为客户提供云计算解决方案、大数据解决方案等。”
过去这些年曙光一直在做系统,从最初的以硬件为核心的计算机系统,到现在的以软件和服务为核心的信息系统。曙光希望做一个有价值的信息系统提供商,大数据正是实现这一目标的关键所在。历军透露,再过几个月,曙光旗下将出现一个独立运作的软件公司。
鲜明的行业属性
曙光为银联提供的离线交易数据分析平台已经投入了使用。银联为了控制信用卡使用风险,就必须掌握和洞察消费者的行为,若想达到此目的,非大数据解决方案不可。银联的结构化和非结构化数据统一共享处理平台就构建在曙光XData之上。中国银联副总裁柴洪峰介绍说,银联10年的离线数据都放在曙光XData大数据处理平台之上,借助云计算的手段进行处理和分析。
曙光的大数据解决方案提供了标准的平台接口,支持各行业丰富的第三方应用集成,包括智慧城市、金融、电信、交通、医疗、教育、军工等各行业的大数据应用软件,可以提供高效和个性化的数据分析服务。曙光不仅可以提供通用的大数据一体机,而且可以提供针对不同行业应用的定制化的专用一体机。目前已经投入实际应用的曙光大数据应用平台包括银行历史数据查询分析系统、银联离线交易数据分析平台、大型运营商流量经营分析系统、大型信息安全监控系统、高校柔性大数据处理平台等。全国农信银资金清算中心运行保障部总经理王永刚很好地概括了曙光大数据一体机的特色:HPC+存储+分析平台。
“在全球公认的大数据最先崛起的五大应用领域,包括金融、电信、安全、交通和卫生,曙光都已经有了成功应用。”邵宗有表示,“我们就是要打造简单易用、注重实效的大数据解决方案,重点加强易用性和智能化,注重性能优化和可靠性,提供柔性扩展能力,实现各类数据处理的融合,以及与开源平台的融合。”
历军概括了曙光在大数据方面的优势:从技术角度讲,曙光在并行分布式存储、云计算、数据抽取和检索等方面拥有多年积累和多项创新;从应用角度讲,曙光的云计算中心积累了大量用户和应用,而曙光的大数据解决方案又可与细分行业需求相结合。大数据带来的不仅仅是技术和应用模式上的创新,还为商业模式的创新以及大数据企业自身的业务转型带来了契机。
曙光XData大数据一体机
像往年一样,IBM每年在这个时候召开IOD大会。今年是自2006年以来,IBM IM(信息管理)部门召开的第七届大会。此次IBM大会为期三天,主题分别是“Think Big”、“Big Data”和“Big Future”,足见IBM对大数据的重视程度。同去年大会相比,今年IBM更注重技术带来的商业机会,并一口气推出数个解决方案,均与数据分析和管理、内容管理相关。除此还有PureData一体机,这是IBM落实大数据战略的又一个解决方案。
大数据正在带来大商机。
搭建大数据平台
大数据表现在何处?从会场略见一二。美国拉斯维加斯曼德拉贝酒店的体育中心座无虚席,1.2万参与者纷纷打开手机、平板电脑或者笔记本电脑,数秒之内,若干字节通过网络传到数据中心,与世界分享IOD大会。当然,这些数据在大数据时代微不足道。大数据时代真正的数据来自于企业商业环境、社交网络。
“相比较移动终端、云计算、BPM和信息安全,大数据分析更能驱动企业创新和业务增长。”IBM软件集团信息管理部门总经理 Arvind Krishna认为,大数据带来挑战也带来商机,从IT所占企业成本比重即可看出。在2003年,IT 仅仅占到企业23%的经营和管理成本;而到2013年,这个成本将上升到68%,对此,企业应该善用IT,将成本中心转为利润中心,将大数据转为商业机会。
在大会中,IBM推出了全新数字营销系统和大数据软件,其目的是为企业和机构提供分析和决策能力,用以应对企业当前面临的大数据挑战——也就是说,面对移动、社会和数字网络生成的巨量数据流,企业如何评估这些数据、如何获取更加智慧的决策,都需要重新考虑。
作为IBM大数据平台的组成部分,此次推出的PureData系列新品能在几个小时内部署完成,并在几亚秒的反应时间内分析PB量级的行业和社交媒体数据,可持续分析运行中的地理空间、金融服务、电信等数据。
PureData是IBM pure家族的后续产品,可以看做解决方案一体机,共有三种类型,分别是交易型、分析型和操作分析型。这三种机型各有特点,交易型只读不写,会在大量数据中找到关键性的信息,为客户服务;分析型立足在快速分析,注重高性能计算能力;而操作分析型则是两者的混合,关注PB级别的数据。
IBM直言不讳地将其和友商的一体机对比:PureData的速度更快,操作更为简单。更为重要的是,扩展性极强,内置了IBM合作伙伴的多种解决方案和软件集成系统——无论是关键性业务还是非关键性业务。而这种扩展性是那些封闭性的一体机所不能比拟的。“PureData要做企业iOS平台和应用商店,让用户根据需要下载软件。”Pure系列的研发团队如此说。
此次大会中,IBM明确了大数据平台架构。架构分为四个部分,最底层是大数据的基础架构,其上是大数据平台,然后是信息的分析和管理软件,最后是各个行业的解决方案,包括金融、电信、政府等行业。如此一来,大数据的存储、分析和管理,以及行业属性等一一落地,真正做到“有方案可依,有数据可查。”
重在商业机会
大数据归根结底是对数据的分析和管理,从中挖掘商业机会。由于数据繁多,分析和管理也越来越精细化,所以,IBM了一系列解决方案,重要的有以下三种。
首先是云解决方案。IBM将以云的方式把分析能力带给各个行业。但在行业中,企业对公有云和私有云历来有争论,在大数据时代更是如此。IBM认为,两者的模式完全不同。私有云更适合大企业,将大数据的管理和分析放在一个平台之中。而在公有云方面,IBM将会根据不同行业的情况,为各个行业建立公有云。“企业不用花费更多费用,直接利用基础设施展开云计算,私有云更有利于它们展开大数据的分析和管理。”IBM Netezza兼大数据平台总经理兼副总裁Brad Terrell说,对中小企业来说,IBM提供类似交钥匙工程,给中小企业提供强大的工具,方便中小企业利用大数据,从中发现商机。
其次是DAA(数字营销系统)解决方案,这等于是Netezza加客户应用的解决方案,不过这个一体机更是在硬件、软件和计算能力上调优,速度更快。
“DAA是一种创新,帮助企业创造价值、开拓市场,而不仅是不同产品的组合。”Brad Terrell说,从DAA角度看,可以在用户原有投资的基础上升级,而不必重新更新,从而保护了用户投资。
昆腾公布的2013财年第三财季业绩报告的其中一项内容十分引人注目,那就是昆腾推出了新的广域存储解决方案系列Lattus。Lattus可以提供高可扩展、高成本效益的全球分布式的磁盘归档功能,并能在不中断或不迁移的情况下,在磁盘上永久存储数据。Lattus系列整合了分散的下一代对象存储和昆腾文件系统技术,提供新的归档方式,可以克服传统磁盘架构在PB级存储环境中扩展受限和低效率的弊病。Lattus系列首个产品Lattus-X已于2012年12月全面发售。
在主存储中加入固态硬盘(SSD),很大程度上就是为了要满足大数据对实时处理的要求。同样,将高性能的磁盘用于归档,也是为了提高归档和查询的速度,这是大数据时代用户新的需求。昆腾公司大中华区总经理张金华介绍说:“从公司收入组成来看,大数据业务已经占了三分之一。我们已经从一家单纯的数据保护厂商转型成为数据保护与大数据管理两项业务并重的公司。我们可以为用户提供更佳的数据备份以及大数据存储解决方案。”如今,昆腾已经初步完成了大数据产品体系的构建,拥有了Lattus广域存储、StorNext软硬件一体化产品以及StorNext软件三大类产品。
在线归档不受限
广域存储解决方案与传统的磁盘存储系统之间到底有何差别呢?昆腾公司亚太区高级架构师刘松涛介绍说,广域存储解决方案胜在先进的架构和高级算法上。广域存储解决方案突破了传统磁盘RAID技术的限制,同时克服了位错误问题,可以实现在线存储,并具有数PB的扩展能力。今后,用户可以将常用的数据(数十TB)存储在以RAID技术为基础的磁盘系统中,而其他大量的数据(数PB)则可以存储在广域存储中。昆腾广域存储解决方案采用扁平命名空间技术,可以实现容量的无限扩展,同时支持HTTP REST 及文件系统两种访问方式。
昆腾广域存储解决方案采用喷泉编码算法,在多核CPU环境中可以更好地提升系统的整体性能。喷泉编码算法是一种前向错误修正(FEC)算法,已经在通信(如空间技术、手机中)领域中得到了广泛应用。它是由英特尔投资开发并大力推广的一种算法,与低功耗CPU配合使用更能展现其价值。