时间:2022-03-30 14:26:28
引言:寻求写作上的突破?我们特意为您精选了4篇大数据平台解决方案范文,希望这些范文能够成为您写作时的参考,帮助您的文章更加丰富和深入。
1 引言
电信数据平台承载着电信网中各类用户数据的收集过滤,存储聚合,分析挖掘等功能,为企业对于用户的各种决策提供一定数据支撑。同时,电信数据平台也通过收集相关的信令数据,监控电信网的实际运行情况,是企业的核心系统之一。
传统电信数据平台由数据仓库和关系型数据库构成。数据采集端收集各种信息,如用户状态,用户位置,终端日志,网络状态等一系列异构的数据信息,并统一汇总到数据仓库。数据仓库中存储有全量信息,通过运行各种ETL程序,将庞大的数据仓库的信息分门别类转移到例如Oracle,DB2,Sybase等各类关系型数据库的各个表中。数据分析人员一般通过类似于商业智能的平台,通过撰写SQL语句,提取关系型数据库中的有用数据,来简单的分析各类问题。传统的电信数据平台,具有集中式,造价昂贵,部署和运维复杂等特点。在相当长一段时期内,由于单位时间生成的数据规模没有显著增加,没有到达数据库的使用瓶颈,传统的电信数据平台可以较好的应对各种需求。但随着单位时间内,采集端生成的数据飞速膨胀,每天生成数十亿乃至上百亿的各类异构数据需要存储和分析,传统的电信数据平台逐渐暴露了其不足之处。
传统的电信数据平台组织方案有以下两个方面的不足需要改进。首先是对于海量数据存储和查询较为困难。中心型的关系型数据库难以承受较高的用户查询负载,并且关系型数据库的成本开销较为昂贵,并不支持简单的线性扩展,若采用数据库分库和分表等辅助手段,则整个数据平台的复杂性有较大提升并且难以维护,所以传统的电信数据平台不能应对海量数据的存储和查询。第二点不足是实时性不足。一般而言,数据在数据仓库构建就需要很长的数据,由数据仓库经ETL程序归并到各类数据库同样耗时巨大且有很多冗余的处理,同时批处理系统分析数据的延时在小时级别以上,随着越来越多数据采集端的部署,数据产生速度越来越快,规模越来越大,实时对数据进行分析,并把结果进行可视化,对于实时监控的需求越来越重要,传统的电信数据平台延时较大,不能够适应数据实时性的要求。
针对以上分析的不足,本文提出一种基于Lambda架构的电信数据平台解决方案。Lambda架构,是Nathan Marz提出的一个实时大数据处理框架,具备高吞吐量和低延时的特点。本文结合Lambda架构,阐述了新型电信数据平台的基本构成和各层的职责,同时也具体介绍了各层使用的互联网开源大数据项目,描述了整个工作流程和数据流向,体现了新型电信数据平台具备的高吞吐量,低延时,高容错性的特点,解决了传统电信数据平台难以应对海量数据存储和查询,以及不能实时分析的不足。为电信网各数据平台在新需求下的转型提供了一个良好的尝试。
2 相关技术介绍
2.1 Lambda架构
Lambda架构是由Nathan Marz提出的一种大数据处理架构,结合了批处理计算和实时计算的特点,融合了不可变性,读写分离和复杂性隔离等一系列架构原则,具备高容错、低延时和可扩展等特点。一般分为批处理层,服务层和速度层,如图1所示。
批处理层对全量数据进行迭代计算,全量数据可以认为是一个不可变的持续增长的数据集。批处理层对于全量数据进行批处理计算,得到批处理视图,存储到服务层。服务层可以根据查询条件,对批处理视图的结果进行再次合并等处理。批处理层通过定时的重复批处理视图的更新,可以保证数据的高容错性,但是计算时间一般较长,延时较大,适用于全局规模的分析和预计算。批处理层一般由大数据批处理框架来实现。
服务层的任务是对于用户查询提供支持。它根据查询条件,随机访问视图,组合批处理视图和实时视图的结果,最终反馈给用户。服务层一般由NoSql数据库实现,但是为了降低复杂性,不允许对视图结果进行随机写操作,仅提供对于批处理视图和实时视图的加载和随机读取操作。
速度层负责实时计算增量数据。由于批处理计算比较耗时,随时而来的实时增量数据等不到有效计算,通过引入速度层解决这一问题。速度层只处理最近的数据,采用快速,增量的算法,通过实时计算,维护较小规模的实时视图,是对批处理视图更新是较高延时的一种补充。同时,由于全量数据计算的准确性,允许批处理视图最终覆盖实时视图。速度层一般由消息系统随时拉取新增的数据,并通过实时流式计算框架完成实时视图的生成。
2.2 Hadoop
Hadoop是一个处理海量数据的分布式系统基础架构。Hadoop 2.0架构由HDFS,YARN和MapReduce构成。HDFS是Hadoop中的分布式文件系统,它将海量数据存储于DataNode中,由NameNode维护各DataNode的元数据信息。YARN是Hadoop中的资源管理系统,监控每个节点,并协调MapReduce任务的分配。MapReduce是Hadoop中分布式数据处理框架,它将数据处理分为两个阶段,即Map和Reduce两个阶段,提供批处理并行计算的框架。对于Map阶段,对输入数据应用Map Function,执行结果为Key和Value的元组,相同Key的元组通过执行Reduce Function进行合并,最终生成结果。Hadoop有很丰富的其他组件支持各种需求的分析,如Pig,Hive,Impala等,这些高级工具可以自动将高级原语翻译为MapReduce任务执行,有更好的使用体验。本文,Hadoop作为Lambda架构中批处理层实现,全量数据存储在HDFS上,应用MapReduce计算,生成批处理视图。
3 结束语
本文结合Nathan Marz提出的Lambda架构和电信数据的特点,提出了基于Lambda架构的电信数据平台解决方案。本方案既可以通过全量数据的定期迭代计算,离线分析电信网收集的相关数据,生成批量视图,同时也可以通过流式计算框架,对增量数据进行实时分析,生成增量视图。同时,将批量视图和增量视图聚合,一起组合为查询服务,使得平台既有实时系统的吞吐量,有具备离线系统的完备性。
参考文I
[1]Marz N,Warren J.Big Data:Principles and best practices of scalable realtime data systems[M].Manning,2015.
[2]Chaudhri A B."Next Gen Hadoop:Gather around the campfire and I will tell you a good YARN"[J].
中桥咨询的一份大数据调查报告显示,大部分中国用户还处于“系统整合”阶段,需要对来自企业内外部的大量数据进行收集和整理。
“为什么现在用户对大数据解决方案求贤若渴?”高国辉自问自答,“因为传统的技术和解决方案已经无法解决用户当前遇到的诸多应用难题,比如实时交易数据的处理和分析等。金融行业提出‘小核心、大’,电信运营商积极构建双活的数据中心都是从各自的实际需求出发,以应对大数据带来的新挑战。美国的某电信运营商就采用戴尔的SharePlex技术构建了双活的数据中心。”
其实,无论企业的数据量有多大,数据是结构化还是非结构化,戴尔都可以提供具有针对性的解决方案。Spansion是一家知名的制造企业,它希望通过升级现有的数据库来更好地支持其关键统计流程,从而达到提升业绩的目标。为此,它采用了戴尔的SharePlex技术对原有的Oracle数据库进行升级,不仅安全地完成了数据库的迁移,而且节省了大量资金。
“诸如此类的例子还有许多。”高国辉介绍说,“不同的用户,在大数据方面的需求不同,而且对价格的敏感度不同,这就决定了用户在选择大数据解决方案时有其‘个性化’的需求。比如,许多互联网企业十分热衷采用基于Hadoop的解决方案,就是考虑到经济性的问题。戴尔的优势就在于,可以为不同的用户提供适合其需求的大数据解决方案。”
戴尔软件事业部已成为戴尔企业级端到端解决方案的核心组成部分。具体到软件解决方案本身,戴尔也强调端到端,比如戴尔软件可以提供从移动办公管理到信息数据管理再到数据中心和云计算的全面软件解决方案。其中,信息数据管理软件就与大数据直接相关,它包括数据库管理、应用系统及数据集成,以及大数据分析等产品。
全面的软件解决方案
像往年一样,IBM每年在这个时候召开IOD大会。今年是自2006年以来,IBM IM(信息管理)部门召开的第七届大会。此次IBM大会为期三天,主题分别是“Think Big”、“Big Data”和“Big Future”,足见IBM对大数据的重视程度。同去年大会相比,今年IBM更注重技术带来的商业机会,并一口气推出数个解决方案,均与数据分析和管理、内容管理相关。除此还有PureData一体机,这是IBM落实大数据战略的又一个解决方案。
大数据正在带来大商机。
搭建大数据平台
大数据表现在何处?从会场略见一二。美国拉斯维加斯曼德拉贝酒店的体育中心座无虚席,1.2万参与者纷纷打开手机、平板电脑或者笔记本电脑,数秒之内,若干字节通过网络传到数据中心,与世界分享IOD大会。当然,这些数据在大数据时代微不足道。大数据时代真正的数据来自于企业商业环境、社交网络。
“相比较移动终端、云计算、BPM和信息安全,大数据分析更能驱动企业创新和业务增长。”IBM软件集团信息管理部门总经理 Arvind Krishna认为,大数据带来挑战也带来商机,从IT所占企业成本比重即可看出。在2003年,IT 仅仅占到企业23%的经营和管理成本;而到2013年,这个成本将上升到68%,对此,企业应该善用IT,将成本中心转为利润中心,将大数据转为商业机会。
在大会中,IBM推出了全新数字营销系统和大数据软件,其目的是为企业和机构提供分析和决策能力,用以应对企业当前面临的大数据挑战——也就是说,面对移动、社会和数字网络生成的巨量数据流,企业如何评估这些数据、如何获取更加智慧的决策,都需要重新考虑。
作为IBM大数据平台的组成部分,此次推出的PureData系列新品能在几个小时内部署完成,并在几亚秒的反应时间内分析PB量级的行业和社交媒体数据,可持续分析运行中的地理空间、金融服务、电信等数据。
PureData是IBM pure家族的后续产品,可以看做解决方案一体机,共有三种类型,分别是交易型、分析型和操作分析型。这三种机型各有特点,交易型只读不写,会在大量数据中找到关键性的信息,为客户服务;分析型立足在快速分析,注重高性能计算能力;而操作分析型则是两者的混合,关注PB级别的数据。
IBM直言不讳地将其和友商的一体机对比:PureData的速度更快,操作更为简单。更为重要的是,扩展性极强,内置了IBM合作伙伴的多种解决方案和软件集成系统——无论是关键性业务还是非关键性业务。而这种扩展性是那些封闭性的一体机所不能比拟的。“PureData要做企业iOS平台和应用商店,让用户根据需要下载软件。”Pure系列的研发团队如此说。
此次大会中,IBM明确了大数据平台架构。架构分为四个部分,最底层是大数据的基础架构,其上是大数据平台,然后是信息的分析和管理软件,最后是各个行业的解决方案,包括金融、电信、政府等行业。如此一来,大数据的存储、分析和管理,以及行业属性等一一落地,真正做到“有方案可依,有数据可查。”
重在商业机会
大数据归根结底是对数据的分析和管理,从中挖掘商业机会。由于数据繁多,分析和管理也越来越精细化,所以,IBM了一系列解决方案,重要的有以下三种。
首先是云解决方案。IBM将以云的方式把分析能力带给各个行业。但在行业中,企业对公有云和私有云历来有争论,在大数据时代更是如此。IBM认为,两者的模式完全不同。私有云更适合大企业,将大数据的管理和分析放在一个平台之中。而在公有云方面,IBM将会根据不同行业的情况,为各个行业建立公有云。“企业不用花费更多费用,直接利用基础设施展开云计算,私有云更有利于它们展开大数据的分析和管理。”IBM Netezza兼大数据平台总经理兼副总裁Brad Terrell说,对中小企业来说,IBM提供类似交钥匙工程,给中小企业提供强大的工具,方便中小企业利用大数据,从中发现商机。
其次是DAA(数字营销系统)解决方案,这等于是Netezza加客户应用的解决方案,不过这个一体机更是在硬件、软件和计算能力上调优,速度更快。
“DAA是一种创新,帮助企业创造价值、开拓市场,而不仅是不同产品的组合。”Brad Terrell说,从DAA角度看,可以在用户原有投资的基础上升级,而不必重新更新,从而保护了用户投资。
创新无止境
HDS是一家典型的技术型厂商,一贯奉行“少说多做”的原则,所以人们很少听说或看见HDS在跟风炒作某个新概念。闪存、软件定义存储、云计算等,HDS都不是第一个推出相关产品或解决方案的。但是,一旦产品后,HDS就一定能保证这些产品是具有HDS特色的、成熟且可以大规模商用的,能够给企业客户带来实实在在的价值。
在存储虚拟化技术领域,HDS基于存储控制器的虚拟化技术在业界一枝独秀,尽管当时基于存储网络的虚拟化技术风光正劲,但HDS始终“我行我素”。最终结果表明,HDS的存储虚拟化技术是过硬的,其存储虚拟化产品一直保持着很高的用户认可度。在很多用户的印象中,HDS一直是一家专业的存储厂商。
但是进入云计算时代,一向比较谨慎、低调的HDS开始变得活跃起来。从技术和产品的角度看,HDS很快便采纳了“融合”的理念,推出了业界影响力可与其经典的存储产品相媲美的统一计算平台。如今,在亚太地区,HDS统一计算平台已经成了最受企业客户欢迎的解决方案。
多在技术上下功夫,很少谈及理念的HDS如今也开始热衷于谈论新的概念,并陆续抛出了与云计算、软件定义等最新趋势相关的战略、技术框架和蓝图。许多人能够脱口而出的HDS“三朵云”战略――基础架构云、内容云、信息云,成了HDS云计算的行动纲领。HDS的新产品研发和市场推广策略都是围绕着“三朵云”展开的。
云计算是基础架构,是工具,它的价值在于可以更好地支持行业客户的应用。在以大数据、物联网、智慧城市等为代表的新一波应用浪潮兴起时,云计算开始慢慢走向后台,成为推动大数据、物联网、智慧城市等应用发展的幕后的那只手。云计算技术与大数据、物联网、智慧城市等应用之间的互相渗透、融合将成为IT市场发展的主旋律。
HDS全球解决方案、社会化创新营销副总裁Ravi Chalaka表示:“以前,人们都知道HDS是一家存储公司。但是今天,HDS的技术和解决方案已经跨越了多个市场和应用领域。HDS已经从一家专注于存储的厂商演变为提供融合性解决方案的厂商,产品包含服务器、存储、网络、嵌入式软件等。近几年,HDS一直在大力发展自己的软件,并取得了突破性的成果。HDS的软件解决方案主要包括虚拟化软件、管理软件和应用软件等。”
今天的HDS已经不再是人们印象中那个专注于存储的HDS了。特别是经过过去几年云计算、大数据的洗礼,HDS已经有了新的定位,制定了新的战略。
HDS的变化主要表现在以下几方面。第一,HDS最直接的竞争对手已经不再是EMC、IBM这样的存储厂商,而是像通用电气公司、西门子、Oracle这样在社会化创新领域有很大投入的企业。第二,HDS进一步明确了自己的目标市场,就是大中型企业客户。目前,HDS在全球拥有1.4万个客户。在“财富100强”企业中,81%是HDS的客户。第三,HDS公司内部软件和硬件的收入比重也发生了很大变化。最新的统计数据显示,HDS业务收入的54%来自于软件和服务,而三年前这一比例只有25%。在过去4年中,HDS进行了大大小小9次收购,被收购的厂商大部分是做软件、服务或大数据解决方案的。从收入比例来看,HDS不再是一家单纯的提供存储硬件的厂商,而是正慢慢转型为一家解决方案提供商。
为了配合解决方案的需要,HDS越来越重视与生态系统中的合作伙伴的合作,特别是与增值分销商、系统集成商的合作。通过这些合作伙伴,HDS可以更好地为企业级客户提供服务。
Pentaho是敲门砖
以前,HDS也能为大数据提供支持,但仅限于硬件和存储架构。以收购数据集成、可视化和分析软件厂商Pentaho为标志,HDS真正融入了大数据领域,并打开了通往物联网市场的大门。
在今年4月举行的HDS Connect 2015大会上,HDS对Pentaho的收购成了谈论最多的话题之一。当时,由于HDS还没有完成对Pentaho的收购,Pentaho这样一个很可能决定HDS未来大数据策略走向的产品是继续保持其独立性,还是完全融入HDS原有的产品中成了人们关注的焦点。
6月,尘埃落定,HDS正式完成了对Pentaho的收购。Pentaho成为HDS公司旗下一员,但原品牌名称保持不变。Pentaho平台除了继续独立提供服务以外,也会与HDS的其他相关分析软件结合,从而进一步扩展HDS的大数据解决方案。
以前,HDS的大数据解决方案主要集中在基础架构层面,为大数据分析提供平台支撑。有了Pentaho的分析软件以后,HDS可以深入大数据分析的核心,也更贴近客户的应用,可以把大数据分析的主动权尽量掌握在自己手中。
还记得HDS著名的“三朵云”吗?在HDS公布的大数据愿景中,基础架构云、内容云和信息云仍起到了核心的支撑作用,但也有了细微的变化,变成了相对应的软件定义基础架构、内容管理云架构和信息智能云。在这三层云架构之上是HDS通用的高端数据分析和访问平台。三层云架构与数据分析与访问平台合在一起,构成了HDS社会化创新的基石。
HDS倡导的社会化创新与物联网市场是遥相呼应的。在社会化创新方面,HDS选定了六大行业作为突破口,包括电信、医疗、商业分析、公共安全、石油和天然气、汽车。“物联网是下一轮技术革新的重点。”Ravi Chalaka分析说,“一台大型机可以支持数百个客户,一台小型机可以支持数千个客户,而在物联网时代,数以十亿计的设备被连接在一起,每个设备,甚至每双鞋都在产生数据。这就是物联网的能量。在未来的20~30年中,大部分的数据分析和计算都会围绕着由物联网产生的数据和信息进行。HDS关注的只是物联网中能够产生价值的那部分数据。只有通过对这些有价值的数据和信息进行分析,才能产生洞见,才能让整个社会变得更加健康、安全、美好。HDS希望更快速地交付能够达到上述目标的物联网解决方案。”
确立主导地位