大数据技术范文

时间:2023-03-21 17:16:35

引言:寻求写作上的突破?我们特意为您精选了4篇大数据技术范文,希望这些范文能够成为您写作时的参考,帮助您的文章更加丰富和深入。

大数据技术

篇1

中图分类号:TP334 文献标识码:A 文章编号:1674-098X(2014)02(a)-0048-01

“大数据”是从英语“Big Data”一词翻译而来的,是当前IT界热议和追逐的对象,是继物联网、云计算技术后世界又一热议的信息技术,发展迅速。截至2011年年底,全球互联网总数据存储量已达100亿TB以上,并且以59%以上的年增长率递增。麦肯锡公司在2011年的报告(Bigdata:the Next FrontierforInnovation)中,对这种密集型数据爆炸的现象称为“大数据”时代的到来。大数据领域出现的许多新技术,是大数据采集、存储、处理和呈现的有力武器。

1 大数据概念

大数据概念的前身是海量数据,但两者有很大的区别。海量数据主要强调了数据量的规模,对其特性并没有特别关注。而大数据对传播速率、体积、特征等数据的各种特性进行了描述。目前对大数据最广泛的定义是:大数据是无法在一定时间内用通常的软件工具进行收集、分析、管理的大量数据的集合。大数据的特点一般用“4V”概括,即:Volume:数据量大,目前大数据的最小单位一般被认为是10~20TB的量级;Variety:数据类型多,包括了结构化、非结构化和半结构化数据;value:数据的价值密度很低;velocity:数据产生和处理的速度非常快。

2 大数据相关技术

2.1 大数据处理通用技术架构

大数据的基本处理流程与传统数据处理流程的主要区别在于:由于大数据要处理大量、非结构化的数据,所以在各个处理环节中都可以采用并行处理。目前,MapReduce等分布式处理方式已经成为大数据处理各环节的通用处理方法。

MapReduce分布式方法最先由谷歌设计并实现,包括分布式文件系统GFS、MapReduce分布式编程环境以及分布式大规模数据库管理系统Bigrable。MapReduce是一套软件框架,包括Map和Reduce两个阶段,可以进行海量数据分割、任务分解与结果汇总,从而完成海量数据的并行处理。MapReduce的工作原理是先分后合的数据处理方式。Map即“分解”,把海量数据分割成若干部分,分给多台处理器并行处理;Reduce即“合并”,把各台处理器处理后的结果进行汇总操作,以得到最终结果。用户只需要提供自己的Map函数以及Reduce函数就可以在集群上进行大规模的分布式数据处理。MapReduce将处理任务分配到不同的处理节点,因此具有更强的并行处理能力。

2.2 大数据采集

大数据的采集是指利用数据库等方式接收发自客户端(Web、App或者传感器形式等)的数据。大数据采集的主要特点是并发访问量大,因为同时有可能会有成千上万的用户来进行访问和操作,比如火车票售票网站的并发访问量在峰值时达到上百万,这时传统的数据采集工具很容易失效。大数据采集方法主要包括:系统日志采集、网络数据采集、数据库采集、其他数据采集等四种。

2.3 大数据分享

目前数据分享主要通过数据集市和开放数据平台等方法实现。开放数据平台可以提供涵盖本地服务、娱乐、教育和医疗等方方面面的数据集合,用户不但可以通过API访问,还可以很方便地通过SDK集成到移动应用当中。在线数据集市除了提供下载数据的功能外,还为用户提供上传和交流数据的场所。数据平台和数据集市不但吸引有数据需求用户,还能够吸引很多数据开发者在平台上进行开发。

2.4 大数据预处理

数据预处理就是对采集的数据进行清洗、填补、平滑、合并、规格化以及检查一致性等处理,并对数据的多种属性进行初步组织,从而为数据的存储、分析和挖掘做好准备。通常数据预处理包含三个部分:数据清理、数据集成和变换和数据规约。

2.5 大数据存储及管理

大数据需要行之有效的存储和管理,否则人们不能处理和利用数据,更不能从数据中得到有用的信息。目前,大数据的存储和管理技术主要分三类:分布式文件系统、数据仓库和非关系型数据库(NoSOL)。

2.6 大数据分析及挖掘

大数据的分析和挖掘是一种决策支持过程,它主要基于人工智能、机器学习、模式识别、数据挖掘、统计学、数据库等技术,高度自动化地分析大数据,做出归纳性的推理,从中挖掘出潜在的模式,从而在大数据中提取有用信息。大数据的分析和挖掘与传统的数据挖掘比较有两个特点:一是通常采用并行处理的方式;二是大数据分析对实时处理的要求很高,流处理等实时处理技术受到人们欢迎。常用的方法有:机器学习、数据挖掘、模式识别、统计分析、并行处理。

2.7 大数据检索

①数据库实时检索:在数据仓库或者NoSOL等大数据存储平台上,或者多个不同结构的数据存储平台之间快速、实时地查询和检索不同结构的数据。②实时搜索引擎:对互联网上的大量数据和信息进行即时、快速搜索,实现即搜即得的效果。目前各大搜索引擎都在致力于实时搜索的实现。

2.8 大数据可视化

可以提供更为清晰直观的数据感官,将错综复杂的数据和数据之间的关系,通过图片、映射关系或表格,以简单、友好、易用的图形化、智能化的形式呈现给用户供其分析使用,可通过数据访问接口或商业智能门户实现,通过直观的方式表达出来。可视化与可视分析通过交互可视界面来进行分析、推理和决策;从海量、动态、不确定甚至相互冲突的数据中整合信息,获取对复杂情景的更深层的理解;可供人们检验已有预测,探索未知信息,同时提供快速、可检验、易理解.的评估和更有效的交流手段。可视化是人们理解复杂现象,诊释复杂数据的重要手段和途径。

2.9 大数据应用

①视频搜索;②内容分析;③理赔分析;④社交网络分析;⑤社会分析;⑥社交媒体监控。

篇2

一、分布集群数据库在大数据中的应用

目前,许多数据增长率很高的大型数据库系统正被用于改善全球人类活动,如通信、社交网络、交易、银行等,分布集群数据库已成为提高数据访问速度的解决方案之一。为多种类型的用户在多个存储中组织数据访问,分布集群数据库的问题不仅在于如何管理大量的数据,而且在于如何组织分布式存储中的数据模式。智能数据组织是提高检索速度、减少磁盘I/O数量、缩短查询响应时间的最佳方法之一。基于规则的聚类是提供数据库自动聚类和数据存储模式解释的解决方案之一,基于规则的集群通过分析属性和记录上的数据库结构,将数据模式表示为规则。使用不同规则池分区的每个集群,每个规则与内部集群中的规则相似,与外部集群中的规则不同。分布集群数据库是一种有向图结构的进化优化技术,用于数据分类,在紧凑的程序中具有显著的表示能力,这源于节点的可重用性,而节点本身就是图形结构的功能。为了实现基于规则的集群,分布集群数据库可以通过分析记录来处理数据集的规则提取。分布集群数据库的图形结构由三种节点组成:起始节点、判断节点和处理节点。开始节点表示节点转换的开始位置;判断节点表示要在数据库中检查的属性。分布集群数据库规则提取的节点准备包括两个阶段:节点定义和节点排列。节点定义的目的是准备创建规则,节点排列是选择重要的节点,以便高效地提取大量规则。节点排列由以下两个顺序过程执行,第一个过程是查找模板规则,第二个过程是结合第一个过程中创建的模板生成规则。提取模板以获得数据集中经常发生的属性组合。在模板提取过程中,分布集群数据库规则提取中只使用了少数几个属性,它旨在增加获得高支持模板的可能性。与没有模板规则的方法相比,该节点排列方法具有更好的聚类结果,这两个过程中的规则生成都是通过图结构的演化来实现。

二、在线规则更新系统的应用

在线规则更新系统用于通过分析所有记录从数据集中提取规则,在大数据应用中,每个节点都有自己的节点号,描述每个节点号的节点信息。程序大小取决于节点的数量,这会影响程序创建的规则的数量。起始节点表示根据连接顺序执行的判断节点序列的起始点,开始节点的多个位置将允许一个人提取各种规则。判断节点表示数据集的属性,显示属性索引。在大数据应用环节,从每个起始节点开始的节点序列用虚线a、b和c表示,节点序列流动,直到支持判断节点的下一个组合不满足阈值。在节点序列中,如果具有已出现在上一个节点序列,将跳过这些节点。在更新每个集群中的规则时,重要的是要找到与最新数据不匹配的属性。因此,规则更新中要考虑的属性由以下过程确定。当计算集群中每个属性和数据之间的轮廓值时,阈值设置为0.85,只有轮廓值低于0.85的属性。将为规则更新过程中的判断节点的属性选择。一些数据的库存值和权重值低于0.85,因此这些值不包括在国民生产总值的规则更新中。在线规则更新系统中包含用于更新规则的属性,每个集群都具有属性的主要值,这些属性是集群质量的锚定点,进而影响轮廓值。在线规则更新系统应用中,完成主要的规则提取过程,这是一个标准的规则提取,在线规则更新系统考虑到数据集中的所有属性。执行该过程,对初始数据集进行初始集群;改善规则更新过程,仅对轮廓值低于阈值的数据执行。

三、大规模并行处理技术的应用

篇3

中图分类号:TP391 文献标识码:A 文章编号:1009-3044(2016)03-0019-02

1 概述

当前,互联网的发展已经进入到一个全新阶段,互联网的应用已经深入到人们的日常生活中,尤其是移动互联网技术的发展和运用已经日益成熟,传统企业都已经开始自觉地运用移动互联网技术和概念拓展新业务和方向[1]。在此背景下,大数据技术应运而生,针对大数据这一新兴概念,麦肯锡全球研究所曾给出这样的定义:一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。

2 分布集群数据库

组成分布集群数据库系统的每台计算机可单独放在一个地方,其中每台计算机都可能保存一份数据库的完整拷贝副本,或者是部分副本,每台计算机单元具有自己局部的数据库,位于不同地点。这些计算机之间通过网络进行连接,共同组成一个完整的、全局的逻辑上集中、物理上分布的大型数据库。

在分布式集群系统中,数据库对用户来说是一个逻辑上的数据库整体,数据库的一致性、完整性及安全性都是对这一逻辑整体进行管理控制的。分布集群服务器对共享的数据进行统一的管理,但是非数据库的处理操作可以由客户机来完成。

在分布式集群系统中,通常采用外部链接技术进行数据库的远程控制。组成分布式集群的各计算机之间可以通过网络进行相互通讯,用户可以远程透明地单独访问远程各数据库单元的数据,也可以组合多个数据库的数据以满足多工作组、部门的复杂应用需求。远程数据库链接技术连接了各分散的数据库单元,逻辑的将他们组合为一个整体,从应用视图的角度来看,分布集中数据库系统就是一个整体的数据库服务系统。用户对此系统的单一逻辑的数据库访问请求都被自动分解、自动寻址、自动转换为网络请求,并在相应数据库结点上实现相应的操作请求。

分布集群数据库系统支持混合的网络拓扑结构,并采用混合的网络协议,自动地进行网络协议的转换。在分布集群数据库系统中,在保证海量数据存储的基础上,混合了高可用集群和高可靠集群,提高了数据库系统的可用性和可靠性,满足了现代互联网应用的需求。

物化视图是从一个或几个基表导出的表,同视图相比,它存储了导出表的真实数据。当基表中的数据发生变化时,物化视图所存储的数据将变得陈旧,用户可以通过手动刷新或自动刷新来对数据进行同步。物化视图包括了查询结果的数据对象,是远程数据的本地副本快照。物化视图允许你在本地维护远程数据的副本,但是只能读取这些副本[2]。

3 高可用集群

数据库高可用集群通过缓存交换技术实现,它基于同一份数据文件、但提供了多个数据库实例,即数据库服务进程。高可用性首要确保数据不丢失,数据不丢失是高可靠性的最基本的要求,是必须要保证的;其次是使数据库一直维持在正常的运行状态,确保不停机,以避免给客户造成损失。

在大数据应用环境下,数据库系统的停机分为两类,即计划性停机和非计划性停机。计划性停机一般在数据库管理软件升级、系统维护或者硬件维护的情况下进行,是有计划地安排节点或者系统的停机。非计划性停机是异常突然停机,具有不可预见性,这种情况一般是数据库管理系统缺陷或系统故障或硬件故障等[3]。

高可用集群数据库技术主要包含如下几点:

1)负载均衡技术:支持静态和动态负载均衡技术,实现系统范围内各节点负载均匀,避免出现单一节点或者部分节点负载过重而影响整体性能。

2)全局事务并发控制技术:通过高速缓存复制技术,各节点保持字典数据一致,同时能够看到全局锁和事务视图,使得能够正常实现事务的ACID特性。

3)多节点并发访问文件控制技术:由于多个节点共享同一份数据,控制好各节点对同一份数据的更新操作,避免出现错误的文件读写导致的数据不一致的问题。

4)动态增加和移除节点技术:在高可用集群环境中,能够在不中断服务的情况下,通过增加节点来提升系统性能,同时也能够在节点出现故障时,从集群中自动移除该节点,并且不影响整个集群系统对外提供服务。

4 高可靠集群

一般采用数据复制技术来保证数据库系统的高可靠性,数据复制同时也是一种分担系统访问压力、加快异地访问响应速的技术,数据复制具有物理和逻辑之分。通过将一个服务器实例上的数据变更复制到另外的服务器实例。可以用于解决大、中型应用中出现的因来自不同地域、不同部门、不同类型的数据访问、请求导致数据库服务器超负荷运行、网络阻塞、远程用户的数据响应迟缓的问题。

高可靠集群提供数据库的容灾、数据保护、故障恢复等,实现数据库快速切换与灾难性恢复。在生产数据库的保证"事务一致性"时,使用生产库的物理全备份创建备库,备库能够通过生产库传输过来的归档日志或重做条目自动维护备用数据库。

高可靠集群的数据同步技术有以下优势:

1)数据库自身内置的功能;

2)配置管理较简单,不需要熟悉其他第三方的软件产品。

3)物理Standby数据库支持任何类型的数据对象和数据类型;

4)逻辑Standby数据库处于打开状态,可以在保持数据同步的同时执行查询等操作。

5)在最大保护模式下,可确保数据的零丢失。

5 MPP技术的应用

MPP 架构采用统一的并行操作数据库引擎,将数据分散在不同的数据库节点上,在高速的内部网络环境下,对于海量数据的并发查询可极大地减少 I/O,提高查询效率。MPP 系统工作起来就像是一台单独的计算机,由于采用自动化的并行处理,在分析型数据仓库等 OLAP 应用中,查询性能比传统的单节点数据库大大提高。MPP 系统为新一代数据仓库所需的大规模数据和复杂查询提供了先进的软件级解决方案,具有业界先进的架构和高度的可靠性,能帮助企业管理好数据,使之更好地服务于企业,推动数据依赖型企业的发展。

6 大数据中的应用

基于数据库管理系统,搭建高可用、高可靠的分布集群数据库系统,结构如图 1所示。

在此环境中,高可用集群之间可搭建成主备关系,与任意高可靠集群或任意单机数据库服务器通过外部链接构成逻辑上统一的分布集群数据库系统。对于用户而言,仍然是单一的数据库服务。

单机数据库服务器、高可用集群、高可靠集群都可通过外部链接作为单独节点加入到分布集群数据库系统中,利用数据库系统的分布集群事务机制,既保留了局部数据库的自治特性,又可以作为全局分布集群系统中的一员参与到整个海量数据分析中。

解决了海量规模数据存储的问题后,针对快速的数据流转、多样的数据类型和价值密度低问题,数据库技术还实现了以下功能:

1)物化视图技术和高级复制技术解决分布集群系统中数据流转速度慢的问题。

2)支持面相对象、xml数据类型,满足数据类型多样化的需求。

3)数据挖掘技术,是决策分析技术的一个更高层次,数据挖掘技术采用人工智能的决策分析方法,按照用户既定的业务目标,对数据进行筛选,揭示其中的规律,并进一步将其模型化。

7 结束语

随着计算机技术的发展,数据库管理系统作为处理数据的核心之一,在大数据中的应用不应被忽视。因此,加强数据库新技术的研发,对于各个国家在大数据时代的信息战中都显得尤为重要。

参考文献:

篇4

中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2013)22-5002-02

1 概述

随着产生数据的设备使用数量越来越多,使用范围越来越广,大量的非结构化数据每秒钟都被产生出来,比如视频、照片、社交媒体评论以及网站评述等数据都是这样的数据。这意味着越来越多的数据不能被存储在预定义的结构化表格中,相反,这类数据往往由形式自由的文本、日期、数字适时组成。某些数据源生成速度非常快,甚至来不及分析就进行存储。这也是无法单纯依靠传统数据管理和分析工具来存储、管理、处理和分析大数据的原因。为了从这些大数据中获取和分析特定的需求信息,就需要对大数据的技术进行研究。

2 大数据介绍

大数据近几年来新出现的一个名词,它相比传统的数据描述,有自己的四个特性[1],分别是:Volume(大的数据量)、Velocity(输入和处理速度快)、Variety(数据多种多样)、Veracity(真实有价值)。因此,大数据需要新的处理模式来取代传统的数据处理方法,它同时包含数据量巨大和快速的处理速度两层含义。

云计算是一种大数据的处理技术平台,综合了各种资源之后提供一些虚拟技术服务。这样的方式可以很大程度降低用户维护、处理、使用数据以及其他计算资源的成本。数据单位已不再是用GB,TB能够满足的描述需要,而是步入了PB级别的时代。传统的数据存储方式已经不能满足这些数据的存储和处理,只有依托云平台存储技术的方式来解决这个当前已经面临的问题。

3 大数据技术分析

3.1 大数据的处理方式

大数据的处理方式大致分为数据流处理方式和批量数据处理方式两种。

数据流处理的方式适合用于对实时性要求比较高的场合之中。并不需要等待所有的数据都有了之后再进行处理,而是有一点数据就处理一点,更多地要求机器的处理器有较快速的性能以及拥有比较大的主存储器容量,对辅助存储器的要求反而不高。

批量数据处理方式是对整个要处理的数据进行切割划分成小的数据块,之后对其进行处理。重点在于把大化小——把划分的小块数据形成小任务分别单独进行处理,并且形成小任务的过程中不时进行数据传输之后计算,而是将计算方法(通常是计算函数——映射并化简)作用到这些数据块最终得到结果。

3.2 大数据技术模型

大数据的技术模型目前主要研究的是图1的模型。

图1是一种描述复杂关系的数据结构,它并不像线性链表和树那样看上去结构简单和清晰,但它能描述一些更为错综复杂的层次和关系。对实际关系的描述使用范围和频率都更多更广。采用一些数学方法和算法工具来对图进行处理,是处理大数据的一个前提。存储图结构数据的时候一般选用邻接矩阵或邻接表的方式来进行,这在数据结构这门学科里面已经有所研究。图的两个顶点之间用边进行连接,这个可以看作网络结构里面,相邻两个节点之间有传输消息的通路。一个复杂的网络结构对应出来的也是复杂的图结构,处理的时候需要将该图进行分割处理,采用分而治之的办法来解决问题。

如果节点A和B之间的所有通路都被C阻塞了,就意味着C有向分割了A和B,即A和B在给定条件C时独立。

这种方法就降低了条件限制的复杂性,有效地将问题利用数学模型求解出来。

3.3 大数据处理系统应用

开源是现在很多大型国际IT公司倡导的服务方式,这个理念拥有很多拥护者。虽然它最初的出现和商业搭不上边,但已为具有现展理念的国际大型商业IT公司所接受,他们所认同的是面向服务的开源,进而出现了新的经济增长方式。

目前有一些较为前沿的公司已经研发开源的大数据处理技术,比较典型的是推特研发的Storm系统和谷歌研发的MapReduce模型。前者是以数据流方式进行数据处理而后者是采用批量数据的处理方式。

MapReduce是目前用得比较多的方法,其核心思想就是两个步骤:Map和Reduce。Map过程就是一个映射过程,完成这一步之后再对其进行Reduce过程处理,也即是精简的过程。最后将处理的最终结果进行输出。

3.4 大数据技术发展趋势

传统的关系型数据库和新兴的数据处理技术目前是并存状态,它们之间将来会相互学习,相互渗透,相互影响,互相融合,最终形成对数据分析有利的格局,能够更好地为大数据处理服务,从庞大巨量的数据当中找到需要的数据并对之进行处理、分析乃至决策。

4 结束语

大数据是当今越来越多的数据源每分每秒不断产生新数据后的一个产物,对他它的研究和利用是紧迫的事情。目前研究的一些大数据技术都有其优缺点,技术种类也不是很多,还处于一个上升的阶段。研究大数据的处理、分析、利用技术和方法,对今后这一分支的发展起到关键性的作用,对后来的科技产品乃至我们的日常生活都会带来巨大的影响。

参考文献:

[1] Grobelink M.Big-data computing: Creating revolutionary breakthroughs in commerce, science, and society[R/OL].2012.10.02. http:///eswc2012_grobelink_big_data/

[2] 戎翔,李玲娟.基于MapReduce的频繁项集挖掘方法[J].西安邮电学院学报,2011(4).

友情链接