时间:2023-03-28 15:08:03
引言:寻求写作上的突破?我们特意为您精选了4篇存储技术论文范文,希望这些范文能够成为您写作时的参考,帮助您的文章更加丰富和深入。
1.1高性能多源下载过程
(1)服务器根据相关信息返回存储需要下载文件的Slave的具体信息;(2)根据文件大小和Slave的负载状态,选择合适的Slave建立socket连接对文件进行分块下载;(3)下载完成后把各个文件块合并成为原始文件。
1.2静态下载
在静态下载中,不考虑备份文件的大小,服务器的负荷量,采取统一的模型进行下载。算法如下:(1)得到备份文件所在服务器的个数n,以及每个服务器的IP地址和端口号;(2)得到文件的总大小size,按照文件分割算法,把文件分割为n块;(3)与每个服务器建立连接,从每个服务器上下载一块文件;(4)下载完成后,把所有文件块合并成一个完整的文件,存储在备份介质上;(5)保存备份文件的相关元数据信息;(6)文件下载、备份完成。
1.3动态下载
在动态下载模型中,要综合考虑各方面因素,动态决定文件是否分块进行多源下载,以及文件块的大小,提高系统资源利用率,进而提高备份效率。对于没有冗余的文件,只能从一个节点上下载。对于较小的文件,使用单线程下载;对于较大的文件,可以采用多线程下载。对于有多个冗余的文件,可以动态选取从负荷量较低的节点进行下载。伪算法表示如下:
首先定义如下变量:文件大小阀值Tl,当文件大小大于Tl时采用多源下载;节点标准负荷T2,若节点负荷大于T2,则节点处于重负荷状态;文件大小size文件冗余数n。
算法表示如下:
if(文件没有冗余)
{
无须分块下载,可以采用多线程从存储文件的节点上下载文件;
}
else{
if(文件大小size<阀值T1)
{
无须多源下载,从存储文件的节点中选取负荷最小的节点,下载文件;
}
elsel
得到存储文件的n个节点的信息;
从n个节点上选择负荷小于阀值T2的节点,节点数目为m;
利用文件分割算法把文件分割为m块;
与选中的m个节点建立连接,从每个节点上下载一个文件块;
下载完成后,把m个文件块合并成为完整的文件;
把文件存储在备份介质;
}
}
2存储与备份技术的一致性
2.1锁和快照技术
锁就是当进行数据备份时,对需要备份的数据加锁,此时禁止对数据进行修改。由于备份时禁止对数据的修改,锁技术对数据的可用性会造成一定的影响,会影响到系统的效率。快照就是在相当短的时间内生成原存储系统的瞬时映像,该映像生成之后,备份就可以根据该映像来进行,而不用担心数据的不一致性。快照技术的实现有两种方式:更新复制方式和Split-mirror方式。更新复制技术就是当进行快照时,并不立刻复制数据,只有当数据发生变化时才进行复制。Split-mirror是使用和主存储系统一样的快照存储系统,数据同时保存在主存储系统和快照系统,此时快照系统就可作为备份数据。
2.2在线备份
在分布式文件访问平台中,存在着海量的文件,文件的信息较多,若把文件的信息逐个复制则要浪费大量的时间、空间,对系统的可访问性造成影响。WAFL文件系统使用了更新复制技术。当创建系统快照时,并不立刻复制所有文件信息,而是创建新的快照根节点,它与原文件系统根节点有相同的信息,文件系统中根节点的子节点也为快照根节点的子节点。此时以快照根节点为根节点生成了一棵快照树,它和原文件系统树除了根节点以外,其余部分相同。当文件信息需要修改时,创建新的节点,把文件信息赋给此节点,并把节点作为快照节点插入快照树中,同时修改原节点的信息,具体分为以下情况:
(1)修改文件信息:当对文件的基本信息进行修改时,如更改文件名称等,此种情况下比较简单,伪算法如下:if修改文件)
{
创建新的节点作为快照节点;
把原节点的信息复制到快照节点;
把快照树中指向原节点的指针指向快照节点;
快照节点儿子节点的指针指向原节点的儿子节点;
修改原节点的信息;
}
修改文件信息具体过程如图3:
(2)移动文件:当把文件或者目录从一个目录移动到另外一个目录下时,具体伪算法如下:
if移动文件)
{
创建新的快照节点;
把原节点的信息复制到快照节点;
复制原父目录的信息,添加到快照树中;
把快照树中指向原节点的指针指向快照节点;
快照节点儿子节点的指针指向原节点的儿子节点;
复制新父目录的信息,修改子节点,添加到快照树中;
修改原节点的信息,把原节点移动到新的目录下;
}
移动文件过程如图4所示:
(3)新建文件:当新建文件时,具体伪算法如下:
if(新建文件)
{
创建新的节点,并给节点赋予相应的文件信息;
在文件系统树中找到节点的父目录;
if(若父目录己经创建了副本),
{
把创建的节点插在文件系统树中父目录节点下;
}
else{
父目录创建副本;
副本赋予相应的信息;
父目录副本儿子节点即为父目录的儿子节点;
快照树中指向原来父目录的指针指向副本;
新建节点插在文件系统树中父目录节点下;
}
}
新建文件过程如图5所示:
2.3备份的实现
在创建好快照树之后,就可以进行在线备份。快照树保存的信息就是开始备份瞬间所有文件的信息,进行在线备份时,首先从快照树的根节点开始,逐个访问节点,按顺序对快照树进行遍历、备份,保证了数据的一致性,并且可以在备份的同时允许对数据进行修改,不影响用户的访问。
3存储与备份的可靠性
在分布式系统中存储着海量的数据,数据量大,备份的时间较长,在备份的过程中可能会出现错误情况或者发生意外的中断。因此备份过程中需要随时记录备份的进度,这样在备份发生错误或者异常时,下次备份能够在上次备份的出错点继续进行,实行断点备份,而不用重新开始备份。断点备份过程中,使用日志表来记录备份过程,把每次备份的信息写入日志表。日志表如表1:
3.1伪算法
if(日志表为空)
{
无须查找断点位置,直接开始备份,备份时把每一个文件的备份信息添加
到日志表;
}
else{
while(日志表尚未查找完毕)
{
对于表中每一项,查找此项对应文件在树中的具置;
if(此文件尚未备份完成)
记录此文件,即为断点位置;
}
当日志表查找完成后,即可得到未备份完成的文件;
从断点位置开始继续备份,并把文件备份信息添加到日志表;
}
本次备份完成后把日志表清空
名称定义
ID文件独一无二的ID
TYPE备份类型,可以是完全备份、增量备份、差量备份
STARY_TIME开始备份时间
FINISHED是否完成
ISFOLDER是否为文件夹
PARENTID文件父节点ID
3.2算法复杂度
若日志表中的记录个数为K,文件总数为N。则对于每一个记录项,要查找其在文件树中的位置,当前一个记录项查找到时,由于遍历的顺序性,后一个记录项可以从前一个的位置继续向后查找,这样,可以保证K个记录项查找次数为K,也即为O(n)。当备份发生错误或者中断时,通过此算法,能够在相当少的时间内,找到断点位置,下一次备份时可以直接从断点位置继续进行,实现断点备份,保证了备份的可靠性。
参考文献
[1]牛云,徐庆.数据备份与灾难恢复[M].北京:机械工业出版社,2007.
[2]张联峰,刘乃安,张玉清.P2P技术[J].计算机工程与应用,2007,(12).
根据其出现时间的先后,大致可将数据存储技术的发展分为4个阶段:直接附属存储(DAS),网络附属存储(NAS),存储区域网(SAN),IP存储(IPS)。
1.DAS
20世纪90年代以前,存储产品大多作为服务器的附属设备通过电缆直接连接到各种服务器,这种形式即是DAS。DAS完全以服务器为中心,不带有任何存储操作系统。DAS方式是长期以来大多数服务器采取的方式。主机通过专用接口与存储设备相连接,透过RAID技术将这些单个硬盘,按RAIDLEVEL组合成更大的硬盘。当主机需要访问存储设备时,主机发出指令给存储设备,存储设备根据指令进行相应操作,将数据返回给主机,或者将主机传输过来的数据写入到磁盘。DAS中存储设备可以是磁盘驱动器,也可以是RAID子系统,或是其他存储设备。
DAS技术的数据安全性差,难以备份/恢复;性能一般,可扩充性差,容量有限;数据被存放在多台不同的服务器上,难于访问,不支持不同操作系统访问。DAS技术成本低廉,易于安装,但需停止用户现有系统,且难以维护,存储利用率低。
2.NAS
20世纪90年代出现了NAS技术。NAS包括存储部件和集成在一起的简易服务器管理软件。NAS是一种将分布、独立的数据整合为大型、集中化管理的数据中心。NAS通常在一个LAN上占有自己的节点。在这种配置中,一台NAS服务器处理网络上的所有数据,将负载从应用或企业服务器上卸载下来。集成在NAS设备中的定制服务器系统可以将有关存储的功能与应用服务器执行的其他功能分隔开。NAS设备的物理位置灵活,通过物理链路与网络连接。NAS无需应用服务器的干预,允许用户在网络上存取数据。
其特点是,易于备份/恢复;性能高,可扩充性强,即插即用,容量无极限;数据被整合并存放在相同的存储器上,易于访问,支持不同操作系统访问。NAS技术成本低廉,易于安装和维护,存储利用率较高。
3.SAN
SAN是允许在存储设备和处理器(服务器)之间建立直接的高速网络连接,通过这种连接实现只受光纤线路长度限制的集中式存储。SAN可以被看作是存储总路线概念的一个扩展,它使用局域网和广域网中类似的单元,实现存储设备和服务器之间的互联。SAN具有高传输速度、远传输距离和支持数量众多的设备等优点。采用了专用的拓朴结构,不能直接使用通用的IP网络连接各个SAN存储网络。目前,多数供应商的SAN解决方案大多采用光纤通道技术,即FC—SAN。
SAN技术的特点是,易于备份/恢复;性能极高,可扩充性强,即插即用,容量无极限;数据被整合并存放在相同或不同的存储器上,提供统一的用户访问视图,易于访问,但不支持不同操作系统访问。SAN技术成本昂贵,需要长时间的设计和安装,且难以维护,存储利用率很高。4.IP存储
IP存储技术就是以高速以太网连接为基础,通过IP协议进行数据交换的存储技术,它将SCSI协议映射到TCP/IP协议上,使得SCSI的命令、数据和状态可以在传统的IP网上传输,其支持数据块形式的I/O访问和共享存储。它采用iFCP和iSCSI协议,由于光纤通道已经包含了SCSI协议,这种方法无需重大技术改造,就能满足SCSI协议的要求。
IP技术的特点是,易于备份/恢复;性能高,可扩充性强,即插即用,容量无极限;数据被整合并存放在相同或不同的存储器上,提供统一的用户访问视图,易于访问,支持不同操作系统访问。IP技术成本低廉,易于安装和维护,存储利用率最高。
基于IP的高校数字图书馆网络存储建设
在网络存储中,FC—SAN在某些方面具有无可比拟的优势,如性能极高,可扩充性强等,使其能够满足数字图书馆大规模数据存储的需要,但光纤通道存在着成本昂贵和互操作性问题,这是一般高校图书馆所不能承受的。而NAS技术虽然成本低廉,但却受到带宽消耗的限制,无法完成大容量存储的应用,而且系统难以满足开放性的要求。针对以上技术的缺陷和不足,根据国际上基于IP的存储设备已逐步上市和日渐成熟的情况,提出了一种既有ANS和SAN技术的优点,又能克服两者缺点的存储网方案,即基于IP的SAN。它由两部分构成,第一部分是利用IP互连设备构成存储区域网SAN,第二部分是通过SAN中的交换机多路接入LAN回路,形成一种广义的附网存储NAS,存储设备都是商用的NAS设备以及iSCSI设备,或通过转换桥将SCSI和FC设备转换为IP接口,接入基于IP协议SAN中。它采用最广泛的TCP/IP作为网络协议,既具有NAS易于访问的特点,又有专用的存储网络架构。因此,基于IP的存储网络可以利用以太网技术和设备来构建专用的存储网络,由于使用了以太网设备,其成本大大低于使用光纤交换机的SAN网络,而且保持了SAN的传输速率高且稳定的优点。用户在这一技术中,面对的是非常熟悉的技术内容,即IP协议和以太网,而且各种IP通用设备保证了用户可以具有非常广泛的选择空间。事实上,由于IP存储技术的设计目标,就是充分利用现有设备,使传统的SCSI存储设备和光纤存储设备都可以在IP—SAN中利用起来。随着带有IP标准接口的存储设备的出现,我们可以单纯使用本地IP存储技术,来扩展已有的存储网络,或构建新的存储网络。以千兆甚至万兆以太网为骨干的网络连接,保证了本地IP存储网络。由于采用的是IP协议,与LAN和Intemet的连接是无缝的,远程备份十分方便,效率工作很高。基于IP的SAN在性能及功能上都具有突出的优势,是目前高校数字图书馆建设中存储区域方案设计的首选方案。
参考文献
1郭建峰.数字图书馆信息存储系统架构的探析.现代情报,2005(6)
2李培.数字图书馆馆原理与应用.北京:高教出版社2004
3李村合.谈网络环境下的信息存储技术.情报学报,2002(1)
二、农村初中信息技术课
程有利于提高学生适应能力在农村初中信息技术课程的教学中,教师应当重视对学生社会适应能力的培养,使其具备较强的学习能力。在教学过程中,教师不仅要向学生传授计算机信息技术理论知识,还应当注重学生实践能力的培养,促使学生能够将所学到的理论知识运用于解决实际问题,以提高学生的动手实践能力,使学生能够独立自主地解决问题,从而更好地适应社会。通过计算机信息技术课程的教学,学生能够学会搜集和处理信息。随着计算机信息技术的快速发展,各种软件层出不穷,学生也不可能掌握所有的软件应用方法,为使其在社会中能够应对各式各样的计算机软件,学会应用计算机信息技术,则必须加强学生学习能力的培养,让其能够自己发现学习中的问题,并自主地去研究和探索。为此,农村初中信息技术课程的教学必须加强对学生社会实践能力的培养,让学生能够快速地适应新时期的社会发展环境,从而能够利用自己所学的知识来解决农村社会经济发展中的困境。
1.利用压缩技术提高空间利用率
书籍等图书资料,其文件内以及文件间都具有一定的相似性,因此,Delta压缩技术可以对于这些文件之间的数据进行相互比较,从而删除其中的冗余数据,让数据的内容实现最小化。文件间相似程度越高,其被压缩的内存就越小。虽然这种压缩技术最后要在这种文件上产生一定的引伸数据,但是从美国加州大学方面所获得的数据显示,最后文件总的数据量只占原先数据的1%~4%左右。
2.利用消重技术提高空间的利用率
图书馆的数据进行存储时,一般都会对数据进行备份,而数据在进行了多次备份之后,就会产生一定的重复,因此,对于重复的数据进行删除,可以在备份时有效节省数据存储的空间。而对于重复备份的数据,可以将其划分为时间数据消重以及空间数据消重两种。而电子书籍等产生的数据,可归纳为自然数据的范畴,其特征主要在于:数据的变化频率较低、数据备份较完整、保存周期较长以及数据内容可以感知等。因此,针对这种情况,可以采用时间数据消重的方式进行消重。其消重技术具体如下所示:
首先,将数据文件划分为一组数据块,再按照技术的相关要求,提前设定每个模块内存的大小,可以设定为4k、24k等,模块的内存越小,消重的效率就越高。最后再对于每组数据块进行指纹计算,再以指纹为关键词进行Hash查找,如能够查找到与之相配的数据,则断定其为重复数据,再将该数据块的索引号进行储存;如果没有找到相应的数据块,则表示其为唯一的数据模块。
■
这种计算方式为物理文件做了很好的标识,其与逻辑标识相对应,最后通过Hash函数计算出数据模块的指纹。当对于一个文件进行读取时,首先是对其逻辑标识进行读取,之后再按照数据模块的指纹,依次从存储系统中读取与之相应的物理数据,最后将文件的副本进行一定的还原。Hash的计算过程如下图所示:
二、数据备份问题与解决对策
图书馆和读者的相关数据对借阅、身份确认以及相关资料储存而言是最为重要的依据,因此,要长期稳定且安全地进行保存,就提高了对储存系统的性能要求。图书出入信息系统的最主要特点就是持续不间断地运行,储存系统的可靠性较高,对于数据的恢复能力也较强。除此之外,图书馆以及阅览室等各部门的专业化信息系统也越来越多,服务器数量呈现出不断上升的趋势,为了有效防止系统与系统之间的干扰,除了提高对于容量、备份以及容灾等方面的要求外,还要求备份数据能够进行统一管理,数据的恢复能力与速度也要较强。
众所周知,图书馆的数据量是非常大的,一所五千人的学校中,图书馆的电子图书数据就具有15TB之多。因此,备份方案不可以简单运用,因为大量数据进行备份时,需要花费很多时间。最好的方法就是,运用备份的相关功能,让复制的数据在保证该程序能够正常运行的情况下,还能够让客户端正常使用。而重要的数据备份可以通过冗余配置的主机或者硬盘进行备份。运用这种技术,当某个磁盘或者阵列出现问题时,不会影响整个系统的正常运行。
三、存储空间利用率低的问题与解决对策