信息系统应急演练总结范文

时间:2023-03-01 16:25:07

引言:寻求写作上的突破?我们特意为您精选了4篇信息系统应急演练总结范文,希望这些范文能够成为您写作时的参考,帮助您的文章更加丰富和深入。

信息系统应急演练总结

篇1

时间:2015年7月16日

下午

地点:平舆县人民医院门诊楼、内儿病区、妇外病区

参加科室:二甲办、质控部、医务部、护理部、门诊部、药剂科、财务科、功能科、检验科、CT、MRI、临床科室2个(中医科、神经外科)。

演练步骤:

1、16:30门诊西药房发现发药时错误,电话报信息科9675。

2、信息科主班人员排查原因,发现中心机房UPS故障,导致信息系统完全瘫痪,故障需要2小时以上才能修复,信息科长将情况汇报给分管领导。信息安全应急领导小组副组长刘超指示启动信息应急预案。

3、接到启动信息系统应急预案后信息科及时通知相关职能科室启动相应的内部应急预案。

4、设置5名志愿者模拟住院患者,门诊患者分别模拟分诊、挂号、就诊、住院、检查、报告、取药全过程。

5、演练结束(按照信息系统应急预案,需要完成补录的部门完成补录为结束,补录过程录入到测试数据库中)。

6、信息科负责信息应急演练的总结和联席会议。

演练总结:

本次演练前信息科多次与各个科室沟通,科室内部进行培训学习。整个演练过程基本完成计划要求,但也存在一定的问题。

一、信息系统安全应急演练信息科反馈

存在问题:

1、手工划价慢,找一个药品划价需要1分钟

2、系统恢复正常后如何进行补录

3、信息系统瘫痪后住院患者、门诊病人无编号,无法对患者身份核查。

4、系统瘫痪后药品领取不规范;

整改措施:

1.考虑门诊收费电脑安装单机版HIS软件进行划价收费。

2.对于门诊患者,收费员按照患者姓名补录各项诊疗项目并结账,由相应的医技科室执行完成。在院患者,医疗和护理补录执行对应的医嘱信息。新入院患者由住院处办理入院后,医疗和护理补录执行对应的医嘱信息。

3.当信息系统瘫痪时办理住院手续应有编号,质管部,财务科,医务部协商编号规则为东1,东2...,西1,西2...,依此类推,区分东西区住院患者,以便临床检查核对,待信息系统恢复后重新编号,如系统瘫痪时间长,所用纸制病历应保存完整,出院时附在电子病历中,并加以说明。门诊患者不再编号。

4、药品的领取:有备用药物的用备用药品,无备用药物的用药品请领单。

5.其他科室存在的问题自行整改。

二、信息系统安全应急演练护理组反馈

存在问题:

1、新入院患者首次评估不全面,入院宣教内容缺少疾病、饮食方面的知识。

2、身份识别制度落实不到位(无查看有效身份证,上治疗时无使用“开放式”提问)。

3、患者转交接制度落实不到位(转出科室登记本无接收科室人员签名,接收科室接危重患者时无带氧气袋)。

4、两个科室无使用“药品请领单”。

5、医疗设备使用前后的告知不完善。

6、手卫生依从性差(操作前后不洗手)。

7、基于演练,患者不是真实患者,医护人员无完全进入向对待真实患者的状态,缺乏人文关怀。

三、信息系统安全应急演练药剂组反馈

为配合这次演练,药剂科事先组织进行演习,介绍流程,整个过程基本完成计划要求,但也存在一定的问题。

1、处方书写不完整。门诊西药调剂室共收到处方3张,书写均不完善。2个处方药品规格书写错误。

2、药剂人员划价速度慢,划价后没有引导患者到收费处交费。

3、进行用药交代时,呼叫患者姓名错误,把医生姓名按患者姓名呼叫。

四、信息系统瘫痪应急演练医务部督导检查反馈

为验证医院信息系统安全应急处置预案的可行性,同时完善应急预案;提高相关部门及人员对于应急预案的知晓度和流程的熟练程度;落实核心制度、二甲条款内容,进一步提高医疗质量。平舆县人民医院医务部、护理部、药剂科、信息科、设备科等职能部门于2015年7月1

6日16:30对医院信息系统瘫痪进行了演练,本次演练采取个案追踪的方法,分别对高血压、胆囊炎、腰腿疼三个门诊患者及心肌梗死、脑出血两个住院患者的就诊、检查、收费、取药、紧急会诊、紧急检查、转诊、转科、办理住院、术前准备、术前检查、术前麻醉访视、紧急手术及急性心梗病人紧急溶栓治疗等内容进行了督导检查,此次追踪共涉及28个二甲条款,现将存在问题反馈如下:

(一)、门诊病人在诊治中存在问题:

1、医师在诊治患者时询问病史不详细;体格检查过于简单(高血压患者只测血压);知情告知不详细;

2、患者取药时药房人员未能严格执行查对制度;

3、患者取药返回诊室后,只交代口服药物用法,未交代注意事项及复诊时间等;

4、完成本岗位诊疗工作后未能主动指导患者进入下一诊疗环节;

5、行医技检查时未收票据、未进行身份核查及未执行双签字。

(二)、急性心梗患者在诊治中存在问题:

1、患者入科室就诊后,主治医师在检查后未下口头医嘱时,护士即开始执行医嘱,行心电图检查;

2、护士在对患者身份核查时,只核查姓名,未对住院号及性别、年龄进行核查;

3、护士健康教育过于简单,未针对病情做出相应的健康教育;

4、医师在诊治过程中未对患者进行病情评估;

5、神志清醒的患者病情及注意事项应告知患者本人,需告知家属时应签署授权委托书。

6、行心电图检查时未进行身份核查。

(三)、脑出血患者在诊治中存在问题:

1、体格检查不全面,只查瞳孔、心肺,未检查肢体及神经系统;

2、医师下达口头医嘱,护士执行时未复述,心电图未下达医嘱,甘露醇滴注时未快速滴注;

3、急会诊会诊医师5分钟到达,会诊时主管医师不在床边,汇报病史简单

4、CT申请单用病危通知单书写,告知内容简单

5、危重患者未执行先诊疗后付费

6、CT室未见CT申请单,无姓名,报告单脑出血未显示左右侧

7、CT室报告危急值未严格按危急值报告流程执行。

整改措施:

1、进一步加强业务学习,提高自身素质,增强责任意识;

2、严格按核心制度、二甲条款内容执行并落实,提高医疗质量,保障医疗安全;

篇2

一、引言

2011年银监会向全国商业银行等金融机构下发《商业银行业务连续性监管指引》(银监发〔2011〕104号,以下简称:《指引》),从业务连续性组织架构、业务影响分析、业务连续性计划与资源建设、业务连续性演练与持续改进、运营中断事件应急处置等几个方面指导国内金融机构建设业务连续性管理体系。自发文以来,国内银行一直根据监管的要求建立符合自身发展的业务连续性管理体系,然而,业务连续性管理体系的建设涉及面广、建设周期长,从“软件”方面来看,涉及现状调研、方案及计划制定、业务影响分析和风险评估、重要业务范围界定、制度建设、总体和专项应急预案建设、演练等内容,从“硬件”方面来看,涉及数据中心及灾备中心建设,需要大量的资金及时间等资源的投入,虽然《指引》发文已5年有余,但极少数银行可以完全按照监管的要求建立全面健全的业务连续性管理体系。本文以某银行业务连续性管理体系建设为研究背景,总结业务连续管理体系建设过程中的重点及难点并提出解决思路,为国内银行同业提供参考方法。

二、业务连续性管理体系建设重、难点解决措施

在业务连续性管理体系建设实践中,组织架构、业务连续性计划、业务连续性应急预案等工作实施难度较低,难点在于业务影响分析、总分行资源建设、业务连续性演练等工作,本文着重介绍上述难点的建设过程。

(一)业务影响分析

业务影响分析的主要目标是帮助银行通过识别和评估业务运营中断造成的影响,明确业务连续性管理重点,根据业务重要程度进行差异化管理,制定不同业务的恢复目标、恢复次序、确定支持重要业务对应的信息系统的恢复目标,其主要工作包括2个方面的内容,一方面是现状调研,另一方面是业务影响分析和风险评估。在现状调研阶段,由于该项工作涉及全行所有业务以及大部份部门,可采取培训、访谈、召开研讨会、调查问卷等方式,逐步推进工作开展,初步梳理出重要业务清单。在业务影响分析和风险评估阶段,结合国内外先进实践经验,采取财务影响和非财务影响两个维度对初步梳理出来的各项业务进行风险评估。财务影响和非财务影响均采用评分制,其中,财务影响主要评估该项业务中断一个工作日给银行带来的收入损失,可根据银行自身业务收入水平设置分值,该项指标是较为客观的估值;非财务影响则综合评估该项业务中断可能给银行带来的影响,如:监管负面影响、声誉损失、客户负面情绪、投资者信心/忠诚度降低、法律/诉讼风险、国家金融秩序稳定等,该项指标具有一定的主观因素,为避免主观因素影响程度过大,可采取两种方式降低影响:一是扩大调查问卷的样本量,二是对非财务影响的各个要素设置权重值,对财务影响及非财务影响设置综合评分规则。特别地,对于后台运营类、渠道类业务(比如:自助银行业务),虽然不直接产生业务收入,但它是其他业务产生收入的必要条件之一,对于此类业务计算该渠道所承载的各业务种类收入之和作为该渠道的业务收入。在确定各项业务的财务影响和非财务影响指标基础上,采取矩阵模型分析法进一步确定业务恢复的优先顺序。在确定业务恢复的优先顺序的基础上,进一步确定该业务对应的信息系统恢复目标,以指导关键信息系统的资源建设。《指引》要求,“原则上重要业务的RTO不得大于4小时,重要业务的RPO不得大于半小时”,在信息系统资源建设中,关键信息系统的恢复能力应满足重要业务RTO、RPO的时效要求。

(二)总、分行资源建设

业务连续性资源建设属于“硬件”设施范畴,主要涉及总行同城、异地灾备中心以及分行机房设备的建设。在总行层面,同城、异地灾备中心应建立重要信息系统的备份,在日常工作中应加强对灾备中心机房的巡检,确保系统正常运行。在分行层面,应从供电、网络、系统建设等方面实现全方位的应急措施,比如在供电环节,分行除配置双线路供电外,还要配备不间断电源(UPS)和应急发电机;在网络连接环节,不仅要配置不同运营商的网络线路,还要配置无线设备,确保在极端情况下仍能保障重要业务持续运营。

(三)业务连续性演练

虽然《指引》对国内商业银行开展业务连续性演练的具体方式未作硬性要求,许多银行在演练环节采用较为简单的桌面演练以应付监管的要求,这种方式虽然成本较低,但效果不好,难于检验应急预案的可行性,在实践中,某银行根据业务重要程度有针对性地对重要信息系统开展实战演练,在业务量较小的时间段将生产系统切换至灾备中心系统上运行,平时不断总结经验,实践证明,这种方式能够较好地应对突发状况。另外,许多银行在开展应急演练时,未要求业务关联方参与,《指引》明确规定,“商业银行应当将外部供应商纳入演练范围并定期开展演练;同时,应当积极参加金融同业单位、外部金融市场、金融服务平台和公共事业部门等组织的业务连续性计划演练,确保应急和协调措施的有效性”,因此,在开展应急演练时应将关联第三方纳入演练范围,注重演练的实质而非形式。

三、结束语

本文根据实践经验,对商业银行业务连续性管理体系建设过程中的重点、难点提出建议和方法,在业务影响分析环节提出按照财务影响和非财务影响来区分重要业务的分析方法,为梳理出业务恢复优先顺序提出矩阵模型分析法,实践表明,可顺利、高效地完成业务连续性管理体系的建设,有效降低重要业务中断风险,提高业务风险应对能力,满足《指引》对商业银行建设业务连续性管理体系的要求,对国内银行建设业务连续性管理体系具有参考意义。

参考文献

[1]中国银监会.商业银行业务连续性监管指引[Z].

篇3

中图分类号:G250文献标识码:A文章编号:1003-1588(2015)05-0129-03

1背景

随着图书馆的不断发展,信息化发展的规模也不断扩大,图书馆信息系统成为图书馆业务管理中不可缺少的部分,已逐渐成为图书馆业务稳定运行的有效保障。

图书馆是365天24小时不中断为读者提供服务,信息安全已经成为图书馆正常运行的重大隐患。图书馆网络信息系统任何一个故障的出现,都会使图书馆业务运行受到不同程序的影响,如业务终端用户计算机故障、网络链接中单点故障、楼层支路交换设备故障等;而核心交换机、服务器、数据库等故障会影响到图书馆整个业务的正常运行,严重者可导致图书馆业务整体瘫痪[1]。因此,图书馆网络信息系统应始终把安全性放在首位.建立完善的安全体系,具备周密的应急预案。

2建立完善的安全体系防范策略

2.1架构安全

合理的架构是图书馆业务服务网络安全的前提,网络在总体结构上要减少相互间的依赖和影响。任何一个模块出现故障后,对上/下工序流程不产生严重影响。各子系统可独立运作,各子系统单一升级而不影响到其他子系统的功能。

2.2设备安全

主干网采用光纤双路备份,采用双机冗余式主干交换机,网络核心设备(交换机、服务器等)需采用模块化、支持热插拔设计。主业务应用服务器要双机热备,并采用双网卡接入、服务器集群、RAID等措施。主存储系统需要极高的安全稳定性,具有合理的存储构架和数据重新快速分配能力。在设备的分配上,避免在同一台服务器上部署多种应用。在各楼层设立交换机柜, 对重要接入层设备,应考虑必要的网络设备和接入端口的备份手段。中心机房配有24小时双路电源,并配备大功率的UPS电源。另外,为防止外部的攻击和病毒的侵袭,解决业务网与办公网的信息交互问题,要设置高安全区网段,须将业务内部网络与外网分开,在物理上隔离网络,业务终端用户计算机屏蔽USB接口,不配置光驱,并安装网络版的防病毒软件。

2.3软件安全

主要有:①操作系统安全。为确保图书馆的安全,主要服务器尽可能采用企业版Linux操作系统。②数据安全。为保障关键运行数据的存储、管理和备份,要求采用集中与分布方式相结合的数据库系统设计。③应用软件安全。应用软件应具有完善的备份措施,系统故障后,要求及时恢复,确保图书分编数据不丢失,图书借还信息不丢失。④数据库系统安全。主要应用系统中的数据库均采用双机热备共享RAID盘阵的方式,实现双主机同时对外提供服务,盘阵采用了最高等级的RAID5技术,任何一个硬盘故障也不会影响系统,对于核心数据库要求采用本地备份和远程备份相结合的方式。

2.4运维安全

在提高技术系统安全性的同时,还必须提供良好的运行维护,防范由于操作不当、网络管理漏洞、运维措施不完备所造成的网络信息系统异常。在网络信息系统运行中,应对设备、服务、业务等方面的监控和故障报警。通常情况下,设备运用指示灯变成黄色,表示出现故障,应尽快进行检查。

2.5外网文件交互安全

为隔离来自办公外网等的安全风险,图书馆自动化主业务系统专门设置高安全区网段,高安全区网段的文件拷贝通过私有协议或网闸实现,主要用于与办公网络以及其他网络的数据交互的病毒防御。

3制定出一套操作性强、目的明确的应急处理预案

为了及时应对图书馆网络信息系统突发故障和事件,在完善网络信息安全体系建立策略上,在技术上应做好各种预防措施的同时,制定出一套操作性强,在突发事件发生时,能迅速做出响应并快速处理,积极恢复图书馆网络业务系统等全方位的应急体系,即网络信息系统故障应急预案。

著名的墨菲定律指出:凡事只要有可能出错,那就一定会出错[2]。因此对图书馆主信息应用系统,对其部署的机房环境、人员、网络、数据存储、应用系统的主机及数据库情况以及所使用的中间件环境等因素进行全面分析,预测网络信息故障风险点和故障可能造成的危害,确定应急预案,选择处理故障的有效手段。

3.1预案适用情形

图书馆网络信息安全涉及管理与信息技术等方面,图书馆平时要从网络、计算机操作系统、应用业务系统等安全管理规范以及计算机使用人员安全意识等几个方面,做好以下几项工作: ①制定系统规章。②制订培训计划。③加强人员管理。④成立事故应急处理小组。

针对图书馆网络故障对系统的影响程度,当出现以下所列情形之一时,事故处理小组确认已达到预案应急情况,应迅速启动相应的应急处理程序:①网络遭受灾害或病毒大面积攻击而造成图书馆整个业务系统的瘫痪。②网络服务器不明原因宕机,对图书馆业务造成影响范围大,且持续时间长。③网站内容被恶意篡改。④供电系统故障。⑤机房火灾。⑥空调系统及供水系统故障。

3.2预案制定及启动

预案是由图书馆信息安全管理应急处理小组负责制定及审核。小组职责是对图书馆信息网络安全的整体规划、安全应急预案演练及网络与信息系统突发事件的处理,小组组长负责启动应急预案 。

针对上述情形,在图书馆网络信息系统运行中可能存在以下问题,技术人员应立即启动以下应急预案。

3.2.1遇到网络遭受病毒大面积攻击而造成图书馆整个业务系统的瘫痪,立即启动以下应急预案。查找受病毒攻击的计算机,并及时从网络上隔离出来,判断病毒的性质,关闭相应的端口;对该机进行数据备份;启用防病毒软件对该机进行杀毒处理,同时对其他机器进行病毒检测软件扫描和清除工作;对被病毒感染的终端电脑进行全面杀毒之后再恢复使用;及时最新病毒攻击信息以及防御方法。

3.2.2遇到网络服务器不明原因宕机,对图书馆业务造成影响范围大,且持续时间长的情况,立即启动以下应急预案:①服务器宕机应急处置措施。图书馆关键应用系统所用的服务器宕机,应立即将网络线路切换到备用服务器上,并立即恢复应用系统正常使用;对宕机服务器进行全面检查,分析是硬件还是软件故障;立即与设备提供商联系,请求派维修人员前来维修;在确实解决问题之后,切换回主服务器,给主机加电;系统启动完毕,检查系统及双机状态;启动数据库;启动应用程序可以正常启动和运行。②网络不明原因中断。属局域网出故障断网后,网络维护人员应立即判断故障节点,及时向信息部负责人报告,查明故障原因,立即恢复。如遇无法恢复,立即进行备件更换或向有关厂商请求支援。属光纤主干出故障,立即向上级报告,并通知维护公司对光纤进行融接,尽快恢复网络功能;属与楼层的上联网线故障,应使用备用或更换新的双绞线连接至故障设备。属网络设备(光模块)故障如路由器、交换机等,应立即用相关备件替换,或与设备提供商联系更换设备,并调试畅通。属网络设备配置文件破坏如路由器、交换机,应迅速用备份配置文件重新复制配置,并调试畅通;如遇无法解决的技术问题,立即向有关厂商请求支援。属运营商管辖范围,立即与运营商维护部门申报故障,请求修复。

3.2.3遇到网站内容被恶意篡改,应参照以下应急预案。切断服务器的网络连接;从备份数据中恢复正确的数据;检查网站源码漏洞,安装网站源码的最新补丁;安装最新的系统补丁并重新配置防火墙,修改管理员密码;查看网络访问日志,分析事件发生原因、源IP地址和操作时间,并做好记录;重新恢复服务器网络连接;向保卫科备案,如造成重大损失或影响恶劣的,通知司法机关寻求法律途径解决。

3.2.4遇到供电系统故障,应参照以下应急预案。当供电系统出现故障,中心机房UPS在尚能维持供电一段时间时,应通知各业务相关部门,迅速将所有运行中的服务器、存储及网络设备等安全关机,防止数据损失。关闭所有服务器时,应遵循如下步骤:先关闭所有应用服务器和数据库服务器,再关闭存储设备。启动所有服务器时,应先打开存储设备,再打开数据库服务器,最后打开应用服务器;确认机房中所有设备安全关机之后,将UPS电源关闭;恢复供电后,重新启动所有设备运行,并把UPS电源打开。

3.2.5遇到机房火灾,应参照以下应急预案。确保人员安全;保护关键设备、数据安全;保护一般设备;机房工作人员立即按响火警警报,不参与灭火的人员迅速从机房离开;人员灭火时要切断所有电源,从消防工具箱中取出消防设备进行灭火。

3.2.6遇到空调系统及供水系统故障,应参照以下应急预案。空调系统及供水系统如有报警信息,应及时查找故障原因,对于不能自行排除的问题,应及时与设备提供商进行联系。如发现有漏水现象应马上关闭进水阀,并对漏水进行处理。当中心机房主空调因故障无法制冷,致使机房内环境温度超过摄氏40度时,打开机房房门,及时报告信息部相关领导请示,获得授权后应按顺序关闭所有服务器及网络设备。

3.3重大事件应急预案

针对发生重大事件导致图书馆网络瘫痪,信息系统无法正常运行,相关服务部门应立即启动以下应急预案:①各部门对读者服务窗口,立即恢复手工操作模式。②网络部门负责立即启动应急服务器系统。③应急系统使用期间,办证处不可对读者进行办理或办退读者借阅证。待系统正常恢复后才可办证或退证。④应急系统使用期间,各图书阅览室对读者只提供图书阅览、还书服务,并采用手工登记服务信息;暂停图书借书服务,待系统正常恢复后才可进行各项业务服务。⑤系统恢复后,网络部门应及时安排人员对读者还书期限信息进行延期处理。

3.4预案处理流程

图书馆网络信息系统预案处理流程见图1。

任何一个预案的落实首先必须得到图书馆领导的重视,各业务部门的积极配合,我们才能做到最佳的处理效果。[1]

4预案培训、演练及改进

图书馆网络信息系统应急预案确定后,应对与预案处置相关的所有人员进行培训,了解安全故障或事件风险点和危害程度,掌握预案应急处置办法,明确预案处理流程预警。图书馆每年要拟订年度应急演练计划,应定期或不定期开展网络信息安全预案演练,明确应急响应相关责任部门和人员的责任,模拟完成安全故障发现、判断、通报、处置、解除等各重要环节应急措施的演练,总结演练情况书面报告。

图书馆网络信息系统每年至少应进行1次应急预案文档的分析、评审,根据演练总结和实际情况,进一步对预案中存在的问题和不足及时补充、完善。

5结语

随着信息技术与图书馆工作结合日益紧密,图书馆业务和服务对信息网络的依赖性越来越高[3]。制定图书馆网络信息应急预案能提高网络与信息系统突发事件的处理能力和速度,建立科学有效的应急工作机制,确保图书馆业务系统安全运行,尽可能减少各种突发事件的危害,保障图书馆网络及信息系统安全稳定地运行。

参考文献:

[1][ZK(#]龚剑国,刘涛.谈医院信息网络应急预案的制定和应用[J].光盘技术,2008(8):27-28.

篇4

1 网络设备切换演练的工作描述

1.1 工作方案制定

数据中心阶段性的开展信息系统切换演练,其中包括硬件、软件、基础设施,网络设备切换演练即是其中一项重要内容。由于网络设备属于基础设施范畴,是信息系统的数据传输的经脉,影响面广,因此,这项工作的开展准备工作成为重中之重,网络运维团队精心研究切换演练工作的具体内容、范围、方案以及具体实施步骤,严格把关每一个环节,做到切换演练工作开展时不慌、不乱、沉着、按部就班。

网络设备的切换演练,与网络架构、具体设备戚戚相关,针对不同的网络架构、不同的具体设备,设计出标准的基线方案,针对牵涉业务系统的不同,制定完善相关的演练方案及实施步骤。目前数据中心网络设备种类多、品牌杂,包括路由器、交换机、负载均衡器防火墙等,每一种类网络设备品牌多达数种。网络设备的切换演练可以划分为多次实施,划分区域、划分设备、划分业务系统。根据方案设计思路收集设备信息、理清网络拓扑、梳理业务、应急方案、备品备件以及厂家支持等,诸多准备工作保障切换演练工作顺利实施,同时运维流程、运维管理、运维技术、运维制度得到有力提升。

1.2 工作目标

通过网络设备切换演练工作检验信息系统的软硬件的稳定性、高可靠性、业务不中断性、健壮性以及冗余模式下系统有效性,运行环境潜在隐患无法藏匿,并对切换演练过程中出现的各类异常进行制定相应措施,对发现的问题及时整改,确保设备发生故障时双机冗余切实有效,达到主动演练、主动发现隐患、主动排查问题,为主动运维提升服务能力添砖加瓦。具体内容如下:

(1)确保实时业务访问连续性。切换演练时,达到业务透明无感知,使得业务连续性得到保证。

(2)确保服务器集群正常使用。服务器集群中不管是HA还是RAC,切换演练工作可使得各种切换机制正常工作,确保应用数据、后台数据正常传输,生产业务不受影响。

(3)确保灾备数据备份不中断。数据库、存储上存储的数据能实时同步到灾备中心,保障数据传输稳定可靠。为生产主中心数据提供有力支撑和保障。

2 网络设备切换演练工作内容

2.1 相关组织机构

数据中心阶段性的切换演练,不论是应用软件、主机存储、数据库集群,还是网络设备、电力基础设施相关切换演练,都具有严格的组织体系,任何一个层面切换演练,都需要其他相关专业组织进行配合支持,因此演练工作需要缜密的组织体系结构、完整的运维管理制度、详尽的实施方案以及强大的运维支持服务团队,以保证网络设备切换演练工作顺利进行。

2.2 切换演练相关流程

制定切换演练工作流程是切换演练工作开始之前的一项重要工作,不容忽视,对切换演练整个工作的开展具有总体把控指导作用。结合切换演练工作实施步骤、运维技术保障团队、业务验证以及应急措施。确保演练工作有序进行,确保演练工作结束后生产安全稳定运行。流程如图1所示。

2.3 切换演练具体内容

如前文所述,网络设备属于基础设施范畴,牵涉范围广,双机主备模式、虚拟化模式,原则上切换演练对生产不具有影响,演练的目的就是发现隐患,为了避免影响范围扩大,切换演练可以划分为多次实施,划分区域、划分设备、划分业务系统进行工作实施。网络架构可分为核心区、汇聚区、接入区、广域区,可以按照区域进行分批次进行切换演练,如按照边界路由器、局域网核心区、局域网汇聚接入区三个批次进行切换演练。网络设备种类品牌具有多种,按照网络品牌进行切换演练,有利于厂家支持协调,一些数量少的某种网络设备,可以集中进行切换演练。按照业务系统进行切换演练,有利于应用软件开发厂家运维支持协调,一些业务系统共用网络设备,可以安排在同一批次进行切换演练。上述几种切换演练策略都具有一定的合理性,前提是在可控范围内将切换演练工作有序顺利完成。

网络设备切换演练工作,网络运维管理员的角色影响至关重要,当冗余网络设备进行启停操作时,网络管理员需及时对网络状态、网络配置进行核查,如网络收敛状态、网络链路状态、网络路由状态等,还需要协调厂家支持、协调其他专业组进行配合验证业务是否正常。一旦发现切换过程发现诸如硬件损坏、网络中断、业务中断等问题,切换演练工作的首要任务是恢复生产,及时记录相关现象,便于事后进行详细分析并得出结果,进而找到问题所在以及进行问题整改工作。每一项操作均验证无误后方可进行下一步操作。

每一批次网络设备切换演练结束之后,将演练结果汇报给领导,对于发现的隐患进行整改,形成相关文档进行留存。至此,切换演练整个工作才完成。

3 网络设备切换演练的总结与改进

3.1 网络设备切换演练运维管理成效

通过网络设备切换演练工作加强巩固运维管理体制,结合实际操作演练,解决日常运维管理中存在的技术弱点和管理缺点,使得信息系统各个层面,包括应用软件层面、主机资源层面、基础设备层面、第三方技术支持层面有机统一协作,相互协调,共同提高运维保障能力以及运维技术团队的技能,确保银行信息系统平稳运行。

运维团队技术的提升。任何一个企业的运维工作只有运维制度没有运维技术支撑,犹如船无舵手。运维技术不仅体现在某种网络设备的熟悉程度,而且体现在运维态度。在整个切换演练过程中,每个环节都强调操作谨小慎微、双人复核。技术能力再过硬也抵不过一个粗心大意,对突发性问题的定位、分析以及解决,既不影响生产的稳定运行,也不影响整个切换演练的时长局限。演练过程中突发问题的发生,对运维团队技术以及抗压能力的考验极高,这也是运维团队技术的考验和提升的过程。

运维团队水平的提高。信息系统不仅仅只有软件应用的存在,从基础设施到上层软件应用,任何一个环节都不能出现问题,只有各个层面各个专业有机协调配合,才能将信息系统这个“人体”保持“精力充沛,健康成长”,特别是数据中心近年来发展迅速,成立两地三中心,一体化运维渗透到各专业之间,更是渗透到各专业内部。一旦信息系统出现故障或者问题,各中心各专业组积极配合,共同分析问题,解决问题。通过切换演练,使得各个层级的运维团队协作能力得到提高,在遇到故障后能及时解决问题。

信息系统隐患的发现。切换演练的目的即是发现信息系统的隐患,对发现的隐患制定相应措施,进行相应整改,解决安全隐患,确保双机设备在设备故障发生时,及时切换,提升信息系统运行水平。

3.2 网络设备切换演练中存在的问题及改进

演练方案需要进一步完善。在日常运维管理工作中,出现许多方案、实施步骤、应急方案,切换演练也针对性的形成演练方案、实施步骤、应急方案,如果使其更具有实用性,那么切换演练的方案结构、内容、策略以及验证方式需要进一步完善修订,使其成为切换演练工作中一个标准模板方案,亦可作为知识库,供日常运维查阅。

友情链接