40多个小时的连续工作,这在外人看来是一个难以想象的超长工作时间,但对于数据安全运维部的每一名成员来说,这却是家常便饭。岗位的特殊性常常使得数据安全运维部人员在处理医院系统问题时,长时间得不到休息。曾经有一位数据安全运维部人员为尽快恢复一家二甲医院意外丢失的业务数据,整整奋战3天2夜,最终才将该院数据完全恢复。数据安全运维部成立于2012年,其前身是公司初建时期为应对信息系统运行过程中所发生的各种故障和问题而设立的DBA小组,隶属于系统集成部门管理,之后经历了多次公司组织架构调整,曾经归属于不同的部门管理。由于公司一直高度重视信息系统的安全运行,所以即使经历多次调整,DBA小组仍一直保持着相对的独立性和延续性。2012年,DBA小组正式成为独立部门,改名数据安全运维部,负责根据项目需求与系统集成商进行系统软硬件运行环境的准备、提供各类系统与数据库技术支持及各类系统与数据库护航服务,即规划、安装、配置、实施、调优、迁移系统、集群资源,并处理系统与数据库故障。
“加班”一直是数据安全运维部工作的主调。由于业务的发展、功能的改进等原因,医院系统总是需要不断地进行升级更新。为了不影响白天医院的工作,日常的系统后台维护及系统升级、维护与迁移工作都必须安排在夜间低业务期进行,并且要保证在下一个医院人流高峰期到来前阶段性完成。因此数据安全运维部人员经常需要在工作日医院下班后或者双休日加班开展系统维护升级工作。如若遇到较大的升级项目,甚至长时间无法有休假,例如2009年至2010年公司启动Oracle升级计划,将所有客户的32位的Oracle9i版本升级为64位的Oracle10g。在这一年期间,部门全体员工牺牲了大多数周末和节假日,利用医院关门、就诊人流较少的时间实施升级操作。经过1年的努力,完成大部分项目的升级,提高了许多医院信息系统的整体运行效率与稳定性。
相对于较有规划的维护、升级工作,系统故障的出现则总是让人措手不及。因为医疗行业的特殊性,医院系统一旦出现问题,可能造成患者情绪激动、医务人员工作慌乱、医院业务停顿,甚至产生医院信息系统内部信息丢失的严重后果,并会给国家、医院及患者带来严重的影响。因此医院信息系统必须保证24*7的不间断运行。但医院系统经常会受到各种环境因素和人为因素的威胁,特别是断电、静电、电磁干扰、洪灾、火灾、地震、意外事故等环境危害或自然灾害造成的系统故障,常常让人始料未及、避无可避。为了能在任何时候都及时响应医院需要,并且在最快时间内修复故障系统,数据安全运维部要求全体人员24*7小时保持随时待命状态,并采用扁平化的应急管理工作流程,设置第一负责人制:第一个接到医院求助需求的成员即成为该项目需求的第一负责人,作为第一负责人必须第一时间开始处理全部问题,这确保了项目负责人可以第一时间掌握第一手信息资料,第一时间对医院需求作出反馈,同时对项目细节有全面的了解。如若接到需求的第一负责人无法第一时间分身解决问题,则必须在最短时间内找到可交接的其他同事,让其成为第一负责人全面接手问题。通过第一负责人制,数据安全运维部可做到每个项目都有负责人,每个项目做到第一时间反馈。这种任务的快速分配,节省了大量因工作流程、交接而花费的时间,能够马上对医院提出的问题作出反馈,并采取行动。
除了处理紧急问题的“第一负责人”制度以外,为了加强内部沟通、相互了解工作内容及进行日常工作的安排,数据安全运维部还借用云端的日程管理软件,用“日志+看板”的方式进行工作汇报及安排。在“日志”中,数据安全运维部每位员工根据每日工作内容进行项目事项规划,将自己近期的工作内容及短期工作计划系统罗列出来。同时在“看板”中,向所有成员共享全部项目情况,将每个项目的第一负责人、背景、项目内容、项目进度进行实时更新提醒,如发生第一负责人转移,可保证交接同事已了解所有项目事情,快速接手。这给常常分散在各地的数据安全运维部人员提供了有效的沟通管理平台,大家在平台上安排工作事项、交流工作内容、分享工作经验、相互监督、保持工作节奏和效率。
“严重的故障是它的敌人,寂静无声的深夜是它的战场,坚守岗位的精神是它手里的利剑,服务医院的赤诚之心是它坚实的盾牌。”数据安全运维部就是这样一个默默奋战在幕后的英雄。未来,为了能够更好地担当医院系统的“后盾”,数据安全运维部将会定期开展技术主题的学习交流会,每期指定主题负责人,通过演讲分享经验,组织讨论来提升技术水平。除此之外,在业务方面,数据安全运维部还将致力于Oracle12c的升级,帮助医院实现真正的数据库云,更高地提升数据库的安全容灾及备份水平,给予医院系统更完善的保障。