导航栏

×
申请书 > 工作总结 > 导航

【推荐】正在组织部门运维个人工作总结

这一年,手上的几个核心系统没出过大乱子,但小毛病断断续续。组织部门的信息系统,直接服务干部和人才,出个故障就是耽误人家正事。所以这份总结,我不谈虚的,就说说怎么跟那些故障死磕,磕出了哪些教训。

先说四月份那次数据迁移,差点翻车。全市干部培训系统要升级,选了周六凌晨两点动手,以为人少影响小。备份、迁移、校验,每一步都按脚本走,数据导进去后登录一看,页面能打开,菜单能点,就宣布完成了。结果周一上午,业务处室打电话过来,说有些培训记录的附件打不开了。赶紧查,发现是附件路径映射的脚本没适配新环境,导致部分链接失效。当时冷汗都下来了,好在有全量备份,立刻回滚,半小时恢复。但那个周末基本没睡,反复查原因。

事后复盘,问题表面是脚本兼容性没测全,根子是我只盯着“数据能不能导进去”,没想过“导进去之后系统还是不是原来那个系统”。从那以后,我养成了个习惯:每次操作完,不光看功能通不通,还要看数据是不是完整的、关联有没有断。更重要的是,我开始主动去看那些平常不看的监控曲线——比如凌晨的系统负载、磁盘读写延迟、数据库连接数。有天夜里,我发现一个培训报名模块的响应时间每隔一小时就飙一下,虽然没报警,但顺着查下去,是定时任务把日志写满了缓存。这种提前动手的习惯,就是那次惊吓换来的。

六月份遇到一个更隐蔽的问题。有个干部信息查询系统,每天上午十点左右准时卡成狗,持续十来分钟自己又好了。我和同事查了半个月,网络、服务器、代码全翻了一遍,愣是没找到原因。最后我索性搬了把椅子,坐在使用最频繁的那位同事旁边,看他怎么操作。结果发现,他每天上班第一件事,是把全处室一周的查询任务攒在一起,十点准时用Excel导入批量查。一次开五个窗口,每个窗口都要调不同数据库,直接把IO堵死了。

技术上加个查询队列限制就解决了,但我琢磨的是:为什么他会这么操作?因为没人告诉过他哪种查询方式对系统最友好。后来我找他聊,他也委屈,说没人说不能这么干,图省事。于是我们和业务处室一起,写了一份《高频查询操作注意事项》,不是技术文档,就是大白话:什么时间段适合跑什么查询,一次最多开几个窗口,遇到报错怎么处理。发下去之后,再没出现过十点卡顿。这件事让我明白,很多故障的根子不在代码,在规矩——没把使用的规矩定清楚,再硬的机器也扛不住人的习惯。 (FZ76.CoM 工作计划之家)

验收环节也踩过坑。八月份验收一批档案数字化硬件,合同里写“高可用存储架构”。厂商演示了双机热备,一切正常。我多问了一句:“模拟坏一块硬盘看看。”结果一拔盘,系统倒没停,但数据重建速度慢得离谱,比他们承诺的慢四倍。这意味着,如果真坏了盘,重建期间再坏一块,数据就悬了。我坚持让厂商返工,他们开始不乐意,说合同没规定重建速度。我说,合同是没写,但“高可用”三个字,不能只是个词。最后他们调整了RAID策略和热备盘,重建速度正常了。

打那以后,我给自己定了个死规矩:凡是我验收的系统,必须测试“不正常的时候”什么样。不止看正常功能,还要看故障容错、数据恢复、压力下的表现。上个月验收备份系统,我要求他们真恢复一次数据试试,结果发现磁带机里根本没数据——备份策略配错了。这个规矩,堵住的可不止一个隐患。

零零碎碎做了这么多,其实就几条实在的习惯。一是每次处理完故障,24小时内写个简短复盘,发给相关同事,不写套话,就写什么时间、什么现象、怎么恢复的、以后怎么防。二是每周五下午把系统关键指标翻出来,专看那些异常毛刺,有次就是靠这个提前发现一个服务内存泄漏。三是隔段时间去业务处室坐半天,看他们怎么用系统,只有看见他们因为一个小按钮找不到皱眉,才知道该优化什么。

有人问我,干运维这么多年,最大的长进是什么。我觉得不是技术多牛了,而是学会了从系统的整个生命期看问题。故障越复杂,越得回到最基本的操作规范和维护流程上找答案。系统稳了,晚上睡得踏实,这就够了。

    需要更多的工作总结网内容,请访问至:工作总结

文章来源://m.swy7.com/a/5322936.html

更多
L

猜你喜欢

更多
N

最新更新

更多
H

推荐访问