导航栏

×
申请书 > 工作总结 > 导航

综网中心工作总结

去年夏天那阵子,南郊几个社区的网络投诉像炸了窝,监控画面一卡一卡的,报修电话从早响到晚。我带着笔记本去现场蹲了两天,起初怀疑是设备性能不够,后来打开机柜门,一股热浪扑面而来,里面的线缆缠得跟蜘蛛网似的,光纤收发器叠在一起,散热孔堵得严严实实。测了一下温度,机箱内部五十八度,设备不降频才怪。

这事让我记到现在。今天聊聊这一年踩过的坑,有些填上了,有些还在那儿搁着。

先说那个把我从凌晨三点被窝里拽出来的代码故障。三月上线的新流量调度模块,上线前我盯着压力测试数据看了两天,峰值CPU才到百分之六十,内存稳得像条直线,心想妥了。结果第三天半夜值班电话打过来,说模块假死,手工重启才恢复。我顶着大太阳跑到单位,翻日志,啥异常都没有。后来盯着监控曲线看了四个小时,发现内存占用每过一个小时就往上跳一小截,像爬楼梯似的,爬到顶就跌下来,周而复始。这才反应过来,是缓存清理的逻辑有问题——我写的清理函数会在负载低的时候一次性把过期数据全干掉,但负载一直中等,它就一直不触发,直到内存碎片堆到临界点,系统响应超时。

改那段代码折腾了两天,最后把单次清理拆成分批次、按优先级的渐进式清理,又加了一个内存碎片整理线程,负载到百分之五十就自动开始整理。现在这模块跑了快一年,再没出过幺蛾子。这次之后我养成个习惯:但凡核心代码,不光要测峰值,还得挂上百分之六十的负载跑满二十四小时,盯着内存曲线看有没有锯齿。

再说机柜的事。那次南郊的机柜过热,我把施工队长叫过来,现场拆开柜门,指着堵死的散热孔说:“你们自己看看,这是按规范走的线吗?”队长脸都红了,嘟囔着说赶工期,线缆绑得紧了点。后来我把所有在建站点的机柜捋了一遍,发现不光是线缆问题——有的机柜接地线螺丝没拧紧,用万用表一量,对地电阻快两欧了;有的电源线和网线走同一个线槽,干扰得一塌糊涂。

我当时的做法是拉了个群,把施工队、监理、运维全拽进来,编了一份《现场施工工艺自查表》,就一张A4纸,列了二十项:网线弯曲半径不小于线径四倍、电源线与信号线间距大于五厘米、接地螺丝扭力打到多少牛米……施工队做完一段,自己在表上打勾拍照发群里,监理抽查,我随机去现场翻柜子。下半年几个新站点验收,一次通过率明显高了,投诉电话里跟施工质量相关的,几乎没了。

但这事我想了又想,光靠一张表管不了长远。后来跟设计那边吵了一架——他们出的图纸,机柜里设备位置标得密密麻麻,散热空间压根没考虑。我说你们这样画,工人只能硬塞。最后硬是把机柜选型改了,换成前后通风、带风扇的型号,设备间距也留足了。现在想想,现场的问题,根子往往在上游。

再说一个把我折腾了两周的怪故障。八月份有个站点的核心交换机,每三天准时重启,日志干干净净。换了电源模块,没两天又重启;换了主板,还是三天。我带着万用表在机房蹲了一整天,测电压,稳得很。后来无意间跟电工师傅聊天,他说这栋楼的老旧UPS有时候嗡嗡响。我借了个手持示波器,夹在UPS输出端一看,波形都成锯齿了。原来是市电波动时,UPS虽然还在供电,但输出波形畸变得厉害,交换机电源适配器吃不消,时间长了就死机。

这事给我上了一课:以前排查故障,眼睛只盯着设备本身,没想到从市电入口到设备电源口,中间那几十米线、几个接头、一个UPS,每个环节都可能埋雷。现在遇到疑难杂症,我第一件事是画链路图,把电源、网络、信号全画出来,然后分段测,一个接头一个接头拧过去。

还有验收的事。之前参与一个项目验收,测了业务通不通,就签字了。后来运维的兄弟跟我说,那批设备远程登录老失败。一查,是施工时网管VLAN配错了,但业务VLAN正常,验收时根本没测管理通道。我脸都绿了,赶紧重新编验收用例,把“主备电源切换时业务会不会闪断”“网管通道在业务满载时还能不能登录”全加进去,还特意录了个操作视频发群里,让所有验收人员照着做。

不过也有到现在还没解决的。老城区的几个站点,接地电阻年年超标。今年挖开地面一看,当年的地网早就锈断了,重新做要破路、要协调市政,预算几十万,报上去到现在没批。只能临时打了几个深接地极,勉强把电阻压到合格线,但心里清楚,这是凑合。明年开春还得接着跑这事,看能不能拉上电力部门一起想办法。 [高分范文网 m.977139.Com]

一年下来,最大的体会是,干我们这行,怕的不是问题多,怕的是问题被表面的假象盖住。写代码也好,拧螺丝也罢,最可靠的往往不是经验,是那些看起来麻烦、但能把每个关键点卡死的笨办法。明年,我打算在设备选型上多花点心思,把散热、噪音、功耗这些细节也塞进采购清单,别等上了线再后悔。

    为了您方便浏览更多的工作总结网内容,请访问工作总结

文章来源://m.swy7.com/a/5322806.html

更多
L

猜你喜欢

更多
N

最新更新

更多
H

推荐访问