机房刚冒出了个棘手情况:HP DL388 Gen9服务器居然直接“秒重启”了。运维工程师刚到现场,网线还没插上呢,这机器已经把自己关了三次机。现在显示屏是黑的,就剩个“正在启动”在晃悠,好不容易又按了下电源,系统才勉强亮起来。可瞧瞧那根健康指示灯,一直在那儿疯狂闪烁,POST码卡在F0不动弹。登录进去一看ILO界面,好家伙,跳出了一行鲜红的报错提示——“Battery Failure”。面对这种日志不全、报警乱套的乱摊子,团队赶紧定了个三步骤的策略:先保护数据,再动手换件。团队首先用SSA(Smart Storage Administrator)把阵列卡的配置、LUN的映射关系还有RAID的级别统统截图保存下来。这可是为了防止万一换了新卡之后老数据找不回来。接着安全关机,直接切断电源开关,把硬盘和阵列卡的连线统统拔掉,省得带电操作再把数据搞坏。最后准备搞双件替换,把原来那块坏掉的阵列卡和没电的电池一起给换掉。新拿出来的零件型号必须和旧的完全一样才行,免得又出兼容性问题导致二次故障。 新零件装上去以后工程师没急着通电。他先是在ILO里面盯着看健康灯灭了没有,接着进SSA里去瞅一眼阵列信息能不能自动导进去。对照之前拍的截图发现,LUN映射那部分一点差错都没有。心下有底了就按下启动键一试,系统一次就把POST给过了。此后再也没出现重启的情况。客户当场就把关键业务又迁回了这台服务器上跑了半小时看看效果?一切稳定得跟新的一样。 总结一下这个过程:这次重启故障其实就是“电池”和“阵列卡”两件东西在捣鬼。当系统日志只给个“硬件错误”却定位不出具体是哪儿坏的时候,优先把这两样排查一下往往能起到意想不到的效果——电池没电了缓存就掉了,系统会误以为是硬盘或者RAID出了问题,这才触发保护性重启。先备份数据、再替换旧件、最后进行验证——这套标准化动作把突如其来的故障变成了可以在实验室里复现的测试案例,既保住了数据又提升了干活的效率。