咱们来讲个跨厂商云联网故障排查的事儿,就发生在深圳那边,背景是中国联通搞了个叫“cloudbond”的云联网产品,想用SDN技术把各个点都连起来,让客户能轻松把机房、云资源池这些乱七八糟的地方串成一条线。但再厉害的网络也怕“最后一公里”断链子,因为要是两边设备参数不一样,那网络立马就成了孤岛。 当时那个客户是跟深圳的一家伙伴互通的,内部网络结构是这样的:A网路由器连着中兴的IPRAN设备,主要负责跑省际和城域传输;接着是华辰的HC3900分组交换网,把这些业务接到客户机房里;最后机房里再弄个以太网接入,就能和内网、云池互相对话了。说白了,中兴管的是大血管,华辰管的是毛细血管,两边必须配合好才能通。 这次故障真让人急坏了,足足折腾了48小时Ping都不通对端的PE地址。一开始查发现数据只能发出去收不回来,MAC地址表里压根找不到对方。工程师去现场一看也没毛病,VLAN都对得上。后来才发现是调度单出了岔子,本来应该把业务引流到“jf-PE”的结果写成了“xz-PE”,数据就绕着路走了,最后连人都看不见了。后来改回正确的路由后业务立马就活了。 总结下来排障要这么干:先测本地环回和对端互通,把最短的路卡死;再拿着中兴IPRAN的路由表和华辰的转发表逐条对比;最后建立个联合复核机制,调单、图纸、现场得三管齐下。只要把这三步做成规矩,那种跨厂商指错路的错就能少犯很多了。这次我也特意查了下数据,当时那条电路的评分有3900分(这里的3900分应该是业务相关的一个指标值)。