当前,智算数据中心进入高速建设发展的黄金周期,相比传统数据中心具备更复杂的组网架构和产品配置。作为数据传输的高速通道,端到端的光纤链路面临光模块和交换机端口的适配、光模块和光跳线的适配、光模块和服务器网卡的适配,设计选型时很容易步入各种误区,导致后期交付调试时面临链路故障,更换产品,交付周期延长,成本增加等一系列问题。
一、典型错误场景分析
1. 典型架构
主干链路的速率设计为400Gbps,Leaf交换机端口为400G QSFP112(Q112),服务器网卡CX7为2个200G QSFP56(Q56)端口,通过Y型(一分二)分支跳线进行互连。

2. 常见误区
按多模配置方案,设计采用主流光模块规格:交换机侧光模块选择400G Q112 SR4规格,服务器网卡侧选择200G Q56 SR4规格,导致链路端口无法UP。

3. 适配原则
光模块的主要作用是实现电信号和光信号之间的相互转换。光模块后端电通道通过金手指连接交换机或服务器网卡端口,光模块前端光通道通过光纤连接到对端光模块。光模块所连接的网络两端SerDes速率(单通道速率)必须一致才能实现通信,若不一致则需通过Gearbox模块进行速率转换;两端光模块之间的光链路总速率以及单通道速率同样必须一致。

二、光模块规格
1. 400G Q112 SR4光模块
400G代表链路传输速率为400Gbps;
Q112代表QSFP封装,电通道采用4路单通道112Gbps速率;
SR4代表采用4收4发8芯光纤,最大传输100米,光通道同样采用4路单通道112Gbps速率。

2. 200G Q56 SR4光模块
200G代表链路传输速率为200Gbps;
Q56代表QSFP封装,电通道采用4路单通道56Gbps速率;
SR4代表采用4收4发8芯光纤,最大传输100米,光通道同样采用4路单通道56Gbps速率。

三、故障诊断及解决方案
1. 问题分析
400G Q112 SR4光模块电通道Q112和交换机端口Q112适配;
200G Q56 SR4光模块电通道Q56和服务器网卡端口Q56适配;
400G Q112 SR4光模块光通道112Gbps和200G Q56 SR4光模块光通道56Gbps不适配。
按照适配原则,逐一进行适配。发现两端光模块光通道的速率不一致;400G Q112 SR4光模块需要8芯光纤,2个200G Q56 SR4光模块需要2x8=16芯光纤;因此,链路无法实现端到端连通。
2. 解决方案
参考适配原则,通过光模块调整SerDes速率,实现端到端通信。
解决方案一:
更换交换机规格,端口Q112改为QDD(Q56),采用400G QDD SR8光模块。服务器网卡和200G Q56 SR4光模块规格不变。
优点:56G SerDes技术更加成熟,成本较低,交换机整体成本下降。
缺点:除Leaf交换机外,其余上行交换机也需要更换成采用56G SerDes,如400G Q-DD。

解决方案二:
更换200G 光模块规格,200G Q56 SR4更换为200G Q56 SR2。交换机和400G Q112 SR4光模块规格不变。
优点:只需更改200G光模块规格,调整范围小。
缺点:光模块成本相对上涨较高。需要增加GearBox芯片,反向合路,即1条112G光通道拆分成2条56G电通道,光模块内的DSP和TIA均需订制。

解决方案三:
更换200G 光模块规格,200G Q56 SR4更换为200G Q112 SR2,支持112G SerDes。交换机和400G Q112 SR4光模块规格不变。
优点:200G光模块的光通道和电通道均采用112G速率,功耗低。
缺点:200G光模块成本上涨非常高,接近400G Q112光模块价格。

综上所述,参考光模块适配原则,通过调整光模块电通道和光通道速率,保证端到端总速率不变,根据实际应用需求,灵活调整产品选型配置方案。