联系我们

chucr@ahswan.com

热线电话

86-0556-2173435

下一代数据中心不拼芯片?

  跟着人工智能(AI)重塑各行各业,它对算力的巨大需求也正在从根本上重构数据中心架构。尤其是在大规划的练习和推理使命中,AI作业负载正不断应战GPU和加快器的极限,对衔接核算、内存和存储的互连技能提出史无前例的要求。这些由光纤与铜线构成的“神经网络”,现在和处理器自身相同重要。

  在全球最先进的数据中心中,AI基础设备已不再是由孤立服务器构成,而是需求巨大、严密耦合的核算集群,一起作为一个一致体系运作。这种从孤立核算向互联智能的改变,推动了AI互连技能的下一阶段演进。

  AI架构的互连体系结构类似于内存体系的层级体系——按衔接间隔、带宽、推迟和功耗进行区分。在底层,是Scale-up互连:它指的是在托盘或机架内直接衔接GPU和AI加快器(XPU)的高功能、超低推迟链路。跟着AI模型和练习集群的扩展,Scale-out网络接棒,衔接多个机架、通道乃至整座数据中心。再往上,则是数据中心互连(DCI),它将不同园区乃至不同地理位置的数据中心衔接起来。

  每一层都面对一起的应战与技能需求。要满意这些需求,需求一整套专门打造的光学与电气技能,以保证各层级的功能、能效与可扩展性。

  在Scale-up层,方针是在最低推迟下衔接GPU和XPU。该层传统依靠铜线处理计划,例如PCB上的导线或无源铜缆,但这类方法已挨近物理极限。跟着互连速度提高至200Gbps乃至更高,铜线在传输间隔、信号完整性和功耗方面逐步受限。

  处理计划来自光学技能。新式的线性可插拔光学(LPO)技能正在机架内部扩展带宽,一起坚持铜线的能效。LPO经过将信号处理使命转移至主机芯片,并协同规划电气与光学元件,完成功耗更低、推迟更小的即插即用光学代替计划。

  假如需求更严密的集成,近封装光学(NPO)与共封装光学(CPO)技能将光学组件直接放置在XPU封装旁或封装内部。这种方法简直消除了XPU与光引擎之间的电气链路,不只下降功耗,还提高带宽密度。特别是CPO,有望将集群规划从几十个XPU扩展到数百乃至上千个,且功能更可猜测、体系功耗更低。

  当AI集群从单个机架扩展到多个排布和单元时,Scale-out互连成为将总体系织造起来的“光学织布机”。这一层的互连多依靠于PAM4调制的光DSP,要求在数十到数百米间隔上供给超高带宽、低推迟和高可靠性。

  今日,PAM4 DSP是全球最先进的以太网与InfiniBand网络的中心,使AI作业负载能够在交换机与节点之间无缝活动。跟着带宽需求每两年翻一番,DSP正不断进化——走向3nm制程、每通道200Gbps信号速率,支撑1.6Tbps光模块乃至更高带宽。

  关于分布式AI园区,简化版相干光(coherent-lite)技能正在鼓起。它比PAM4支撑更远间隔(2–20公里),但本钱与功耗又远低于传统的相干体系。运转于O波段的coherent-lite DSP可将园区内不同楼宇衔接起来,协助运营商打破单一设备内的功率与空间约束。

  当AI集群逾越园区规划,数据中心互连(DCI)技能开端发挥作用,衔接跨城市乃至跨洲的核算集群。相干ZR光学技能在此占有主导地位,例如800G ZR/ZR+模块可完成高达2500公里的多Tbps衔接。

  这些相干链路使用密布波分复用(DWDM)和先进调制技能最大化光纤使用率,是在坚持实时功能与冗余性的一起,完成AI集群跨地域扩展的要害。

  在AI年代,没有单一的互连技能能满意一切需求。相反,铜线、LPO、CPO、PAM4、coherent-lite与coherent ZR等技能将一起构建一套分层、优化、针对性强的互连体系。

  它们的一起方针是:打造一个可扩展、高能效、高功能的AI基础设备。转向光学互连的趋势正加快蔓延至每一层,不只是为了带宽,还未处理功耗、散热与带宽密度这些在AI规划下至关重要的问题。

  未来,芯片厂商、开发者与云服务运营商有必要协作共创,把互连从“隶属组件”变为体系架构的中心支柱。

  跟着AI持续快速的提高,咱们我们能够明晰地看到,AI的未来不只仅取决于更快的芯片,更取决于更强的衔接才能。而在这场比赛中,真实的赢家将是那些跳出硅片思想、拥抱光纤与新架构的人。

和为贵 智为上 信为本 勤为力

Harmony is precious, wisdom is supreme, faith is the foundation, diligence is strength.