Ggpoker官网

从尺度到落地:万兆园区,选以太彩光 丨 《万兆园区以太彩光钻研汇报》技术钻研会
date
预约直播
AI时期,医疗网络怎么建 丨 Ggpoker官网医疗极简以太彩光双超融合网络解决规划颁布
date
预约直播
Ggpoker官网-不凡成就非凡,相信品牌的力量
产品
< 返回主菜单
产品中心
产品
解决规划
< 返回主菜单
解决规划中心
行业
合作同伴
返回主菜单
选择区域/说话
Ggpoker官网-不凡成就非凡,相信品牌的力量

您订阅的产品有更新,请实时查阅

查看详情
Ggpoker官网-不凡成就非凡,相信品牌的力量 Ggpoker官网-不凡成就非凡,相信品牌的力量

技术盛宴|浅谈AIGC算力网络中LPO?榈募际跤攀

有网络的处所就会有光?榈睦,那么算力网络中会部署哪种光?槟?本文将萦绕光?槭,分析传统DSP?榈闹匾г,结合LPO技术进行失效能对比分析,会商LPO?榈挠攀频氐。

  • Ggpoker官网-不凡成就非凡,相信品牌的力量

    颁布功夫:2024-08-06

  • Ggpoker官网-不凡成就非凡,相信品牌的力量

    点击量:

  • Ggpoker官网-不凡成就非凡,相信品牌的力量

    点赞:

分享至

Ggpoker官网-不凡成就非凡,相信品牌的力量
Ggpoker官网-不凡成就非凡,相信品牌的力量
Ggpoker官网-不凡成就非凡,相信品牌的力量

我想评论

随着AI技术的迅猛发展,形形色色的AI利用走入各人的工作、进建和生涯傍边,好比Chatbot(谈天机械人)、虚构主播、AIPC(人为智能幼我电脑,Artificial Intelligence Personal Computer)等。为了让用户获取更好的利用履历,更快地响应时效要求,必要更好的大说话模型,更大规模的模型参数量。

相信各人也关注到,近期行业颁布的Llama 3.1 模型,参数规模已达到惊人的4050亿。

如此重大的模型训练离不开超大规模智算中心的支持,近期马斯克在社交平台上颁发:xAI公司已经起头在超等推算中心的“Supercluster”进行训练,该集群由10万个液冷H100 GPU组成,10万张GPU算力卡的互联必要高速网络通路。

随着智算中心集群规模的不休扩张,光市场已经占据数据中心越来越多的份额。在100G时期,光?楹屯绲谋壤嘉1:1;到了400G时期,光?楹屯绲谋壤湮7:3,光?樵诩褐械某烈圆谎远。本文将萦绕光?槭,分析传统DSP?榈闹匾г,结合LPO技术进行失效能对比分析,会商LPO?榈挠攀频氐。

 

一、算力网络中光?榈慕

谈到光?楦魅瞬换崮吧,有网络的处所就会有光?榈睦。那么算力网络中会部署哪种光?槟?

下图展示了目前智算中心RoCE以太网规划的主流网络架构,服务器端通过400G高速网卡接入到算力网络中,搭载51.2T互换芯片的数据中心互换机组成三级架构支持万卡以上的集群规模。

 

智算中心RoCE以太网规划的主流网络架构

 

不难看出智算中心对?樗俣鹊囊笠丫锏搅400G,互换机互联的部门甚至能够思考选取800G互联。

目前主流51.2T的互换芯片是112G SerDes,因而互换机侧的400G光?槎杂κ荙112的封装,网卡侧目前重要是OSFP的封装,部署时凭据距离选择对应长度的型号即可。

 

互换机网卡部署

 

二、DSP光?楣ぷ鞯览

以400G Q112 VR4?槲治鯠SP光?榈墓ぷ鞯览硪约案鞑考的关键作用。(SR、DR?榻峁雇即筇逡谎,只是所用的电光转换规划分歧,SR用VCSEL,DR用EML或者硅光) 

DSP光?楣ぷ鞯览

 

1、互换芯片发送4*112Gbps PAM4电信号进入光?橹

2、DSP芯片会将经过的电信号进行沉整形而后发到Driver端

3、Driver作为驱动将电信号传输到激光器处

4、VCSEL激光器把电信号转光信号并发到光纤

5、光信号经过光纤达到对端光?榈腜D光电二极管阵列后被转换成电信号

6、TIA将转换后的电信号进行信号放大并送到DSP芯片

7、DSP芯片再次将电信号进行沉整型后发送到互换机芯片上

 

三、光?槭苤副

失效能为何被关注

相较于互换机、服务器等设备,光?榈慕峁蛊涫凳潜攘Φヒ坏,但就是如此单一的光?樵谒懔ν缰幸彩侵凉爻烈拇嬖。固然单一?榈氖鼙攘Φ,但是放在万卡以上的集群中也会被放大数倍。?榈氖Щ嵩斐煽隙ǜ怕实墓收喜,故障又会导致训练业务的中断,沉新启动训练必要额表的耗时,无形中增长了集群的运营成本。因而光?榈氖鼙匾黄鞒疗鹄。

 

失效能指标界说

FIT(Failures In Time)失效能是一个衡量产品或系统在单元功夫内产生故障的频率的指标。它通常用来描述在一按功夫领域内,特定数量的产品或系统预计会出现几多次故障。FIT是一个无穷纲值,暗示的是每十亿幼时内的故障次数。例如,若是一个产品在10亿幼时内产生了100次故障,那么它的FIT失效能就是100 FIT。这暗示在观察的功夫段内,每十亿幼时能够预期会产生100次故障。

光?榈氖=?橹兴性骷失效能的求和,好比某个光?榈睦砺凼=155.63FIT,意味着在十亿幼时内能够预期会产生155.63次失效。

单一?椴淮问匾挠资笔=10亿/155.63≈8647744(幼时)换算成一个好理解的方式即为单个?樵8647744个幼时内会出现一次失效,单看这个数据感触?榈目康米⌒约雀,但放在整个集群中我们来看看具体数据。

 

光?槭苤副

 

如图所示,我们列举了分歧集群规模下所必要的光?槭恳约八泄饽?椴淮文?槭У木嗬牍Ψ,不难看出这是一个随着?槭勘浯蠖サ鞯菁醯暮。

单一?榈氖茉谕蚩ㄒ陨系募汗婺V斜环糯罅,理论上在32K卡的集群中或许每两天就会产生一次?槭,这样来看?榈氖芑故窍嗟敝档霉刈⒌。

 

导致光?槭鼙涠闹匾煞

有两个重要成分会引起失效能变动,一个是?槟诓康脑骷数量,另一个是?樽陨淼墓ぷ魑露。

具体变动关系是:

1、?樵骷越少,失效能越低

2、?楣ぷ魑露仍降,失效能越低

 

传统DSP光?槭芊治

传统DSP?楣婊谑芊矫婊勾嬖谝韵氯钡悖

1、?樵骷多、工作温度高:DSP?椴唤鲇蠨SP芯片,还蕴含周边的晶体振荡器、Flash、电源等一系列芯片,且功耗占比超过50%,会显著提升?榈墓ぷ魑露。

2、?樵骷自身失效能高:DSP?槿羰茄∪ML或VCSEL规划,会蕴含多颗分离的III-V族激光器,而激光器自身的失效能就会偏高。

基于以上分析能够看到导致DSP?槭У闹匾蚴瞧骷数量多、工作温度高,好比DSP及周边芯片、EML/VCSEL激光器等。要想降低?榈氖芑故堑么颖驹饩鑫侍,下面我们来介绍一下LPO(Linear-drive Pluggable Optics)?楣婊。

 

四、LPO光?榻饩龉婊

LPO? 

LPO? 

LPO ?槿サ袅舜矰SP?橹械腄SP芯片,利用互换芯片中DSP进行电信号的处置,?榈毖∪⊥ɡ艿腄river和TIA芯片,并选用相宜的电光转换规划,即能够实现优异的传输机能。电光转换部门能够选取VCSEL、EML或者硅光规划,硅光拥有更好的线性度、更低的电反射。为了保险供给以及更高的靠得住性,Ggpoker官网网络选取了硅光技术规划。更多LPO基础概想的介绍能够参考往期文章揭秘智算中心网络建设新利器:LPO技术的出现。

 

LPO?槭芊治 

LPO?槭芊治 

LPO?槭芊治

 

上述图表展示了400G?樵谝谎?楣ぷ魑露55°C情况下,分歧技术规划的失效能比例关系D芄豢吹皆谝谎?楣ぷ魑露认,LPO+硅光规划的失效能更低,其他规划失效能为LPO+硅光规划的1.31~2.34倍左右。

这样的对譬喻式是从理论上评估分歧?榈氖,因而会节造工作温度维持不变。而在现实部署中,LPO+硅光?榈墓ぷ魑露认嘟嫌贒SP规划会更低,因而失效能能够得到进一步的降低。 

壳温对比

 

如上图所示,在一样的环境温度情况下,LPO?榈工作温度比DSP?橐15°C左右。 

Radom Failure Rate VS Temperature 

结合上述图表,能够看到LPO?槲露却55°C降低到40°C后,失效能降落了50%,具备更高的靠得住性。 

400G DR4/SR4 Radom Failure Rate @ CL=60% 环境温度一样 

从现实部署场景来看,将分歧技术规划的400G?榉旁谝谎环境温度下进行对比,可能看到LPO+硅光规划的失效能得到进一步降低,这就是?楣ぷ魑露较低带来的收益。

 

总结

基于以上理论分析结合现实数据来看,LPO+硅光的规划相较于其他规划而言失效能是较低的。主题原因在于以下两点:

1、移除DSP芯片:去掉DSP芯片后能够较大幅度降低?楣ぷ魑露,降低因高温给激光器带来的影响。

2、选取硅光技术:如下图所示,光电转换部门选取硅光规划后能够让硅光芯片掌管信号调造,Laser仅必要提供直流光,无需调造信号。对比EML规划必要4个激光器以及TEC,硅光规划的Laser只必要1个,削减了?樵骷的数量,降低失效能。

 

选取硅光技术 

 

五、LPO光?榛懿问

只具备更低的?槭芑共患耙匀肔PO?榇鍰SP?,我们还应评估光?榈目捎眯,也就是关注BER(误码率)和SEN(活络度),这两个指标的机能参数必要能达到和谈门限的尺度。

 

光?锽ER&SEN评估步骤 

光?锽ER&SEN评估步骤 

通过调节光衰减的大幼,得到分歧RX光功率下的BER,将所有测试了局汇总到一路绘造成BO曲线。 

Ggpoker官网-不凡成就非凡,相信品牌的力量 

当光功率一向调。ㄍ急碇泻嶙晗蜃蟮髡飨颍,直到BER蹬宗FEC门限划定的2.4e-4(图表中纵坐标向上调整趋向)时,纪录此时的光功率就是光?榈幕盥缍龋⊿EN)。通常的BER都是在没有加光衰减器的情况下测试的,即在BER error floor区间测试的了局。

SEN越幼注明光?樵侥苋萑谈椎墓夤β,对现实的部署有比力大的援手,好比由于接头脏污、发端光功率变幼、光纤接头插损大等会造成光功率变幼的情况。

 

LPO DR?榈幕懿问

以下是分歧规划?樵诔N露滔顺【爸械牟馐允 

Ggpoker官网-不凡成就非凡,相信品牌的力量 

从BER图表数据能够看到以下景象:

1、LPO DR?榈腂ER和和谈门限相迸仔5个数量级的余量。

2、LPO DR与DSP+硅光规划的BER参数靠近,且优于DSP+EML规划 2~3个数量级。 

Ggpoker官网-不凡成就非凡,相信品牌的力量 

从SEN图表数据看到以下景象:

1、LPO DR?榈腟EN和和谈门限相迸仔3.5dB的左右余量。

2、三种规划在SEN参数方面相差不大。

 

基于以上景象能够得出结论:LPO+硅光机能参数靠近DSP+硅光,优于DSP+EML规划,因而能够代替现有的DSP DR规划。

 

六、LPO光?榈钠渌找

LPO光?槌烁呖康米⌒约案呖捎眯哉饬降惚,在其他维度也具备肯定的价值收益。

1、更低功耗:去掉DSP芯片后,光?榈淖畲蠊哪芄唤档51.3%左右,低于4W(壳温70℃测试)。 

LPODR4 VS DSP DR4?楣亩员

 

2、更低时延:?橹猩倭薉SP芯片,削减一跳,时延能够降低95%,满足更低延长的利用场景。 

LPODR4 VS DSP DR4?槭毖佣员

 

3、优良供给:传统DSP?榈腄SP芯片和VCSEL激光器目前供给比力严重,且交期比力长,大规模交付有供给风险。LPO?楣婊サ袅薉SP芯片,并且选取硅光技术,预防使用供给严重的DSP芯片和VCSEL芯片,在肯定水平上躲避了关键器件的供给风险。

 

七、Ggpoker官网LPO光?椴 

Ggpoker官网-不凡成就非凡,相信品牌的力量 

Ggpoker官网-不凡成就非凡,相信品牌的力量

 

Ggpoker官网网络聚焦AIGC算力网络场景规划设计了三款LPO DR的自研光?,满足以下三种网络架构的互联需要。

 

Ggpoker官网-不凡成就非凡,相信品牌的力量

 

目前在共同各大厂进行适配测试工作,敬请等待。

Ggpoker官网网络,作为GenAI时期的全栈服务专家,致力于为企业提供覆盖IaaS到PaaS的全栈产品及解决规划。Ggpoker官网产品覆盖高机能网络与GPU算力优化调度,旨在通过创新技术解决规划,援手客户实现出产效能的飞跃与运营成本的优化。我们坚信,通过Ggpoker官网致力,可能为客户打造一个越发智能、高效和靠得住的将来。让我们携手,共同索求AI时期的每一个机缘。

有关标签:

Ggpoker官网-不凡成就非凡,相信品牌的力量 Ggpoker官网-不凡成就非凡,相信品牌的力量

点赞

更多技术博文

任何必要,请联系Ggpoker官网

Ggpoker官网-不凡成就非凡,相信品牌的力量

返回顶部

收起
Ggpoker官网-不凡成就非凡,相信品牌的力量 文档AI副手
Ggpoker官网-不凡成就非凡,相信品牌的力量 文档评价
ev-close ev-close-m
该资料是否解决了您的问题?
ev-close ev-close-m
您对当前页面的中意度若何?
不咋滴
极度好
dark-star dark-star dark-star dark-star dark-star
ev-close ev-close-m
您中意的原因是(多。?
您对文档是否还有其它的问题或建议?
为尽快解决问题,请您留下联系方式以便回复
邮箱
手机号
ev-bg
感激您的反。
Ggpoker官网-不凡成就非凡,相信品牌的力量
Ggpoker官网-不凡成就非凡,相信品牌的力量
Ggpoker官网-不凡成就非凡,相信品牌的力量
请选择服务项目
关关征询页
售前征询 售前征询
售前征询
售后服务 售后服务
售后服务
定见反馈 定见反馈
定见反馈
更多联系方式
【网站地图】