展會信息港展會大全

面對智算時代的布線,康普勝券在握
來源:互聯(lián)網(wǎng)   發(fā)布日期:2024-10-21 14:52:24   瀏覽:459次  

導讀:人工智能尤其是AIGC生成式人工智能的興起,使得數(shù)據(jù)中心的格局發(fā)生了重要演變,以英偉達GPU計算集群為核心驅(qū)動力的智算中心(AI DC)迅速崛起。 和傳統(tǒng)數(shù)據(jù)中心相比,智算中心不僅注重服務(wù)器內(nèi)部GPU之間的內(nèi)部連接,更注重大量的服務(wù)器間的外部連接,設(shè)備間的大吞吐...

人工智能尤其是AIGC生成式人工智能的興起,使得數(shù)據(jù)中心的格局發(fā)生了重要演變,以英偉達GPU計算集群為核心驅(qū)動力的智算中心(AI DC)迅速崛起。

和傳統(tǒng)數(shù)據(jù)中心相比,智算中心不僅注重服務(wù)器內(nèi)部GPU之間的內(nèi)部連接,更注重大量的服務(wù)器間的外部連接,設(shè)備間的大吞吐量需求激增,這就對網(wǎng)絡(luò)和布線系統(tǒng)提出了嚴苛的要求。作為實現(xiàn)智算中心互聯(lián)互通的關(guān)鍵組成部分,網(wǎng)絡(luò)布線面臨著嚴峻的挑戰(zhàn)。

在康普企業(yè)網(wǎng)絡(luò)大中華區(qū)技術(shù)總監(jiān)吳健看來,挑戰(zhàn)主要集中在三個層面:網(wǎng)絡(luò)帶寬,延時還有能耗。智算中心網(wǎng)絡(luò)無疑正向著高帶寬、低延時、低功耗等方向發(fā)展,同時,高可靠性和高彈性也是重要趨勢。

康普企業(yè)網(wǎng)絡(luò)大中華區(qū)總經(jīng)理兼副總裁陳嵐

那么,該如何去評判布線系統(tǒng)是否優(yōu)質(zhì),以及這里面的標準是什么?圍繞這個疑問,康普企業(yè)網(wǎng)絡(luò)大中華區(qū)總經(jīng)理兼副總裁陳嵐和吳健一起,在主題為《智算中心網(wǎng)絡(luò)架構(gòu)與布線設(shè)計》的分享會上,詳盡闡述了優(yōu)質(zhì)的布線系統(tǒng)應(yīng)該是什么樣的,以及企業(yè)該如何去評判和選擇。

智算時代的高帶寬標準

布線系統(tǒng)的評價體系中,首當其沖的自然就是帶寬。AI需要大量的算力和快速的連接,因為算力和網(wǎng)絡(luò)連接能力之間是協(xié)同互動的。

康普企業(yè)網(wǎng)絡(luò)大中華區(qū)技術(shù)總監(jiān)吳健

智算服務(wù)器可以滿配8張GPU卡,它們之間的內(nèi)部帶寬可達900 Gbps,而要匹配上如此之高的內(nèi)部帶寬,外部服務(wù)器間的連接帶寬也要得到足夠的保證,那具體需要多少呢?“英偉達GPU基于強大的并行計算,而這種并行計算需要400 Gbps甚至800 Gbps的外部帶寬支持“,吳健表示。

可以說,智算中心機架間的布線需求大大推進了400 Gbps和800 Gbps的應(yīng)用進程,而以AI目前的發(fā)展態(tài)勢,超高速帶寬標準1.6 Tbps也在蓄勢待發(fā),投入應(yīng)用也只是時間問題,這就為高性能光纖光纜提供了巨大空間。

Propel平臺的模塊化架構(gòu)

陳嵐介紹到,綜合布線系統(tǒng)是基礎(chǔ)設(shè)施中的基礎(chǔ)設(shè)施,”康普擁有高性能高速率的光纖以及MPO等高密度的連接器件,且已經(jīng)為400 Gbps和800 Gbps做好了準備!

康普高速光纖平臺Propel

吳健則重點介紹了康普高速光纖平臺Propel。他表示,Propel平臺正是為應(yīng)對智算時代的種種挑戰(zhàn)而構(gòu)建的。其可以幫助客戶搭建高兼容性的可拓展框架,一開始滿足400 Gbps需求,而未來可無縫遷移到800 Gbps乃至1.6 Tbps,順利完成平滑過渡。

而這種高度擴展性與其模塊化的架構(gòu)密不可分。Propel支持雙工、四通道和八通道部署,以實現(xiàn)輕松擴展,預端接選項可最大程度減少現(xiàn)場出錯,并節(jié)省時間。另外,Propel還可節(jié)省規(guī)劃和部署的時間,確保光學性能和靈活性,以便快速調(diào)整配置。

兼容InfiniBand和RoCE

吳健還特別提到,康普布線系統(tǒng)可同時支持目前高性能計算集群所采用的兩種網(wǎng)絡(luò)技術(shù),英偉達旗下的InfiniBand和高速以太網(wǎng)RoCE。前者和英偉達深度綁定,性能更強,ChatGPT為代表的AI大模型就是英偉達公司基于InfiniBand構(gòu)建的。

但其相對成本也更高,高速以太網(wǎng)RoCE的性價比更為突出,傳輸性能距離InfiniBand也并不太遠,比如兩者的傳輸速率都在向800 Gbps和1.6 Tbps發(fā)展。

低時延和高可靠性的實現(xiàn)

Propel還具有低延時和高可靠性的特性。為什么低延時如此重要?這是因為,機器學習算法對鏈路延遲極為敏感。來自英偉達的內(nèi)部統(tǒng)計表明,大模型訓練有高達30%的時間花在了網(wǎng)絡(luò)延遲上。訓練大模型的成本本來就十分高昂,一旦出現(xiàn)網(wǎng)絡(luò)延遲,就意味著一筆巨大的折損費用。同時,“GPU的利用率也會明顯下降”,吳健介紹到。

而確保低延時的一個重要方案是使用高速多模收發(fā)器。因為它更適合數(shù)據(jù)中心的短距離連接,可以有效降低延時。同時,隨著傳輸數(shù)據(jù)的提升,多模光纖也從最早的OM1逐步演進到帶寬更大的OM5光纖。

高可靠性則體現(xiàn)在光模塊和MPO線纜的品質(zhì),高品質(zhì)可以保證數(shù)據(jù)在高速傳輸過程中不丟包。RDMA的丟包重傳機制導致帶寬利用率快速降低,當丟包率達到0.1%時,訓練效率會顯著下降。對此,擁有優(yōu)異光學性能的Propel就有了施展的舞臺。

Propel具有精準的接頭拋光、先進的光纖對準以及良好的工藝一致性,有利于提高工廠效率,保持一致的高產(chǎn)品質(zhì)量和清潔度。從而實現(xiàn)連接靈活性,擴展應(yīng)用的距離!霸谥撬銜r代,不允許出現(xiàn)任何丟包和損耗”,吳健強調(diào)。

低功耗的成本效益

吳健還特別強調(diào)了康普布線系統(tǒng)的低功耗特性。功耗是什么,是發(fā)熱量的元兇,是綠色節(jié)能的攔路虎,同時也是巨大的成本殺手。我們剛剛提到了多模光纖的低延時特性,實際上低功耗特性也是由它而來。

高速多模收發(fā)器的功耗比單模收發(fā)器要明顯少。吳健舉例到,一個400 Gbps的多模網(wǎng)卡大概是8瓦的能耗,而一個400 Gbps的單模網(wǎng)卡大概是12瓦,差了30%左右。對于大規(guī)模的AI集群,這個數(shù)量值就更可觀。NVIDIA的典型集群中,單個AI集群具有768個收發(fā)器,使用多模光纖的設(shè)置將節(jié)省不菲的功率。

這意味著,訓練成本和運營支出也大幅降低了。陳嵐進一步強調(diào),低功耗和節(jié)能環(huán)保息息相關(guān),而要做到這一點,結(jié)構(gòu)化布線非常重要,“雖然初次成本稍微高一點,但后續(xù)升級、擴展、維護的成本很低,并且生命周期很長。“

結(jié)語

作為基礎(chǔ)設(shè)施中的基礎(chǔ)設(shè)施,綜合布線對于智算中心有著舉足輕重的作用?灯兆鳛槿蚓W(wǎng)絡(luò)布線的領(lǐng)導者,以其豐富的解決方案和數(shù)字化管理工具,在智算時代,高效滿足高密度、高帶寬、低延遲、無損耗的算力傳輸需求,提高交付與運維管理效率。

目前,康普公司已擁有完備的綜合布線、蜂窩無線網(wǎng)絡(luò)和Wi-Fi無線解決方案,每年投入6億美元研發(fā)經(jīng)費。正是憑借持續(xù)的研發(fā)投入和客戶的持續(xù)青睞,康普已取得1.3萬項專利,并榮登美國財富500強之列。

贊助本站

相關(guān)內(nèi)容
AiLab云推薦
推薦內(nèi)容
展開

熱門欄目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能實驗室 版權(quán)所有    關(guān)于我們 | 聯(lián)系我們 | 廣告服務(wù) | 公司動態(tài) | 免責聲明 | 隱私條款 | 工作機會 | 展會港