亚洲不卡av一区二区三区,强姦无码国产精品,欧美日韩国产成人一区二区

Meta 構(gòu)建分布式 RoCEv2 網(wǎng)絡(luò)：探索串聯(lián)數(shù)萬片 GPU 訓(xùn)練 AI

來源：互聯(lián)網(wǎng) 發(fā)布日期：2024-08-07 14:40:32 瀏覽：10199次

導(dǎo)讀：IT之家 8 月 7 日消息，Meta 公司于 8 月 5 日發(fā)布博文，表示為了滿足大規(guī)模分布式 AI 訓(xùn)練對網(wǎng)絡(luò)的需求，構(gòu)建了基于 RoCEv2 協(xié)議的大規(guī)模 AI 網(wǎng)絡(luò)。 RoCEv2 的全稱是 RDMA Over Converged Ethernet version 2，是一種節(jié)點(diǎn)間通信傳輸方式，用于大部分人工智...

IT之家 8 月 7 日消息，Meta 公司于 8 月 5 日發(fā)布博文，表示為了滿足大規(guī)模分布式 AI 訓(xùn)練對網(wǎng)絡(luò)的需求，構(gòu)建了基于 RoCEv2 協(xié)議的大規(guī)模 AI 網(wǎng)絡(luò)。

RoCEv2 的全稱是 RDMA Over Converged Ethernet version 2，是一種節(jié)點(diǎn)間通信傳輸方式，用于大部分人工智能容量。

Meta 公司已成功擴(kuò)展了 RoCE 網(wǎng)絡(luò)，從原型發(fā)展到部署了眾多集群，每個(gè)集群可容納數(shù)千個(gè) GPU。

這些 RoCE 集群支持廣泛的生產(chǎn)型分布式 GPU 訓(xùn)練工作，包括排名、內(nèi)容推薦、內(nèi)容理解、自然語言處理和 GenAI 模型訓(xùn)練等工作負(fù)載。

Meta 公司為分布式 AI 訓(xùn)練專門建立了一個(gè)專用的后端網(wǎng)絡(luò)，能夠獨(dú)立于數(shù)據(jù)中心網(wǎng)絡(luò)的其他部分進(jìn)行發(fā)展、運(yùn)行和擴(kuò)展。

訓(xùn)練集群依賴于兩個(gè)獨(dú)立的網(wǎng)絡(luò)：前端（FE）網(wǎng)絡(luò)用于數(shù)據(jù)攝娶檢查點(diǎn)和日志記錄等任務(wù)，后端（BE）網(wǎng)絡(luò)用于訓(xùn)練，如下圖所示:

Meta 構(gòu)建分布式 RoCEv2 網(wǎng)絡(luò)：探索串聯(lián)數(shù)萬片 GPU 訓(xùn)練 AI

訓(xùn)練機(jī)架連接到數(shù)據(jù)中心網(wǎng)絡(luò)的 FE 和 BE。FE 的網(wǎng)絡(luò)層次包括機(jī)架交換機(jī) (RSW)、結(jié)構(gòu)交換機(jī)（FSW）等，其中包含存儲(chǔ)倉庫，為 GPU 提供訓(xùn)練工作負(fù)載所需的輸入數(shù)據(jù)。

Meta 構(gòu)建分布式 RoCEv2 網(wǎng)絡(luò)：探索串聯(lián)數(shù)萬片 GPU 訓(xùn)練 AI

后端結(jié)構(gòu)是一個(gè)專門的結(jié)構(gòu)，它以無阻塞的架構(gòu)連接所有 RDMA 網(wǎng)卡，無論它們的物理位置如何，在集群中的任意兩個(gè) GPU 之間提供高帶寬、低延遲和無損傳輸。

Meta 構(gòu)建分布式 RoCEv2 網(wǎng)絡(luò)：探索串聯(lián)數(shù)萬片 GPU 訓(xùn)練 AI

為了應(yīng)對 LLM 模型訓(xùn)練對 GPU 規(guī)模的需求，Meta 設(shè)計(jì)了聚合訓(xùn)練交換機(jī)（ATSW）層，將多個(gè) AI 區(qū)域互連起來。此外，Meta 還優(yōu)化路由、擁塞控制等方面，以提升網(wǎng)絡(luò)性能。

IT之家附上參考地址

Meta 構(gòu)建分布式 RoCEv2 網(wǎng)絡(luò)：探索串聯(lián)數(shù)萬片 GPU 訓(xùn)練 AI
來源：互聯(lián)網(wǎng) 發(fā)布日期：2024-08-07 14:40:32 瀏覽：10199次

相關(guān)內(nèi)容

AiLab云推薦

最新資訊

本月熱點(diǎn)

熱門排行

推薦內(nèi)容

在線客服

熱門欄目HotCates

關(guān)于我們

版權(quán)聲明