騰訊云副總裁王亞晨
隨著大模型的火熱持續(xù)迭代,AI基礎設施愈發(fā)成為云廠商的核心競爭力之一。
7月1日,騰訊宣布其自研星脈高性能計算網(wǎng)絡全面升級,升級后的星脈網(wǎng)絡2.0搭載全自研的網(wǎng)絡設備與AI算力網(wǎng)卡,支持超10萬卡大規(guī)模組網(wǎng),網(wǎng)絡通信效率比上一代提升60%,讓大模型訓練效率提升20%。這意味著,如果原來訓練中某個計算結果的同步需要花100秒完成,現(xiàn)在只需要40秒;原來需要花50天訓練的模型,只需要花40天。
AI大模型就像是一場F1比賽,騰訊云專門設計了星脈高性能算力網(wǎng)絡“賽道”,并自研了TiTa和TCCL網(wǎng)絡協(xié)議作為“賽事指揮中心與專業(yè)車隊”,共同讓“騰訊云高性能計算集群HCC的GPU服務器”這臺馬力強大的F1賽車發(fā)揮最大的算力性能,助力客戶在AI大模型的競爭中遙遙領先。
AIGC的火熱推動著AI大模型參數(shù)量從億級到萬億級的飆升。模型參數(shù)規(guī)模與架構升級對底層網(wǎng)絡網(wǎng)絡也提出了新的要求。
為支撐AIGC中海量數(shù)據(jù)的大規(guī)模訓練,大量服務器通過高速網(wǎng)絡組成大規(guī)模算力集群,互聯(lián)互通,共同完成訓練任務。
然而,集群規(guī)模越大,所產生的通信損耗會越高;同時,AI訓練的通信模式,與傳統(tǒng)的通信模式差異較大,不同大模型架構也存在著通信模式的差異。部分大模型訓練過程中通信占比最大可達50%。同時,分布式計算模式也意味著,單點的故障將導致整個集群不可用,因此在故障的時候需要快速定位與恢復訓練,把損失降到最低。
如何在大規(guī)模組網(wǎng)前提下,提升通信效率、降低通信占比,讓訓練穩(wěn)定高可用,進而提升GPU的利用率和模型訓練效率,是AI網(wǎng)絡要解決的核心問題。
數(shù)據(jù)顯示,星脈網(wǎng)絡2.0可實現(xiàn)大模型訓練過程中,網(wǎng)絡通信占比(通信時間占總體時間比例)低至6%,遠低于10%的業(yè)界水平;通信負載率達到90%,與IB網(wǎng)絡(Infiniband)持平,相較于標準以太網(wǎng)提升60%。整體能力處于業(yè)界頂尖水平。
四大組件全面升級,助力AI訓練提速
騰訊自研星脈網(wǎng)絡是一套軟硬協(xié)同的高性能網(wǎng)絡體系,包括自研網(wǎng)絡設備、通信協(xié)議、通信庫以及運營系統(tǒng)四大關鍵組件,每個組件均采用了業(yè)界首創(chuàng)的騰訊核心技術。
硬件方面,騰訊星脈網(wǎng)絡是業(yè)界首個采用全自研網(wǎng)絡設備的高性能網(wǎng)絡,包括交換機、自研光模塊、網(wǎng)卡等。自研交換機從25.6T容量升級到51.2T,同時在業(yè)界率先引入400G硅光模塊,速率翻倍,讓網(wǎng)絡延遲降低40%,支持超10萬卡大規(guī)模組網(wǎng)。
值得注意的是,星脈網(wǎng)絡2.0支持搭載騰訊自研的全新算力網(wǎng)卡,這是公共云業(yè)內首款為AI訓練設計的網(wǎng)卡,網(wǎng)卡采用最新一代 FPGA 芯片,整卡帶寬可達400Gbps,具備業(yè)界最高的3.2T整機通信帶寬。該自研算力網(wǎng)卡運行著新一代騰訊自研通信協(xié)議TiTa,并搭載了騰訊獨有的主動擁塞控制算法。
相比起上一代,TiTa協(xié)議2.0從部署在交換機轉移到了端側的網(wǎng)卡上,從原來的被動擁塞算法升級到了更為智能的主動擁塞控制算法,可主動調整數(shù)據(jù)包發(fā)送速率,從而避免網(wǎng)絡擁堵;并通過擁堵智能調度,實現(xiàn)網(wǎng)絡擁塞快速自愈。這讓混合專家(MoE)模型訓練下網(wǎng)絡通信性能相比1.0提升30%,帶來訓練效率10%的提升。
專為星脈網(wǎng)絡設計的高性能集合通信庫TCCL,也進行了升級。通過創(chuàng)新的NVLINK+NET異構并行通信、Auto-Tune Network Expert自適應算法等通信庫的升級,在MoE模型訓練下,給星脈網(wǎng)絡帶來了30%的通信效率提升,讓模型訓練效率提升10%。
TCCL 對外的接口跟原生通信庫接口完全一致的,主流AI大模型客戶不需要額外適配,只需要替換通信庫就可以發(fā)揮星脈的能力。
通信協(xié)議TiTa與通信庫TCCL的升級帶來的效果疊加,讓星脈網(wǎng)絡的通信效率提升60%,MoE大模型訓練效率提升20%。
網(wǎng)絡的故障或任何單點的故障,將導致整個集群不可用,讓模型訓練暫停。因此,網(wǎng)絡的高可用、穩(wěn)定性也極為重要。為確保星脈網(wǎng)絡的高可用,騰訊云自研了端到端的全棧網(wǎng)絡運營系統(tǒng),這也是星脈網(wǎng)絡第四大關鍵組件。
運營系統(tǒng)2.0新增騰訊獨家技術靈境仿真平臺,從原來僅能定位網(wǎng)絡問題,到可定位GPU節(jié)點問題,實現(xiàn)萬卡級訓練故障卡頓、慢節(jié)點分鐘級定位。這對星脈網(wǎng)絡進行了360度無死角的立體監(jiān)控,可以更快發(fā)現(xiàn)與定位網(wǎng)絡問題,讓整體故障的排查時間再次大幅縮短,故障時盡快恢復續(xù)訓。
打造最適合大模型的云
目前,騰訊云已經面向AIGC場景推出了基于星脈網(wǎng)絡的大模型訓練集群HCC、AIGC存儲解決方案、向量數(shù)據(jù)庫以及行業(yè)大模型服務MaaS、天御AIGC內容安全解決方案等大模型全鏈路云服務。超過80%的頭部大模型企業(yè)使用了騰訊云服務。
大模型訓練集群在HCC將高性能云服務器作為節(jié)點,滿配最新代次的GPU,節(jié)點之間通過自研星脈網(wǎng)絡互聯(lián),提供高性能、高帶寬和低延遲的一體化高性能計算產品。
騰訊云AIGC云存儲解決方案是國內首個實現(xiàn)存儲引擎全面自研的云存儲解決方案,可將大模型的數(shù)據(jù)清洗和訓練效率均提升一倍,需要的時間縮短一半。
騰訊云向量數(shù)據(jù)庫Tencent Cloud VectorDB每日支撐超過3700億次向量檢索請求,可支持千億級向量規(guī)模存儲,百萬級 QPS 及毫秒級查詢延遲,適用于大模型的訓練推理、RAG場景、AI應用以及搜索推薦服務,實現(xiàn)企業(yè)數(shù)據(jù)接入AI的效率比傳統(tǒng)方案提升10倍。
騰訊云打造了天御AIGC全鏈路的內容安全解決方案,提供包含數(shù)據(jù)服務、安全專家、機器審核、版權保護、客戶體驗管理五大服務體系,護航企業(yè)從模型訓練到事后運營全過程的內容安全建設。
同時,在自身AI基礎設施支撐下,騰訊自研的通用大模型騰訊混元大模型也在持續(xù)迭代。
借助基于星脈網(wǎng)絡的大模型訓練集群HCC、Angel機器學習平臺等自研底層技術,騰訊搭建起萬卡AI訓練集群,可以用更少的資源訓練更大的模型,訓練速度是主流框架的2.6倍;推理成本相比業(yè)界主流框架下降70%,并且支持國產主流硬件的適配。
騰訊混元已擴展至萬億級參數(shù)規(guī)模,采用混合專家模型(MoE)結構,在通用基礎能力和專業(yè)應用能力方面處于國內主流大模型領先地位。無論是企業(yè)客戶還是個人開發(fā)者,都可以通過騰訊云上API直接調用騰訊混元,實現(xiàn)更便捷的智能化升級。騰訊還聯(lián)合生態(tài)伙伴,將大模型技術與20多個行業(yè)結合,提供超50個行業(yè)大模型解決方案。
大模型時代的來臨,將開創(chuàng)下一代云服務,騰訊云致力于打造“最適合大模型的云”,也將持續(xù)升級底層AI基礎設施,助力企業(yè)把握AI時代。