筑基面向MxN生態(tài)格局的AI Native基礎(chǔ)設(shè)施。
本文為IPO早知道原創(chuàng)
作者|Stone Jin
據(jù)IPO早知道消息,在7月4日舉行的2024年世界人工智能大會AI基礎(chǔ)設(shè)施論壇上,無問芯穹聯(lián)合創(chuàng)始人兼CEO夏立雪發(fā)布了全球首個千卡規(guī)模異構(gòu)芯片混訓(xùn)平臺,千卡異構(gòu)混合訓(xùn)練集群算力利用率最高達到了97.6%。同時,夏立雪宣布無問芯穹Infini-AI云平臺已集成大模型異構(gòu)千卡混訓(xùn)能力,是全球首個可進行單任務(wù)千卡規(guī)模異構(gòu)芯片混合訓(xùn)練的平臺,具備萬卡擴展性,支持包括AMD、華為騰、天數(shù)智芯、沐曦、摩爾線程、NVIDIA六種異構(gòu)芯片在內(nèi)的大模型混合訓(xùn)練。7月起,通過試訓(xùn)申請的用戶,已可在Infini-AI上一鍵發(fā)起700億參數(shù)規(guī)模的大模型訓(xùn)練。
就在4個月前,無問芯穹Infini-AI大模型開發(fā)與服務(wù)云平臺宣布首次公測,已有智譜AI、月之暗面、生數(shù)科技等大模型公司客戶在Infini-AI上穩(wěn)定使用異構(gòu)算力,還有20余家AI Native應(yīng)用創(chuàng)業(yè)公司在Infini-AI上持續(xù)調(diào)用各種預(yù)置模型API,使用無問芯穹提供的工具鏈開發(fā)自身業(yè)務(wù)模型。此次發(fā)布全球首個可進行千卡規(guī)模異構(gòu)芯片混訓(xùn)的平臺,不僅是無問芯穹在異構(gòu)計算優(yōu)化與集群系統(tǒng)設(shè)計方面的深厚底蘊和卓越技術(shù)的實力體現(xiàn),同時也是無問芯穹秉承“MxN”中間層生態(tài)理念的重要成果。
作為大模型生命周期中不可或缺的兩個階段,訓(xùn)練和推理均需要強大的計算資源支撐。然而,與國際上模型層與芯片層“相對集中”的格局相比,中國的模型層與芯片層更加“百花齊放”。然而,大量的異構(gòu)芯片也形成了“生態(tài)豎井”,不同硬件生態(tài)系統(tǒng)封閉且互不兼容,給算力的使用方帶來一系列技術(shù)挑戰(zhàn)。
據(jù)不完全統(tǒng)計,宣布擁有千卡規(guī)模的中國算力集群已不少于100個,出于諸多緣由,比如過度依賴單一硬件平臺可能會使企業(yè)面臨供應(yīng)鏈風(fēng)險,又比如國產(chǎn)芯片的性能快速提升為集群方提供了多種選擇,絕大部分集群已經(jīng)或正在從同構(gòu)轉(zhuǎn)向異構(gòu)。“生態(tài)豎井”的存在讓大多數(shù)企業(yè)和開發(fā)者對此望而卻步,即便算力集群眾多,也難以實現(xiàn)有效的整合與利用,這無疑是對算力資源的浪費。“生態(tài)豎井”不僅成為構(gòu)建AI Native基礎(chǔ)設(shè)施的最大難點,也是當(dāng)前大模型行業(yè)面臨“算力荒”的重要原因。
構(gòu)建適應(yīng)多模型與多芯片格局的AI Native基礎(chǔ)設(shè)施,無問芯穹的底層解法是,提供高效整合異構(gòu)算力資源的好用算力平臺,以及支持軟硬件聯(lián)合優(yōu)化與加速的中間件,讓異構(gòu)芯片真正轉(zhuǎn)化為大算力。這一系列研、產(chǎn)進展背后,是無問芯穹研發(fā)團隊在異構(gòu)芯片計算優(yōu)化與集群系統(tǒng)設(shè)計上的強大實力支撐。近日,無問芯穹與清華、上交的聯(lián)合研究團隊發(fā)布了HETHUB,這是一個用于大規(guī)模模型的異構(gòu)分布式混合訓(xùn)練系統(tǒng),這是業(yè)內(nèi)首次實現(xiàn)六種不同品牌芯片間的交叉混合訓(xùn)練,且工程化完成度高。夏立雪介紹,這項技術(shù)工程化的初衷,是希望能夠通過整合更多異構(gòu)算力,繼續(xù)推高大模型技術(shù)能力的上限,同時通過打通異構(gòu)芯片生態(tài),持續(xù)降低大模型應(yīng)用落地成本。