2024年7月4日~6日,2024世界人工智能大會暨人工智能全球治理高級別會議(WAIC 2024)在上海圓滿召開。當(dāng)今全球生成式人工智能(AI)發(fā)展熱潮正加大對“算力”的需求,這也成為本屆大會的重要議題之一。
作為AI生態(tài)基礎(chǔ)設(shè)施的重要組成部分,包括華為、浪潮信息、中興通訊、壁仞科技、摩爾線程、燧原科技、國科微、無問芯穹、天數(shù)智芯、聯(lián)想、中科曙光在內(nèi)的中國GPU芯片與設(shè)備公司,以及中國電信、中國聯(lián)通、中國移動等頭部算力企業(yè),均在WAIC 2024大會精彩亮相,展示一系列助力我國AI算力發(fā)展“破局”的成果。
算力步入萬卡時代,多種難關(guān)亟待攻克
2022年ChatGPT-3.5大模型橫空出世,引發(fā)全世界生成式AI浪潮,彼時這一大模型規(guī)模約為1750億個參數(shù),然而2023年推出的ChatGPT-4,參數(shù)迅速膨脹至1萬億個。如此體量的大模型,建設(shè)超過1萬張GPU加速卡的算力集群必不可少。
在7月6日WAIC舉辦的中興通訊AI創(chuàng)新生態(tài)論壇,中國工程院院士鄭緯民指出,“人工智能發(fā)展有三駕馬車,其中一駕就是算力。”步入萬卡集群時代,數(shù)據(jù)中心將面臨一系列全新挑戰(zhàn)需要攻克。鄭緯民表示,萬卡時代GPU之間的互聯(lián)是大問題,如何實(shí)現(xiàn)高帶寬、低時延連接?將是提高計(jì)算效率的重點(diǎn)。此外作為萬卡規(guī)模的數(shù)據(jù)中心,可能2~3小時就會發(fā)生一次故障,如何應(yīng)對故障率增加的問題同樣是一大挑戰(zhàn)。
鄭緯民指出,盡管目前英偉達(dá)占據(jù)AI GPU龍頭位置,性能領(lǐng)先,但是目前基于國產(chǎn)AI芯片的系統(tǒng),最關(guān)鍵的差距并不在算力方面,而是生態(tài)。他表示,之前許多企業(yè)并不愿意使用國產(chǎn)AI芯片方案,最核心的問題在于國產(chǎn)AI芯片的軟件生態(tài)不好,易用性方面與英偉達(dá)相比有明顯差距。為此,鄭緯民提出國產(chǎn)軟件生態(tài)需解決的重點(diǎn),包括編程框架、并行加速、容錯系統(tǒng)等。
目前,我國算力基礎(chǔ)設(shè)施規(guī)模位居全球第二,截至2023年底,我國在用數(shù)據(jù)中心機(jī)架總規(guī)模超過810萬架,算力總規(guī)模達(dá)到230EFlops;以閃存技術(shù)為代表的先進(jìn)“存力”不斷提高,在部分行業(yè)占比超過25%。鄭緯民認(rèn)為,盡管目前我國算力行業(yè)面臨國外算力獲取難、國產(chǎn)算力使用難/效率低、國產(chǎn)算力種類多等痛點(diǎn),但只要解決關(guān)鍵問題,一定可以構(gòu)建開放解耦、互聯(lián)互通的國產(chǎn)算力新生態(tài)。
助力生成式AI,國內(nèi)算力企業(yè)深度賦能
為解決當(dāng)前算力提升瓶頸難題,助力我國生成式AI進(jìn)一步發(fā)展,本屆WAIC各大廠商帶來一系列解決方案,涵蓋“云、邊、端”各個應(yīng)用場景。以下為集微網(wǎng)對本屆大會亮相的重點(diǎn)國內(nèi)算力企業(yè)進(jìn)行盤點(diǎn):
壁仞科技:三個維度解決算力瓶頸
壁仞科技創(chuàng)立于2019年,致力于研發(fā)原創(chuàng)性的通用計(jì)算體系,建立高效的軟硬件平臺,同時在智能計(jì)算領(lǐng)域提供一體化的解決方案。在7月5日舉辦的“智啟新章算引未來”AI基礎(chǔ)設(shè)施論壇,壁仞科技副總裁兼AI軟件首席架構(gòu)師丁云帆表示:“解決算力瓶頸問題需要從三個維度考慮:硬件集群算力、軟件有效算力、異構(gòu)聚合算力。”
丁云帆稱,在硬件集群算力維度,壁仞科技在行業(yè)中相對領(lǐng)先,2020年設(shè)計(jì)的第一代產(chǎn)品里面就做了chiplet的架構(gòu),兼具DSA和通用GPU兩個優(yōu)勢,是當(dāng)前行業(yè)主流能夠突破摩爾定律的解決方案。壁仞科技同樣注重互聯(lián)能力,支持單節(jié)點(diǎn)8卡全互連,目前已推出千卡集群建設(shè)方案,并可擴(kuò)展至萬卡規(guī)模。在軟件效率方面,通過優(yōu)先級、資源配額、彈性訓(xùn)練等多種手段來提升集群的調(diào)度效率,真正發(fā)揮硬件算力優(yōu)勢。此外,壁仞科技同樣開發(fā)了異構(gòu)聚合算力技術(shù),支持壁仞GPU與英偉達(dá)A100 GPU協(xié)同訓(xùn)練,效率超過90%。
如何解決鄭緯民院士提出的“高故障率”“并行難”問題?在7月6日舉行的“中興通訊AI創(chuàng)新生態(tài)論壇”,丁云帆介紹,與中興通訊合作開發(fā)大型計(jì)算集群的3D并行、彈性訓(xùn)練技術(shù),能夠自動進(jìn)行故障遷移,靈活應(yīng)對故障;創(chuàng)新的網(wǎng)絡(luò)拓?fù),也能夠減少網(wǎng)絡(luò)擁塞風(fēng)險。
對于AI芯片企業(yè)來說,在不斷攻克技術(shù)難點(diǎn)的同時,需提前進(jìn)行算力建設(shè)規(guī)劃。7月4日,壁仞科技聯(lián)合創(chuàng)始人兼COO張凌嵐在圓桌會議表示,AI算力芯片的迭代周期通常為兩年至三年,遠(yuǎn)遠(yuǎn)慢于應(yīng)用側(cè)的迭代速度。今年壁仞科技將重點(diǎn)發(fā)展兩部分:一是進(jìn)一步完善軟件平臺,讓現(xiàn)有產(chǎn)品盡快適配全新的應(yīng)用需求;二是在下一代產(chǎn)品中前瞻性地預(yù)見市場趨勢帶來的技術(shù)需求,并提前在設(shè)計(jì)中布局。
摩爾線程:AI旗艦產(chǎn)品夸娥升級
摩爾線程此次參與WAIC 2024,宣布其AI旗艦產(chǎn)品夸娥(KUAE)智算集群解決方案升級,在GPU顯存和傳輸帶寬方面,夸娥萬卡集群具備PB級顯存總?cè)萘、每秒PB級超高速卡間互聯(lián)總帶寬和節(jié)點(diǎn)間互聯(lián)總帶寬,全面提升集群計(jì)算性能。
摩爾線程稱,希望能夠建設(shè)一個規(guī)模超萬卡、場景夠通用、生態(tài)兼容好的加速計(jì)算平臺,并優(yōu)先解決大模型訓(xùn)練的難題。此外,該公司同時推出夸娥集群管理平臺(KUAE Platform)以及夸娥大模型服務(wù)平臺(KUAE ModelStudio),旨在以一體化交付的方式解決大規(guī)模GPU算力的建設(shè)和運(yùn)營管理問題。
燧原科技:智算中心在多地落地
燧原科技在WAIC現(xiàn)場展示了展示了智算中心落地案例和里程碑系列產(chǎn)品,還為與會者帶來了基于燧原算力的AIGC交互體驗(yàn)站,展示其最新商業(yè)落地成果及規(guī)模化應(yīng)用。
在生成式人工智能(AIGC)應(yīng)用方面,燧原科技現(xiàn)場展示編程助手、AI視頻生成、3D生成等交互技術(shù)。由燧原和智譜AI合作的大模型編程助手一體機(jī),基于云燧i20推理加速卡,能為軟件開發(fā)企業(yè)提供代碼生成、代碼翻譯、代碼注釋、代碼補(bǔ)全、智能問答等多種服務(wù)。
無問芯穹:千卡規(guī)模異構(gòu)芯片混訓(xùn)平臺
無問芯穹聯(lián)合創(chuàng)始人兼CEO夏立雪,在7月4日WAIC現(xiàn)場發(fā)布了千卡規(guī)模異構(gòu)芯片混訓(xùn)平臺,稱這一訓(xùn)練集群算力利用率最高達(dá)到了 97.6%。夏立雪宣布,無問芯穹 Infini-AI 云平臺已集成大模型異構(gòu)千卡混訓(xùn)能力,是全球首個可進(jìn)行單任務(wù)千卡規(guī)模異構(gòu)芯片混合訓(xùn)練的平臺,具備萬卡擴(kuò)展性。
無問芯穹同樣展示其Infini-AI大模型開發(fā)與服務(wù)云平臺,并表示7月起,通過試訓(xùn)申請的用戶,已可在Infini-AI上一鍵發(fā)起700億參數(shù)規(guī)模的大模型訓(xùn)練。
天數(shù)智芯:自研通用GPU產(chǎn)品矩陣
天數(shù)智芯連續(xù)4年參加WAIC大會,該公司表示,聯(lián)合合作伙伴推出的大模型推理16卡服務(wù)器,搭載16張自主研發(fā)的智鎧100推理卡,性能和性價比達(dá)到國際一流水平。天數(shù)智芯宣布,與愛特云翔合作建設(shè)千卡GPU算力集群,可支持千億以上參數(shù)大模型的全量預(yù)訓(xùn)練,支持客戶進(jìn)行微調(diào)、參數(shù)高效微調(diào)等服務(wù),解決了大模型訓(xùn)練高端算力緊缺的瓶頸問題,從算力底層支持國產(chǎn)大模型創(chuàng)新發(fā)展。
協(xié)力共創(chuàng),打造中國AI生態(tài)
我國人工智能的發(fā)展,效率、生態(tài)是一大瓶頸。為齊心協(xié)力推動我國AI算力及應(yīng)用建設(shè),多家企業(yè)拿出了開放包容的態(tài)度,攜手打造中國AI生態(tài)。
壁仞科技聯(lián)席CEO李新榮強(qiáng)調(diào),人工智能是一個龐大的系統(tǒng)工程,人工智能產(chǎn)業(yè)形成的三大要素包括:數(shù)據(jù)、算力、算法。融合三大要素的AI生態(tài)集成、生態(tài)建設(shè),需以軟硬件整合的方式實(shí)現(xiàn)。
壁仞科技丁云帆介紹,壁仞科技構(gòu)建了開放的BIRENSUPA軟件生態(tài)系統(tǒng),攜手合作伙伴和客戶共同推進(jìn)大模型產(chǎn)業(yè)生態(tài)的發(fā)展,為國產(chǎn)GPU在千卡集群規(guī)模上實(shí)現(xiàn)商用落地提供了有力支持。這一平臺包含編譯器、多種工具鏈,支持主流深度學(xué)習(xí)框架和自研推理加速引擎,并配備針對不同場景的應(yīng)用SDK等,能夠助力開發(fā)者實(shí)現(xiàn)軟硬件協(xié)同,探索未來的無限可能。目前壁仞科技《BIRENSUPA編程模型白皮書》現(xiàn)已正式公開。
在WAIC大會期間,壁仞科技對外宣布,搭載壁礪系列通用GPU算力產(chǎn)品的中國移動智算中心(呼和浩特),近日成功上線運(yùn)營。據(jù)了解,中國移動智算中心(呼和浩特)屬于全國型N節(jié)點(diǎn)萬卡訓(xùn)練場,單體算力6.7EFLOPS(FP16)。采用萬卡高速互聯(lián)、軟硬全鏈路監(jiān)控等高新技術(shù)為AI業(yè)務(wù)保駕護(hù)航,同時通過液冷機(jī)柜、閉式冷卻塔、智能小母線等綠色節(jié)能技術(shù),實(shí)現(xiàn)設(shè)計(jì)PUE值平均為1.15。今年5月,壁仞科技正式獲頒中國電信“云網(wǎng)基礎(chǔ)設(shè)施安全國家工程研究中心云計(jì)算合作伙伴”;在WAIC大會期間,中國電信發(fā)布了四大AI聯(lián)創(chuàng)基地,壁仞科技作為中國電信的算力合作伙伴參與其中,共同為人工智能大模型場景應(yīng)用助力賦能。
摩爾線程表示,萬卡集群的建設(shè)需要產(chǎn)業(yè)界的齊心協(xié)力,為實(shí)現(xiàn)大模型創(chuàng)新應(yīng)用的快速落地,讓國產(chǎn)算力“為用而建”。發(fā)布會現(xiàn)場,摩爾線程攜手中國移動通信集團(tuán)青海有限公司、中國聯(lián)通青海公司、北京德道信科集團(tuán)、中國能源建設(shè)股份有限公司總承包公司、桂林華崛大數(shù)據(jù)科技有限公司(排名不分先后),分別就青海零碳產(chǎn)業(yè)園萬卡集群項(xiàng)目、青海高原夸娥萬卡集群項(xiàng)目、廣西東盟萬卡集群項(xiàng)目進(jìn)行了戰(zhàn)略簽約。
本屆WAIC,燧原科技表示正在推進(jìn)“燎原”生態(tài)合作計(jì)劃,以全國算力一體化布局的智算中心算力網(wǎng)絡(luò)為根基,在燧原自主技術(shù)體系的基礎(chǔ)上,發(fā)展云服務(wù)、大模型、垂直模型(ISV)、AIDC集成部署運(yùn)營運(yùn)維等戰(zhàn)略生態(tài)伙伴,打造從算力建設(shè)到應(yīng)用的完整落地閉環(huán)。目前,燧原科技已在四川成都、湖北宜昌和甘肅慶陽展開了智算中心的建設(shè)及合作。其中,宜昌點(diǎn)軍智算中心僅用1年時間完成了300P國產(chǎn)算力建設(shè)和交付,并實(shí)現(xiàn)了上線全消納。
無問芯穹在4個月前,宣布其Infini-AI大模型開發(fā)與服務(wù)云平臺宣布首次公測,已有智譜AI、月之暗面、生數(shù)科技等大模型公司客戶在Infini-AI上穩(wěn)定使用異構(gòu)算力,還有20余家AI Native應(yīng)用創(chuàng)業(yè)公司在Infini-AI上持續(xù)調(diào)用各種預(yù)置模型API,使用無問芯穹提供的工具鏈開發(fā)自身業(yè)務(wù)模型。此舉將打通異構(gòu)新品生態(tài),持續(xù)降低大模型應(yīng)用落地成本。
天數(shù)智芯表示,天數(shù)智芯通用GPU產(chǎn)品適配主流CPU芯片/服務(wù)器廠商,能夠支持國內(nèi)外主流AI生態(tài)和各種深度學(xué)習(xí)框架,通過標(biāo)準(zhǔn)化的軟硬件生態(tài)接口為行業(yè)解決產(chǎn)品使用難、開發(fā)平臺遷移成本大等痛點(diǎn),大幅縮短適配驗(yàn)證周期,實(shí)現(xiàn)業(yè)務(wù)系統(tǒng)的無縫使用,可以靈活支持各種算法模型,便于客戶自定義開發(fā)。
集微網(wǎng)了解到,本屆WAIC 2024,中國電信領(lǐng)銜承辦主題論壇,聚焦中國電信智算及大模型能力規(guī)劃;中國聯(lián)通在“AI+賦能,智算未來”論壇上啟動“上海聯(lián)通新一代智算中心”,加快國產(chǎn)算力布局;中國移動舉辦以“AI賦能,創(chuàng)見未來”為主題的生態(tài)論壇,并正式啟動五個“100”人工智能生態(tài)計(jì)劃。
其它廠商方面,在“2024騰人工智能產(chǎn)業(yè)高峰論壇”中,華為攜手生態(tài)伙伴首發(fā)騰AI新品,展現(xiàn)AI算力領(lǐng)域的技術(shù)與商業(yè)合作新樣本;中興通訊展示端到端的全棧全場景開放解耦的智算解決方案,覆蓋智算、通算、存儲全場景組網(wǎng);算能科技攜算力處理器、RISC-V融合服務(wù)器智算集群、多樣大模型體驗(yàn)區(qū)、云邊端全場景智能生態(tài)產(chǎn)品等亮相展區(qū);商湯科技帶來國內(nèi)訓(xùn)練大模型的先進(jìn)基礎(chǔ)設(shè)施,SenseCore商湯大裝置總算力規(guī)模高達(dá)12000PFLOPS,可支撐超過20個千億超大模型同時訓(xùn)練。
隨著AI大模型引發(fā)全球新一輪科技浪潮,我國算力產(chǎn)業(yè)在壓力之下正在蓬勃發(fā)展,各項(xiàng)創(chuàng)新技術(shù)不斷涌現(xiàn)。除了技術(shù)領(lǐng)域,目前我國同樣注重AI產(chǎn)業(yè)安全與風(fēng)險,已建立了一套涵蓋產(chǎn)業(yè)應(yīng)用、算法、算力、數(shù)據(jù)等方面的治理規(guī)則。
壁仞科技張凌嵐強(qiáng)調(diào),壁仞科技對未來AI算力芯片的市場前景和技術(shù)落地充滿信心。未來,隨著國產(chǎn)AI算力芯片陸續(xù)落地,我國多產(chǎn)業(yè)的數(shù)字化轉(zhuǎn)型有望進(jìn)一步加深。李新榮表示,希望早日實(shí)現(xiàn)自主可控的國產(chǎn)供應(yīng)鏈,同時搭建一個覆蓋全產(chǎn)業(yè)的軟件生態(tài)合作平臺。壁仞科技不只是國產(chǎn)大模型訓(xùn)練的支持者,同時也希望能夠積極支持并且利用自有的資源來推動產(chǎn)業(yè)協(xié)作。
本屆WAIC 2024大會,吸引來自50多個國家和地區(qū)的嘉賓、觀眾前來,匯聚1300位全球領(lǐng)軍人物,9位圖靈獎、菲爾茲獎、諾貝爾獎得主,以及88位國內(nèi)外頂級院士,線下參觀人數(shù)突破30萬人次。
如今萬卡計(jì)算時代正逐步到來,AI基礎(chǔ)設(shè)施提供的強(qiáng)大算力,正為生成式AI、大模型前沿創(chuàng)新提供充足的想象空間。本屆WAIC 2024匯聚全球AI領(lǐng)域前沿技術(shù)與成果,促成產(chǎn)學(xué)研各界的深度對話。通過不斷創(chuàng)新的架構(gòu)和開源開放的生態(tài)系統(tǒng),未來中國算力產(chǎn)業(yè)必將持續(xù)取得突破性進(jìn)步,緊緊跟隨世界前沿。從長遠(yuǎn)看,人工智能必將成為推動產(chǎn)業(yè)經(jīng)濟(jì)發(fā)展的關(guān)鍵,隨著各類應(yīng)用逐步落地,AI將深入賦能千行百業(yè),成為我國創(chuàng)新與發(fā)展的得力助手。