欧美国产高清,免费正能量漫画

騰訊云副總裁：騰訊云智算已服務(wù)國內(nèi)90%大模型廠商

來源：互聯(lián)網(wǎng) 發(fā)布日期：2024-09-05 19:44:37 瀏覽：3700次

導(dǎo)讀：9月5日，騰訊2024全球數(shù)字生態(tài)大會召開。大會期間，騰訊云正式發(fā)布AI infra品牌騰訊云智算，整合騰訊云在HCC、星脈網(wǎng)絡(luò)、AIGC云存儲等優(yōu)勢單項(xiàng)產(chǎn)品能力，為用戶提供多芯兼容、靈活部署的智算能力。騰訊云副總裁沙開波表示，騰訊云智算目前已經(jīng)服務(wù)了國內(nèi)90%...

騰訊云副總裁：騰訊云智算已服務(wù)國內(nèi)90%大模型廠商

9月5日，騰訊2024全球數(shù)字生態(tài)大會召開。大會期間，騰訊云正式發(fā)布AI infra品牌“騰訊云智算”，整合騰訊云在HCC、星脈網(wǎng)絡(luò)、AIGC云存儲等優(yōu)勢單項(xiàng)產(chǎn)品能力，為用戶提供多芯兼容、靈活部署的智算能力。騰訊云副總裁沙開波表示，騰訊云智算目前已經(jīng)服務(wù)了國內(nèi)90%的大模型廠商，也幫助一大批IDC（數(shù)據(jù)中心）廠商向AIDC（智算中心）廠商轉(zhuǎn)型。

自ChatGPT點(diǎn)燃市場熱情、各大廠商和資本競相入場以來，僅僅一年多的時間，生成式AI便已從技術(shù)走向?qū)嵺`，逐漸融入各行各業(yè)，成為數(shù)字化轉(zhuǎn)型的重要驅(qū)動力。Gartner對于未來生成式AI的預(yù)測是，到2026年，超過80%的企業(yè)都會接入生成式AI或大模型，然而這一比例在2023年初還不到5%。

“盡管目前生成式AI仍處于一個相對早期的發(fā)展階段，商業(yè)化落地還需進(jìn)一步探索，但從長期來看，生成式AI一定會出現(xiàn)一個大爆發(fā)的‘奇點(diǎn)’。”沙開波指出。他認(rèn)為，生成式AI的快速興起驅(qū)動云基礎(chǔ)設(shè)施建設(shè)進(jìn)入一輪全新的周期。

眾所周知，生成式AI背后需要依靠強(qiáng)大的AI模型和海量數(shù)據(jù)，其所需要的云服務(wù)算力成本十分龐大。以ChatGPT為例，用戶每次與ChatGPT互動，產(chǎn)生的算力云服務(wù)成本約0.01美元，如果使用總投資30.2億元、算力500P的數(shù)據(jù)中心來支撐ChatGPT的運(yùn)行，至少需要7-8個這樣的數(shù)據(jù)中心，基礎(chǔ)設(shè)施的投入都是以百億計的。AI大模型無疑為整個云基礎(chǔ)設(shè)施建設(shè)帶來了巨大的市場空間。

“我們的很多業(yè)務(wù)增量都來自于智能計算這一塊。除了GPU之外，圍繞GPU一些存儲、網(wǎng)絡(luò)，也是一塊很大的增量。”沙開波坦言。對于大模型訓(xùn)練場景來說，算、存、網(wǎng)是一體的。大模型廠商在模型訓(xùn)練和推理場景中，對云基礎(chǔ)設(shè)施的高性能、高穩(wěn)定性、可運(yùn)維、應(yīng)用性等方面的要求更高，這就要求服務(wù)商不斷打磨自身產(chǎn)品能力，從計算、網(wǎng)絡(luò)、存儲等方面，包括一些軟件框架層面的優(yōu)化，以更好的去滿足這些AI客戶，尤其是大模型廠商的業(yè)務(wù)需求。可以預(yù)見，生成式AI或?qū)⑼苿釉苹A(chǔ)設(shè)施的整體升級。

模型越來越大，呼喚更大規(guī)模計算集群

伴隨生成式AI的興起，業(yè)內(nèi)出現(xiàn)一個趨勢：模型參數(shù)規(guī)模越來越大，從百萬級逐步進(jìn)入千萬級，甚至是萬億級。而參數(shù)越大，訓(xùn)練所用的計算資源就越多，這些大模型的訓(xùn)練動輒需要使用成千上萬張GPU卡去做算力支撐，引發(fā)模型廠商的算力焦慮。

沙開波指出，智能算力存在比較典型的“木桶短板”效應(yīng)，算力的提升不能光靠“堆卡”，而是要讓計算、存儲、網(wǎng)絡(luò)以及上層的框架等各個環(huán)節(jié)全面協(xié)調(diào)配合，才能打造出一個高性能、高帶寬、低延遲的計算集群。

以網(wǎng)絡(luò)能力為例，千億、萬億參數(shù)規(guī)模的大模型，訓(xùn)練過程中通信占比最大可達(dá)50%，傳統(tǒng)低速網(wǎng)絡(luò)的帶寬遠(yuǎn)遠(yuǎn)無法支撐。同時，傳統(tǒng)網(wǎng)絡(luò)協(xié)議容易導(dǎo)致網(wǎng)絡(luò)擁塞、高延時和丟包，而僅0.1%的網(wǎng)絡(luò)丟包就可能導(dǎo)致50%的算力損失，最終造成算力資源的嚴(yán)重浪費(fèi)。

為解決網(wǎng)絡(luò)性能問題，各個廠商推出了一系列相關(guān)產(chǎn)品和解決方案。其中，騰訊云星脈網(wǎng)絡(luò)具備3.2T通信帶寬，可支持10萬卡的超大計算規(guī)模。據(jù)悉，其能提升40%的GPU利用率，節(jié)省30%~60%的模型訓(xùn)練成本，為AI大模型帶來10倍通信性能提升。

數(shù)據(jù)顯示，在穩(wěn)定性和性能上，騰訊云的集群千卡單日故障數(shù)已經(jīng)刷新到0.16，是行業(yè)水平的1/3；1分鐘就能完成萬卡checkpoint寫入，數(shù)據(jù)讀寫效率是業(yè)界10倍；千卡集群的通信時間縮短到6%，是業(yè)界一半。同時，通過整合軟硬件技術(shù)能力，騰訊云智算集群從機(jī)器上架到開始訓(xùn)練可以做到只需1天，相比業(yè)界以月為單位也大為縮短。

“我們在做的是在規(guī)模比較大的計算集群里面，把卡的利用率盡可能做到極致，減少閑置算力就是減少用戶成本。”沙開波表示。據(jù)他透露，某模型廠商通過使用騰訊云智算大模型訓(xùn)練集群解決方案將千卡一年的模型訓(xùn)練成本降低了2000萬。

智算資源短缺，“一云多芯”成為主流選擇

當(dāng)前，智算中心被視為如同水和電一般的“新基建”，在全國各地落地開花。據(jù)賽迪顧問統(tǒng)計，截至2024年上半年，國內(nèi)已經(jīng)建設(shè)和正在建設(shè)的智算中心超過250個。智算中心招投標(biāo)相關(guān)事件791起，同比增長高達(dá)407.1%。最新統(tǒng)計顯示，截至5月底，全國規(guī)劃具有高性能計算機(jī)集群的智算中心已達(dá)十余個。從算力規(guī)模來看，我國智能算力在算力總規(guī)模中的比重超過了30%。

盡管智算中心建設(shè)如火如荼，但智算資源的供需矛盾依然存在。“智算中心建設(shè)方通常手里有卡，也有硬件資源。但是有卡不等于有算力，有算力不等于有模型，有模型也不等于有應(yīng)用。有了卡和硬件，不代表大模型的訓(xùn)練、推理或者AI的應(yīng)用就可以直接‘跑’出來了，還需要配套的軟件能力，要能夠把所有資源高效管理和調(diào)度起來，還得找到最終應(yīng)用場景或者終端客戶。”沙開波分析稱。

為彌合智算資源“供”與“需”之間的溝壑，“一云多芯”成為一個主流選擇。過去，智算集群中的多個模型訓(xùn)練任務(wù)往往是單一廠商芯片服務(wù)于單一任務(wù)，不論是不同廠商芯片算力切分、芯片間通信效率或是根本的模型訓(xùn)練效率問題，都使得算力焦慮在在硬件差異之下被無限放大。

而云平臺可以將服務(wù)器芯片等硬件封裝成標(biāo)準(zhǔn)算力，無論底層是x86與ARM指令集的并存、x86或ARM不同廠商架構(gòu)間并存、不同GPU或DPU服務(wù)器并存，抑或是計算節(jié)點(diǎn)與存儲節(jié)點(diǎn)不同芯片架構(gòu)并存，都能給客戶提供體驗(yàn)一致的云計算服務(wù)。比如，騰訊云智算平臺便采用了“一云多芯”架構(gòu)，可以適配、管理、調(diào)度多種CPU和GPU芯片，能夠有效降低供應(yīng)鏈風(fēng)險，同時滿足不同業(yè)務(wù)對于不同算力的需求。

“生成式AI的興起給整個云基礎(chǔ)設(shè)施建設(shè)提出了更高的要求，我們希望能夠整合高性能計算、高性能存儲、高性能網(wǎng)絡(luò)等各方面的能力，為企業(yè)用戶提供集‘算、存、網(wǎng)、數(shù)’于一體的技術(shù)底座，幫助大家加速釋放AI生產(chǎn)力。”沙開波說道。

相關(guān)熱詞： 騰訊副總裁智算服務(wù) 國內(nèi) 90% 大模型廠商 9月

騰訊云副總裁：騰訊云智算已服務(wù)國內(nèi)90%大模型廠商
來源：互聯(lián)網(wǎng) 發(fā)布日期：2024-09-05 19:44:37 瀏覽：3700次

相關(guān)內(nèi)容

AiLab云推薦

最新資訊

本月熱點(diǎn)

熱門排行

推薦內(nèi)容

在線客服

熱門欄目HotCates

關(guān)于我們

版權(quán)聲明

騰訊云副總裁：騰訊云智算已服務(wù)國內(nèi)90%大模型廠商 來源：互聯(lián)網(wǎng) 發(fā)布日期：2024-09-05 19:44:37 瀏覽：3700次