本文作者:李笑寅
來(lái)源:硬AI
全球數(shù)據(jù)中心正在面臨放緩困境。
如火如荼的AI浪潮推升了數(shù)據(jù)中心的建設(shè)狂潮,但隨著大模型對(duì)算力的要求每日俱增,數(shù)據(jù)中心升級(jí)的腳步似乎要跟不上持續(xù)強(qiáng)勁的AI需求了。
知名科技媒體The Information近日?qǐng)?bào)道稱,由于高質(zhì)量數(shù)據(jù)吃緊以及昂貴的數(shù)據(jù)中心建造成本,AI大模型的升級(jí)速度正在放緩,可能反過(guò)來(lái)拖累行業(yè)整體和數(shù)據(jù)中心建設(shè)的進(jìn)展。
與此同時(shí),馬斯克正大舉發(fā)力數(shù)據(jù)中心建設(shè),在“鯰魚(yú)效應(yīng)”(指引入強(qiáng)者后,激發(fā)弱者變強(qiáng))下,一場(chǎng)更高難度的大型數(shù)據(jù)中心競(jìng)賽即將打響,數(shù)據(jù)中心的建設(shè)狂潮還能否延續(xù)?
“數(shù)據(jù)饑餓”限制大模型迭代速度
據(jù)OpenAI員工向The Information表示,GPT迭代放緩的原因之一是:可供大模型預(yù)訓(xùn)練所需的高質(zhì)量文本和其他數(shù)據(jù)正在不斷減少。
這些人士表示,在過(guò)去幾年中, LLMs使用來(lái)自網(wǎng)站、書(shū)籍和其他來(lái)源的公開(kāi)文本和其他數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練過(guò)程,而如今,這類數(shù)據(jù)幾乎已被“榨干”。
據(jù)悉,在下一代旗艦?zāi)P汀癘rion”中,OpenAI雖然已經(jīng)開(kāi)始嘗試在訓(xùn)練階段引入AI生成數(shù)據(jù),但同時(shí)又面臨一個(gè)新問(wèn)題,即Orion最終可能在某些方面與舊型號(hào)的大模型相似。
同時(shí),數(shù)據(jù)中心昂貴的建造成本可能也難以支撐起迭代所需的龐大算力要求,OpenAI研究員Noam Brown在上個(gè)月的TEDAI會(huì)議上表示,開(kāi)發(fā)更先進(jìn)的模型在經(jīng)濟(jì)上可能并不可行。
“我們真的要訓(xùn)練花費(fèi)數(shù)千億美元或數(shù)萬(wàn)億美元的模型嗎?有時(shí)候,擴(kuò)展(scaling laws)的范式也會(huì)崩潰!
此外,由于大模型迭代升級(jí)對(duì)服務(wù)器集群規(guī)模的要求越來(lái)越高,所需的功率也呈倍數(shù)級(jí)提升,散熱問(wèn)題正越來(lái)越成為數(shù)據(jù)中心升級(jí)的一大阻礙。
馬斯克發(fā)力AI,OpenAI等擔(dān)心被“后來(lái)居上”
馬斯克為xAI兌現(xiàn)“最大超算中心”的承諾的速度之快,已經(jīng)向OpenAI等頭部競(jìng)爭(zhēng)對(duì)手成功制造了焦慮。
在今年7月“GenAI Summit SF 2024”人工智能峰會(huì)上,馬斯克旗下的AI初創(chuàng)公司xAI宣布,計(jì)劃在幾個(gè)月內(nèi)建成一個(gè)約10萬(wàn)H100芯片的數(shù)據(jù)中心,號(hào)稱是“世界上最強(qiáng)大的AI訓(xùn)練集群”,旨在訓(xùn)練更強(qiáng)大的AI模型。
同月,馬斯克社交平臺(tái)“X”上宣布,xAI公司已開(kāi)始在“Supercluster”上進(jìn)行訓(xùn)練,該集群由10萬(wàn)個(gè)液冷英偉達(dá)的H100 GPU組成,在單個(gè)遠(yuǎn)程直接數(shù)據(jù)存。≧DMA)結(jié)構(gòu)上運(yùn)行。
馬斯克的豪賭,基于“縮放定律”(scaling laws):數(shù)據(jù)中心規(guī)模越大、訓(xùn)練出來(lái)的大模型就越好。
據(jù)悉,“Supercluster”的集群規(guī)模是Meta等科技巨頭已有數(shù)據(jù)中心規(guī)模的數(shù)倍。對(duì)比來(lái)看,OpenAI訓(xùn)練GPT4,需要用到25000塊A100 GPU,僅為Supercluster的1/20。
并且,據(jù)英偉達(dá)方面向媒體透露,該數(shù)據(jù)中心僅用122天就建成,而根據(jù)其CEO黃仁勛的說(shuō)法,這種規(guī)模的GPU集群通常需要三年的時(shí)間來(lái)規(guī)劃和設(shè)計(jì),還額外需要一年的時(shí)間才能投入使用。
盡管xAI的人工智能工具仍遠(yuǎn)遠(yuǎn)落后于OpenAI,但他構(gòu)建數(shù)據(jù)中心的速度引起了Sam Altman的警惕。據(jù)一位知情人士向媒體透露,馬斯克在X上官宣了Supercluster的建成后,Altman與微軟的基礎(chǔ)設(shè)施高管發(fā)生了爭(zhēng)執(zhí),擔(dān)心xAI的發(fā)展速度比微軟快。