今年3月,新創(chuàng)AI芯片公司Cerebras Systems推出了其第三代的晶圓級AI芯片WSE-3,性能達到了上一代WSE-2的兩倍,可用于訓練業(yè)內(nèi)一些最大的人工智能模型。在近日的Hot Chips 2024大會上,Cerebras Systems詳細介紹了這款芯片在AI推理方面的性能。
根據(jù)官方資料顯示,WSE-3依然是采用了一整張12英寸晶圓來制作,基于臺積電5nm制程,芯片面積為46225平方毫米,擁有的晶體管數(shù)量達到了4萬億個,擁有90萬個AI核心,44GB片上SRAM,整體的內(nèi)存帶寬為21PB/s,結(jié)構(gòu)帶寬高達214PB/s。使得WSE-3具有125 FP16 PetaFLOPS的峰值性能,相比上一代的WSE-2提升了1倍。
作為對比,WSE-2芯片面積同樣是46225平方毫米,基于臺積電7nm制程,晶體管數(shù)量為2.6萬億個,AI內(nèi)核數(shù)量為85萬個,片上內(nèi)存SRAM為40GB,內(nèi)存帶寬為20PB/s,結(jié)構(gòu)帶寬高達220PB/s。
如果將其與英偉達的H100相比,WSE-3面積將是H100的57倍,內(nèi)核數(shù)量是H100的52倍,片上內(nèi)存是H100的880倍,內(nèi)存帶寬是H100的7000倍,結(jié)構(gòu)帶寬是H100的3715倍。(H200 的 HBM3e 僅擁有 4.8TBps 的帶寬。)
在此次的Hot Chips 2024大會上,Cerebras公布了更多關(guān)于WSE-3在運行AI大模型上的性能表現(xiàn)。
Cerebras表示,它在Llama3.1-8B上的推理速度比微軟Azure等公司使用NVIDIA H100快了20倍。需要指出的是,在許多現(xiàn)代生成式 AI 工作負載中,推理性能通常更得益于內(nèi)存帶寬的大小,而不單單是計算能力。也就是說,擁有更大的內(nèi)存帶寬,模型的推理速度就越快。
Cerebra Systems首席執(zhí)行官 Andrew Feldman 稱,WSE-3通過使用44GB片上SRAM,使得其能夠以 16 位精度運行 Llama 3.1 8B 時,每秒能夠生成超過 1,800 個Token,而性能最好的基于英偉達H100的實例每秒只能生成超過 242 個Token。
與此同時,Cerebras還推出了基于WSE-3的CS-3超級計算機,可用于訓練參數(shù)高達24萬億的人工智能模型,這比相比基于WSE-2和其他現(xiàn)代人工智能處理器的超級計算機有了重大飛躍。該超級計算機可以支持1.5TB、12TB或1.2PB的外部內(nèi)存,這使它能夠在單個邏輯空間中存儲大量模型,而無需分區(qū)或重構(gòu),從而簡化了訓練過程,提高了開發(fā)人員的效率。
最新的 Cerebras 軟件框架可以為PyTorch 2.0 和最新的 AI 模型和技術(shù)(如多模態(tài)模型、視覺轉(zhuǎn)換器、專家混合和擴散)提供原生支持。Cerebras 仍然是唯一為動態(tài)和非結(jié)構(gòu)化稀疏性提供本機硬件加速的平臺,相比英偉達的DGX-100計算機系統(tǒng),將訓練速度提高了8 倍。
在運行分布在四個CS-3加速器上的 700 億參數(shù)版本的 Llama 3.1 大模型時,也能夠?qū)崿F(xiàn)每秒 450 個Token。相比之下,H100 可以管理的最佳狀態(tài)是每秒 128 個Token。
Feldman 認為,這種性能水平,就像寬帶的興起一樣,將為 AI 的采用開辟新的機會。“今天,我認為我們正處于 Gen AI 的撥號時代,”他說,并指出了生成式 AI 的早期應(yīng)用,其中提示的響應(yīng)會有明顯的延遲。
他認為,如果能夠足夠快地處理請求,就可以基于多個模型構(gòu)建代理應(yīng)用程序,而不會因為延遲變得難以為繼。Feldman 認為這種性能有益的另一個應(yīng)用是允許 LLM 在多個步驟中迭代他們的答案,而不僅僅是吐出他們的第一個響應(yīng)。如果您可以足夠快地處理Token,則可以在幕后做更多的處理。
雖然WSE-3能夠以16 位精度運行 Llama 3.1 8B 時,每秒能夠生成超過 1,800 個Token,但是如果不是因為系統(tǒng)受計算限制,WSE-3的速度應(yīng)該能夠更快。
該產(chǎn)品代表了 Cerebras 的一些轉(zhuǎn)變,因為此前,Cerebras 主要專注于 AI 訓練。雖然現(xiàn)在也開始應(yīng)用于AI推理,但是硬件本身實際上并沒有改變。Feldman表示,他們正在使用相同的 WSE-3 芯片和 CS-3 系統(tǒng)進行推理和訓練。
“我們所做的是擴展了編譯器的功能,可以同時在芯片上放置多個層,”Feldman解釋說。
SRAM 速度很快,但使 HBM 容量更大
雖然 SRAM 在性能方面比 HBM 具有明顯的優(yōu)勢,但它的不足之處在于容量。對于大型語言模型 (LLM)來說,44GB的容量并不多,因為必須考慮到鍵值緩存在WSE-3所針對的高批處理大小下占用了相當多的空間。
Meta 的 Llama 3 8B 模型是 WSE-3 的理想化場景,因為大小為 16GB(FP16),整個模型可以安裝在芯片的 SRAM 中,為鍵值緩存留下大約 28GB 的空間。
Feldman 聲稱,除了極高的吞吐量外,WSE-3 還可以擴展到更高的批量大校盡管它究竟可以擴展到多大程度并保持每個用戶Token的生成率,這家初創(chuàng)公司不愿透露。“我們目前的批次大小經(jīng)常變化。我們預(yù)計第四季度的批量規(guī)模將達到兩位數(shù),“Cerebras說道。
當被追問更多細節(jié)時,F(xiàn)eldman補充說:“我們目前的批量大小還不成熟,因此我們寧愿不提供它。系統(tǒng)架構(gòu)旨在以高批量運行,我們預(yù)計在未來幾周內(nèi)實現(xiàn)這一目標。”
與現(xiàn)代 GPU 非常相似,Cerebras 通過跨多個 CS-3 系統(tǒng)并行化模型來應(yīng)對這一挑戰(zhàn)。具體來說,Cerebras 正在使用管道并行性將模型的層分布到多個系統(tǒng)。
對于需要 140GB 內(nèi)存的 Llama 3 70B,該模型的 80 層分布在四個通過以太網(wǎng)互連的 CS-3 系統(tǒng)中。這確實會帶來性能損失,因為數(shù)據(jù)必須通過這些鏈接。
△由于單個WSE-3只有 44GB SRAM,因此需要將多個加速器連接在一起以支持更大的模型
然而,根據(jù) Feldman 的說法,節(jié)點到節(jié)點的延遲并不像您想象的那么大。“這里的延遲是真實的,但很小,并且它與通過芯片上所有其他層的Token分攤,”他解釋說。“最后,Token上的晶圓到晶圓延遲約占總數(shù)的 5%。”
對于更大的模型,例如最近宣布的 4050 億參數(shù)變體的 Llama 3,Cerebras 估計它將能夠使用 12 個 CS-3 系統(tǒng)實現(xiàn)每秒約 350 個Token。
利用更高速的片上SRAM來替代HBM并不是一個新鮮事,Cerebra的競爭對手 Groq也是這么做的。
Groq 的語言處理單元 (LPU) 實際上使用了片上SRAM。不同之處在于,由于單個 Groq LPU SRAM 容量較低,因此需要通過光纖連接更多的加速器來支持更大的模型。
Cerebras 需要四個 CS-3 系統(tǒng)才能以每秒 450 個令牌的速度運行 Llama 3 70B,Groq 此前曾表示,它需要 576 個 LPU 才能實現(xiàn)每秒300個Token。而Cerebras 引用的人工智能分析 Groq 基準測試略低,為每秒 250 個Token。
Feldman 還指出,Cerebras 能夠在不求助于量化的情況下做到這一點。認為Groq 正在使用 8bit量化來達到他們的性能目標,這減少了模型大孝計算開銷和內(nèi)存壓力,但代價是準確性有所損失。
不過,僅比較性能,而忽略整體的成本是不公平的對比。畢竟單個晶圓級的WSE-3芯片的成本也遠遠高于Groq LPU的成本。
編輯:芯智訊-浪客劍