展會信息港展會大全

2024 Hot Chips|CerebrasAI 推理芯片為大模型提供新思路
來源:互聯(lián)網(wǎng)   發(fā)布日期:2024-09-13 13:30:46   瀏覽:2786次  

導(dǎo)讀:芝能智芯出品在 Hot Chips 2024 大會上,Cerebras 展示了其在 AI 推理領(lǐng)域的最新進(jìn)展,通過其晶圓規(guī)模引擎(Wafer-Scale Engine, WSE-3)芯片超越了現(xiàn)有的 AI 計(jì)算架構(gòu),例如 NVIDIA 的 H100 GPU。Cerebras 在推理性能、能效和擴(kuò)展性方面取得的顯著突破,通...

芝能智芯出品在 Hot Chips 2024 大會上,Cerebras 展示了其在 AI 推理領(lǐng)域的最新進(jìn)展,通過其晶圓規(guī)模引擎(Wafer-Scale Engine, WSE-3)芯片超越了現(xiàn)有的 AI 計(jì)算架構(gòu),例如 NVIDIA 的 H100 GPU。Cerebras 在推理性能、能效和擴(kuò)展性方面取得的顯著突破,通過采用大規(guī)模的片上內(nèi)存(SRAM)來規(guī)避高帶寬內(nèi)存(HBM)的限制。2024 Hot Chips|CerebrasAI 推理芯片為大模型提供新思路

2024 Hot Chips|CerebrasAI 推理芯片為大模型提供新思路

Part 1晶圓規(guī)模計(jì)算芯片2024 Hot Chips|CerebrasAI 推理芯片為大模型提供新思路

Cerebras 的 WSE-3 是世界上最大的計(jì)算芯片,擁有 44GB 的片上 SRAM 和超過 850,000 個(gè)計(jì)算核心。與傳統(tǒng)的 GPU 將一個(gè)大晶圓切割成多個(gè)小芯片的方式不同,Cerebras 的 WSE-3 保留了整個(gè)晶圓,這樣做的好處是將所有計(jì)算都集中在一個(gè)芯片上,減少了數(shù)據(jù)移動的需求和延遲。通過這種方法,Cerebras 可以將整個(gè) AI 模型放入片上內(nèi)存中,而不需要將部分模型轉(zhuǎn)移到芯片外的 HBM 存儲器中。2024 Hot Chips|CerebrasAI 推理芯片為大模型提供新思路

在推理性能方面,Cerebras 表示其解決方案顯著超越了基于 NVIDIA H100 的系統(tǒng)。在 Llama3.1-8B 模型的推理任務(wù)中,Cerebras 的 WSE-3 比 Microsoft Azure 上的 NVIDIA H100 快 20 倍。此外,Cerebras 還展示了在單芯片上運(yùn)行更大模型(如 Llama3.1-70B)的能力,與 NVIDIA DGX H100 解決方案相比,該解決方案展現(xiàn)出了顯著的吞吐量和延遲優(yōu)勢。2024 Hot Chips|CerebrasAI 推理芯片為大模型提供新思路

2024 Hot Chips|CerebrasAI 推理芯片為大模型提供新思路

2024 Hot Chips|CerebrasAI 推理芯片為大模型提供新思路

Part 2高效的數(shù)據(jù)傳輸和計(jì)算架構(gòu)2024 Hot Chips|CerebrasAI 推理芯片為大模型提供新思路

2024 Hot Chips|CerebrasAI 推理芯片為大模型提供新思路

Cerebras 的 WSE-3 通過直接在芯片上處理數(shù)據(jù),避免了傳統(tǒng) GPU 系統(tǒng)所需的高延遲高速串行鏈路、PCB 傳輸、交換芯片等復(fù)雜路徑。這樣一來,它能夠在更低功率下提供更大的內(nèi)存帶寬。例如,當(dāng)需要在 H100 集群中實(shí)現(xiàn)高內(nèi)存帶寬時(shí),必須使用多個(gè)并行接口,而在 Cerebras 的設(shè)計(jì)中,數(shù)據(jù)傳輸僅需在芯片上完成,簡化了體系結(jié)構(gòu)并提高了效率。2024 Hot Chips|CerebrasAI 推理芯片為大模型提供新思路

2024 Hot Chips|CerebrasAI 推理芯片為大模型提供新思路

2024 Hot Chips|CerebrasAI 推理芯片為大模型提供新思路

Cerebras 的 WSE-3 提供了靈活的多用戶和多模型并行計(jì)算能力。通過其大規(guī)模的片上內(nèi)存,多個(gè)用戶可以在同一芯片上同時(shí)運(yùn)行不同的 AI 推理任務(wù),極大地提高了計(jì)算資源的利用效率。同時(shí),由于其巨大的帶寬,Cerebras 能夠支持更小的批量大小(例如批量大小為 1),而不會遇到傳統(tǒng) GPU 系統(tǒng)在小批量推理中性能下降的情況。2024 Hot Chips|CerebrasAI 推理芯片為大模型提供新思路

2024 Hot Chips|CerebrasAI 推理芯片為大模型提供新思路

2024 Hot Chips|CerebrasAI 推理芯片為大模型提供新思路

2024 Hot Chips|CerebrasAI 推理芯片為大模型提供新思路

Cerebras 的 WSE-3 展示了 AI 推理領(lǐng)域的巨大潛力。通過橫向擴(kuò)展,Cerebras 可以將計(jì)算擴(kuò)展到多個(gè)晶圓上,例如在需要更大規(guī)模計(jì)算的情況下,可以將模型擴(kuò)展到四個(gè)晶圓上,這種方法可以輕松超越傳統(tǒng) GPU 無法達(dá)到的延遲和吞吐量水平。此外,Cerebras 已經(jīng)在多個(gè)數(shù)據(jù)中心(如圣克拉拉、斯托克頓和達(dá)拉斯)部署了其集群,并計(jì)劃進(jìn)一步擴(kuò)展。2024 Hot Chips|CerebrasAI 推理芯片為大模型提供新思路

2024 Hot Chips|CerebrasAI 推理芯片為大模型提供新思路

2024 Hot Chips|CerebrasAI 推理芯片為大模型提供新思路

2024 Hot Chips|CerebrasAI 推理芯片為大模型提供新思路

2024 Hot Chips|CerebrasAI 推理芯片為大模型提供新思路

2024 Hot Chips|CerebrasAI 推理芯片為大模型提供新思路

2024 Hot Chips|CerebrasAI 推理芯片為大模型提供新思路

2024 Hot Chips|CerebrasAI 推理芯片為大模型提供新思路

2024 Hot Chips|CerebrasAI 推理芯片為大模型提供新思路

2024 Hot Chips|CerebrasAI 推理芯片為大模型提供新思路

2024 Hot Chips|CerebrasAI 推理芯片為大模型提供新思路

小結(jié)Cerebras 的晶圓規(guī)模計(jì)算芯片在 Hot Chips 2024 上干貨比較多,通過打破 HBM 的限制、在芯片上直接處理數(shù)據(jù)、以及顯著的性能提升,為大型模型的推理提供了新的思路。


贊助本站

相關(guān)熱詞: 2024 Hot Chips CerebrasAI 推理

相關(guān)內(nèi)容
AiLab云推薦
展開

熱門欄目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能實(shí)驗(yàn)室 版權(quán)所有    關(guān)于我們 | 聯(lián)系我們 | 廣告服務(wù) | 公司動態(tài) | 免責(zé)聲明 | 隱私條款 | 工作機(jī)會 | 展會港