国产av永久无码天堂影院,亚洲人成网亚洲欧洲无码,国产三级在线播放第一页

2024 Hot Chips｜CerebrasAI 推理芯片為大模型提供新思路

來源：互聯(lián)網(wǎng) 發(fā)布日期：2024-09-13 13:30:46 瀏覽：2786次

導(dǎo)讀：芝能智芯出品在 Hot Chips 2024 大會上，Cerebras 展示了其在 AI 推理領(lǐng)域的最新進(jìn)展，通過其晶圓規(guī)模引擎（Wafer-Scale Engine, WSE-3）芯片超越了現(xiàn)有的 AI 計(jì)算架構(gòu)，例如 NVIDIA 的 H100 GPU。Cerebras 在推理性能、能效和擴(kuò)展性方面取得的顯著突破，通...

芝能智芯出品在 Hot Chips 2024 大會上，Cerebras 展示了其在 AI 推理領(lǐng)域的最新進(jìn)展，通過其晶圓規(guī)模引擎（Wafer-Scale Engine, WSE-3）芯片超越了現(xiàn)有的 AI 計(jì)算架構(gòu)，例如 NVIDIA 的 H100 GPU。Cerebras 在推理性能、能效和擴(kuò)展性方面取得的顯著突破，通過采用大規(guī)模的片上內(nèi)存（SRAM）來規(guī)避高帶寬內(nèi)存（HBM）的限制。 2024 Hot Chips｜CerebrasAI 推理芯片為大模型提供新思路

2024 Hot Chips｜CerebrasAI 推理芯片為大模型提供新思路

Part 1晶圓規(guī)模計(jì)算芯片 2024 Hot Chips｜CerebrasAI 推理芯片為大模型提供新思路

Cerebras 的 WSE-3 是世界上最大的計(jì)算芯片，擁有 44GB 的片上 SRAM 和超過 850,000 個(gè)計(jì)算核心。與傳統(tǒng)的 GPU 將一個(gè)大晶圓切割成多個(gè)小芯片的方式不同，Cerebras 的 WSE-3 保留了整個(gè)晶圓，這樣做的好處是將所有計(jì)算都集中在一個(gè)芯片上，減少了數(shù)據(jù)移動的需求和延遲。通過這種方法，Cerebras 可以將整個(gè) AI 模型放入片上內(nèi)存中，而不需要將部分模型轉(zhuǎn)移到芯片外的 HBM 存儲器中。 2024 Hot Chips｜CerebrasAI 推理芯片為大模型提供新思路

在推理性能方面，Cerebras 表示其解決方案顯著超越了基于 NVIDIA H100 的系統(tǒng)。在 Llama3.1-8B 模型的推理任務(wù)中，Cerebras 的 WSE-3 比 Microsoft Azure 上的 NVIDIA H100 快 20 倍。此外，Cerebras 還展示了在單芯片上運(yùn)行更大模型（如 Llama3.1-70B）的能力，與 NVIDIA DGX H100 解決方案相比，該解決方案展現(xiàn)出了顯著的吞吐量和延遲優(yōu)勢。 2024 Hot Chips｜CerebrasAI 推理芯片為大模型提供新思路

2024 Hot Chips｜CerebrasAI 推理芯片為大模型提供新思路

Part 2高效的數(shù)據(jù)傳輸和計(jì)算架構(gòu) 2024 Hot Chips｜CerebrasAI 推理芯片為大模型提供新思路

2024 Hot Chips｜CerebrasAI 推理芯片為大模型提供新思路

Cerebras 的 WSE-3 通過直接在芯片上處理數(shù)據(jù)，避免了傳統(tǒng) GPU 系統(tǒng)所需的高延遲高速串行鏈路、PCB 傳輸、交換芯片等復(fù)雜路徑。這樣一來，它能夠在更低功率下提供更大的內(nèi)存帶寬。例如，當(dāng)需要在 H100 集群中實(shí)現(xiàn)高內(nèi)存帶寬時(shí)，必須使用多個(gè)并行接口，而在 Cerebras 的設(shè)計(jì)中，數(shù)據(jù)傳輸僅需在芯片上完成，簡化了體系結(jié)構(gòu)并提高了效率。 2024 Hot Chips｜CerebrasAI 推理芯片為大模型提供新思路

2024 Hot Chips｜CerebrasAI 推理芯片為大模型提供新思路

Cerebras 的 WSE-3 提供了靈活的多用戶和多模型并行計(jì)算能力。通過其大規(guī)模的片上內(nèi)存，多個(gè)用戶可以在同一芯片上同時(shí)運(yùn)行不同的 AI 推理任務(wù)，極大地提高了計(jì)算資源的利用效率。同時(shí)，由于其巨大的帶寬，Cerebras 能夠支持更小的批量大小（例如批量大小為 1），而不會遇到傳統(tǒng) GPU 系統(tǒng)在小批量推理中性能下降的情況。 2024 Hot Chips｜CerebrasAI 推理芯片為大模型提供新思路

2024 Hot Chips｜CerebrasAI 推理芯片為大模型提供新思路

Cerebras 的 WSE-3 展示了 AI 推理領(lǐng)域的巨大潛力。通過橫向擴(kuò)展，Cerebras 可以將計(jì)算擴(kuò)展到多個(gè)晶圓上，例如在需要更大規(guī)模計(jì)算的情況下，可以將模型擴(kuò)展到四個(gè)晶圓上，這種方法可以輕松超越傳統(tǒng) GPU 無法達(dá)到的延遲和吞吐量水平。此外，Cerebras 已經(jīng)在多個(gè)數(shù)據(jù)中心（如圣克拉拉、斯托克頓和達(dá)拉斯）部署了其集群，并計(jì)劃進(jìn)一步擴(kuò)展。 2024 Hot Chips｜CerebrasAI 推理芯片為大模型提供新思路