展會信息港展會大全

應(yīng)對無限計算需求,英偉達AI能力再升級
來源:互聯(lián)網(wǎng)   發(fā)布日期:2020-11-19 08:43:39   瀏覽:4222次  

導(dǎo)讀:每年的11月中旬,都是一年一度的超算周。 因為每年的這個時間,全球規(guī)模最大、參與人數(shù)最多、影響力最為深遠的SC超算大會都會在美國召開,更會發(fā)布全球領(lǐng)先的TOP500超算排行榜。即便今年因為疫情因素,會議被迫改為了線上,但報名人數(shù)反而更多了沒有了線上的...

每年的11月中旬,都是一年一度的“超算周”。

因為每年的這個時間,全球規(guī)模最大、參與人數(shù)最多、影響力最為深遠的SC超算大會都會在美國召開,更會發(fā)布全球領(lǐng)先的TOP500超算排行榜。即便今年因為疫情因素,會議被迫改為了線上,但報名人數(shù)反而更多了沒有了線上的束縛之后,原本一周的會期被增加到了三周,包括會議、論文、比賽、展示等多個環(huán)節(jié)。

而就在北京時間17日凌晨5點,第56屆全球超算TOP500排行榜公布。雖然來自日本的Fugaku超級計算機蟬聯(lián)冠軍,但僅僅是排名前十的系統(tǒng)中就新增了兩名新成員,而且他們無一例外的都采用了異構(gòu)架構(gòu)用英偉達的GPU進行加速。

其實早在2012年榮膺世界第一的Titan超級計算機開始,英偉達就與TOP500結(jié)下了不解之緣。隨后,絕大多數(shù)頂尖超算平臺都采用了英偉達的GPU加速,出色的性能、便捷的應(yīng)用使得越來越多的平臺也加入了英偉達陣營。尤其是在機器學(xué)習(xí)、深度學(xué)習(xí)等人工智能應(yīng)用出現(xiàn)并普及之后,英偉達的GPU就成為了最受用戶喜愛的AI加速器。

本次榜單的TOP10

以本次TOP500榜單為例,500套系統(tǒng)中共有149套系統(tǒng)正在使用加速器/協(xié)處理器技術(shù),相對于6個月前的榜單來說有了進一步提升。而在這149套系統(tǒng)中,有140套系統(tǒng)采用的是英偉達GPU加速器,這也證明了NVIDIA在異構(gòu)領(lǐng)域的絕對霸主地位。僅在大家最關(guān)注的TOP10超算中,就有6套系統(tǒng)采用了英偉達GPU加速器,今年剛剛發(fā)布的A100也占據(jù)了其中三分之一的份額。

榜樣的力量是無窮的,幾乎所有超算或者HPC從業(yè)者都意識到了英偉達GPU加速器的價值。正因為對于性能的無限追求,用戶希望英偉達能夠推出更大、更快、更強的GPU,使得AI訓(xùn)練或者應(yīng)用的響應(yīng)時間進一步縮短。也就是在這次SC20大會上,英偉達就如愿發(fā)布了這樣的一款產(chǎn)品A100 80GB GPU。

英偉達最新發(fā)布的A100 80GB GPU

從名字就能看出來,A10080GB GPU的內(nèi)存容量是原有A100型號的兩倍,這不禁讓我想到了蘋果的那句廣告詞Bigger than Bigger。但是A100 80GB GPU顯然并不只是“大”,按照NVIDIA 應(yīng)用深度學(xué)習(xí)研究副總裁 Bryan Catanzaro的話說,它還具備了“更高的帶寬,突破了每秒2TB的限制,使研究人員可以應(yīng)對全球科學(xué)及大數(shù)據(jù)方面最嚴峻的挑戰(zhàn)”。

按照英偉達的說法,A10080GB可實現(xiàn)高達3倍加速,這樣用戶在進行類似于

DLRM 等AI 訓(xùn)練提供了的時候也就會更為輕松;同時超大容量的它還能夠訓(xùn)練諸如GPT-2這樣的大型自然語言處理模型,解決傳統(tǒng)訓(xùn)練中跨節(jié)點運行緩慢,耗時嚴重等問題。

當然并不是所有客戶都需要這么大的容量,所以英偉達也為A100 80GB搭載了其特色的多實例GPU(MIG)技術(shù),使得A100 80GB最多能夠被分割為7個GPU實例。這樣一來也大大提升了GPU對于較小工作負載的利用率,比如對于RNN-T等自動語言識別模型的處理中,單個A100 80GB MIG實例可處理更大規(guī)模的批量數(shù)據(jù),將生產(chǎn)中的推理吞吐量提高1.25倍。

更大、更快、更強,這也恰恰是A100 80GB GPU所實現(xiàn)的價值所在。與大多數(shù)人印象中不同的是,翻倍的內(nèi)存容量在帶來更高吞吐量和帶寬的同時,也可以通過物理隔離的手段讓客戶同時運行多個實例,提升運行效率。當然包括結(jié)構(gòu)化稀疏、第三代 NVLink 和NVSwitch等功能也是A100 80GB GPU所具備的,在AI推理能力和互連能力上也有所進步。

就在英偉達發(fā)布A10080GB GPU的第一時間,浪潮就宣布在自家NF5488M5-D和NF5488A5兩臺服務(wù)器上實現(xiàn)對其支持。除此之外,包括HPE、戴爾、聯(lián)想、富士通等多家服務(wù)器公司也表示支持A100 80GB GPU,足以看出業(yè)界對于英偉達的認可與信賴。

英偉達最新發(fā)布的DGX Station A100工作組服務(wù)器

除了發(fā)布一款“巨無霸”級別的GPU之外,英偉達同時也宣布了DGXStation的升級版新款產(chǎn)品被命名為DGXStation A100,也是唯一配備4個A100Tensor Core GPU的工作組服務(wù)器,其性能達到了恐怖的2.5petaflops。要知道,這屆TOP500榜單的入門級別只要1.32petaflops,而2.5petaflops這個成績與排名第150位的美國Cascade超級計算機相當。

之所以在發(fā)布之初就具備如此強悍的實力,得益于DGX Station A100所具備的320GB GPU內(nèi)存,同時它也是唯一支持多實例 GPU(MIG)技術(shù)的工作組服務(wù)器,借助于 MIG,單一 DGX Station A100最多可提供28個獨立GPU實例以運行并行任務(wù),不影響系統(tǒng)性能前提下支持多用戶。

是的,你發(fā)現(xiàn)了,DGXStation A100的參數(shù)指標是我們剛剛提到的A100 80GB GPU的4倍,換句話說DGX Station A100也就是由剛剛發(fā)布的A100 80GB GPU構(gòu)成的。因此在性能方面尤其是GPU擅長 AI訓(xùn)練方面,DGX Station A100的性能相對于上一代提升了4倍,而對于 BERT Large AI 訓(xùn)練等復(fù)雜模型性能也有了近3倍的提升。

這里我們需要特別說明的是,DGX Station A100作為英偉達第二代人工智能系統(tǒng),其配置已經(jīng)從原有的英特爾至強平臺轉(zhuǎn)向AMD第二代霄龍平臺。對此,NVIDIA副總裁 、DGX系統(tǒng)總經(jīng)理Charlie Boyle表示:“我們在選擇平臺的時候并不關(guān)注品牌,而是在乎實際的性能表現(xiàn),我們總是把最好的平臺提供給客戶”。

許多人可能會關(guān)心如此強大性能的平臺是不是需要有專屬的數(shù)據(jù)中心?其實并非如此。作為工作組服務(wù)器,DGX Station A100并不需要高散熱的數(shù)據(jù)中心,只要放在辦公室中就可以穩(wěn)定運行,所以從這個角度來說它更像是一臺工作站。“DGX Station A100可以接入任何地方,提供AI服務(wù)”,Charlie Boyle表示。

如今,已經(jīng)有寶馬集團、 德國人工智能研究中心(DFKI)、NTT Docomo、太平洋西北國家實驗室(PNNL)等公司,正基于DGX Station開發(fā)部署 AI 模型或展開相關(guān)研究。這也恰恰印證了我們剛剛提到的業(yè)界對于GPU性能有著無限的追求,再快都不嫌快。

一直以來,英偉達都給我們強大的計算體驗,幫助我們更好的進入AI時代。但是從今年開始,英偉達還能夠為我們提供強大的互連能力。同樣是在這次SC20大會上,英偉達發(fā)布了Mellanox 400G InfiniBand,這也是在收購之后發(fā)布的第一款重磅級產(chǎn)品。

就專業(yè)應(yīng)用來說,InfiniBand都是HPC應(yīng)用的核心技術(shù)之一。從這次TOP500榜單來看,雖然榜單中大約一半的系統(tǒng)(254套)使用了以太網(wǎng),大約三分之一的系統(tǒng)(182套)使用了InfiniBand網(wǎng)絡(luò),但是就實際總量來說InfiniBand系統(tǒng)占據(jù)主導(dǎo)地位,性能超過萬億級。在排名前十的超算系統(tǒng)中,更是有7套都采用了InfiniBand網(wǎng)絡(luò),其中5套為HDR(200G)系統(tǒng),2套為EDR(100G)系統(tǒng)。500套系統(tǒng)中有47套采用了HDR、有74套采用了EDR,還有更多系統(tǒng)采用了慢一些的QDR或FDR。

如此也同樣看出超算對于網(wǎng)絡(luò)互連和帶寬的性能追求。InfiniBand網(wǎng)絡(luò)的特色就是低延遲、高帶寬,越大的帶寬意味著同時通過的數(shù)據(jù)量越多,越可以提升系統(tǒng)的交互能力。為此,英偉達特別發(fā)布了Mellanox 400G InfiniBand,為人工智能開發(fā)人員和科研人員提供最快的網(wǎng)絡(luò)性能。

Mellanox InfiniBand NDR 400Gb/s全產(chǎn)品線

官方資料顯示,MellanoxInfiniBand NDR 400Gb/s產(chǎn)品在上一代的基礎(chǔ)上實現(xiàn)了性能與吞吐量的翻倍,并擁有網(wǎng)卡、芯片、交換、網(wǎng)線接口等多種產(chǎn)品。其中交換機可以提供3倍的端口密度,同時第三代NVIDIA Mellanox SHARP技術(shù)使InfiniBand網(wǎng)絡(luò)能夠卸載并加速深度學(xué)習(xí)訓(xùn)練操作,使AI加速能力提高32倍,也更適合未來的E級計算。雖然性能提升,但是在總體擁有成本上Mellanox InfiniBand NDR 400Gb/s反而進一步降低,因為聚合雙向吞吐量提高了5倍,用戶則可以選擇更多端口的交換機。

雖然英偉達表示MellanoxInfiniBand NDR 400Gb/s產(chǎn)品可能要到半年后的2021年第二季度才能開始提供樣品,但是依然有不少機構(gòu)對其表現(xiàn)出了濃厚的興趣包括微軟公司、美國Los Alamos國家實驗室、Jülich超算中心等多家機構(gòu)都表現(xiàn)出了對新產(chǎn)品的期待,并期待“雙方持續(xù)保持緊密的合作伙伴關(guān)系”。

或許你已經(jīng)發(fā)現(xiàn)了,雖然英偉達僅僅是發(fā)布了這三大類產(chǎn)品,但市場卻已經(jīng)早早的做出了反應(yīng),無論是合作伙伴還是客戶都率先表達了對英偉達的支持與信任。之所以如此,恰恰是因為英偉達迎合了當下整個業(yè)界對對計算、互聯(lián)的無限追求,迎合了用戶對于AI加速器和網(wǎng)絡(luò)設(shè)備性能的迫切期待,也迎合了蓬勃發(fā)展的人工智能大潮。

顯然,在邁向百億億次計算未來的道路上,英偉達為用戶提供了更豐富和更強大的工具,也讓自己的AI之路越走越寬。


贊助本站

相關(guān)內(nèi)容
AiLab云推薦
推薦內(nèi)容
展開

熱門欄目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能實驗室 版權(quán)所有    關(guān)于我們 | 聯(lián)系我們 | 廣告服務(wù) | 公司動態(tài) | 免責(zé)聲明 | 隱私條款 | 工作機會 | 展會港