展會信息港展會大全

挑戰(zhàn) Google TPU,AI 芯片新玩家面臨哪些難題?
來源:互聯(lián)網(wǎng)   發(fā)布日期:2021-08-09 07:04:08   瀏覽:24582次  

導(dǎo)讀:雷鋒網(wǎng)按:距離 Google 第一代 TPU 助力 AlphaGo 打敗李世石已有 5 年,Google TPU 已經(jīng)更新到第四代。與此同時(shí),數(shù)據(jù)中心領(lǐng)域的 AI 芯片大熱,在大量投資下涌現(xiàn)了不少新玩家,盡管未來是光明的,但新玩家們不得不面對 Google 等大企業(yè)雄厚的財(cái)力和已經(jīng)形成...

雷鋒網(wǎng)按:距離 Google 第一代 TPU 助力 AlphaGo 打敗李世石已有 5 年,Google TPU 已經(jīng)更新到第四代。與此同時(shí),數(shù)據(jù)中心領(lǐng)域的 AI 芯片大熱,在大量投資下涌現(xiàn)了不少新玩家,盡管未來是光明的,但新玩家們不得不面對 Google 等大企業(yè)雄厚的財(cái)力和已經(jīng)形成的市場格局。挑戰(zhàn) Google TPU,AI 芯片新玩家還會面臨哪些難題?圍繞這一話題,外媒作者 BRIAN BAILEY 進(jìn)行了全面而深入的解讀,雷鋒網(wǎng)對本文進(jìn)行了不改變原意的編譯。

近些年,大量資金涌入到數(shù)據(jù)中心領(lǐng)域新型 AI 處理器的研發(fā)中。

但在投資熱潮的背后,也要注意到問題所在。畢竟,該領(lǐng)域需要處理的問題是特定的,結(jié)果不可預(yù)測;且該領(lǐng)域的競爭者們財(cái)力雄厚(因?yàn)樗鼈兺蔷揞^),能夠提供用戶黏性非常強(qiáng)的產(chǎn)品。

對于新型 AI 芯片設(shè)計(jì)公司而言,最大的問題在于:來自終端的數(shù)據(jù)不足。

需要多少個(gè)數(shù)據(jù)中心,才能實(shí)現(xiàn)盈利?

通常,芯片設(shè)計(jì)公司在設(shè)計(jì)一個(gè)新的 AI 處理器時(shí),首先會弄清楚一個(gè)基本問題 如何定義產(chǎn)品的靈活性?是專為單一任務(wù)而設(shè)計(jì)?還是支持更多的工作負(fù)載?

這兩個(gè)問題之間存在一系列解決方案,但與過去的許多解決方案相比,為 AI 處理器找到合適的解決方案更加困難,對數(shù)據(jù)中心工作負(fù)載而言尤其如此。

之所以更加困難,是因?yàn)橛性S多因素需要平衡。“既需要在一定的成本和時(shí)間內(nèi)設(shè)計(jì)和制造芯片,又要考慮成本和回報(bào)問題。”Synopsys 人工智能產(chǎn)品和研發(fā)總監(jiān) Stelios Diamantidis 解釋道。這些限制因素縮小了 AI 處理器的潛在市常

“設(shè)計(jì)和制造定制芯片,什么時(shí)候才能賺錢?”Synopsys 驗(yàn)證組工程副總裁 Susheel Tadikonda 說。

“如果我們要為數(shù)據(jù)中心提供定制芯片,那么需要多少個(gè)數(shù)據(jù)中心才能實(shí)現(xiàn)盈利?也許可以高價(jià)出售芯片,但光是這樣遠(yuǎn)遠(yuǎn)不夠。如果是為消費(fèi)電子設(shè)備設(shè)計(jì)和制造芯片,那么這一領(lǐng)域存在十億臺設(shè)備體量,這也是 AISC 芯片能夠賺取更多利潤的市場之一,當(dāng)然設(shè)備體量越大越好。”

不過就算最終弄清楚多少個(gè)數(shù)據(jù)中心才能實(shí)現(xiàn)盈利,也無法確定設(shè)計(jì)方案。

“芯片定制化程度越來越高,以至于能夠?yàn)榉浅L囟ǖ乃惴▌?chuàng)建芯片,提供更高的能效和性能,”西門子 EDA 戰(zhàn)略和業(yè)務(wù)發(fā)展高級經(jīng)理 Anoop Saha 說: “但這會犧牲一部分市場,也會縮短芯片的壽命。如果兩年后出現(xiàn)了一個(gè)新算法,那為舊算法定制的芯片的價(jià)值還會如初嗎?很多事情都會互相牽制。“

“一些邊緣算法確實(shí)已經(jīng)趨于穩(wěn)定。這是因?yàn)闃I(yè)界經(jīng)過多年研究,找到一些多場景適用的最佳算法,例如我們已經(jīng)看到的神經(jīng)卷積網(wǎng)絡(luò)算法 CNN(convolutional neural network),還有對于喚醒詞檢測、手寫識別等特定應(yīng)用找到的最佳算法。”Anoop Saha 補(bǔ)充道。

芯片自定義的優(yōu)勢

要對芯片進(jìn)行自定義,核心是理解面向何種工作負(fù)載芯片自定義的確為許多玩家?guī)韮?yōu)勢。

Xilinx 人工智能和軟件產(chǎn)品營銷總監(jiān) Nick Ni 表示:“大多數(shù)大型企業(yè)已經(jīng)組建了自己的芯片部門,并為其數(shù)據(jù)中心一些高工作負(fù)載打造芯片。例如,如果 Google 將‘推薦’型神經(jīng)網(wǎng)絡(luò)視為其數(shù)據(jù)中心中最高的工作負(fù)載之一,那么它就很有必要為此創(chuàng)建專用芯片。如果排名第二的工作負(fù)載是語音識別,排名第三的是 YouTube 的視頻轉(zhuǎn)碼,那么為其打造專用芯片都是有意義的。“

“其實(shí)這里的機(jī)會很多,但 Google 只是一個(gè)孤例。幾年前,谷歌發(fā)表了一篇廣受好評的論文,文章陳述了一個(gè)事實(shí)數(shù)據(jù)中心的工作負(fù)載類型非常豐富,但沒有一種工作負(fù)載占比超過 10%,這意味著還有大量占比微小的工作負(fù)載需要優(yōu)化。”

“大多數(shù)定制都是面向推理的,當(dāng)這些定制芯片轉(zhuǎn)向訓(xùn)練時(shí),就需要浮點(diǎn)支持,”Synopsys 的 Diamantidis 表示。

“但是如果需要的是一個(gè) 100% 應(yīng)用于推理的解決方案,那么它的定點(diǎn)( fixed point)位數(shù)可能是八位甚至更低的精度。如果模型是固定的,那么在推理基礎(chǔ)設(shè)備之上進(jìn)行定制是否有意義?例如,針對語音、視頻以及其他重量級應(yīng)用程序的定制解決方案。大企業(yè)們(Hyperscaler)實(shí)際上正在投資應(yīng)用于推理的芯片解決方案,這些推理適用于它們自身在 AI 領(lǐng)域的定制化高級模型和解決方案但如果是需要處理多種應(yīng)用,那么就需要更多的靈活性和可定制性。”

當(dāng)然,對 Google 而言,這已經(jīng)是一個(gè)良性循環(huán)。“ TPU 旨在滿足 Google 數(shù)據(jù)中心內(nèi)的特定工作負(fù)載,”Synopsys 的 Tadikonda 說。“Google 最開始打造TPU,是因?yàn)橐庾R到處理如此龐大復(fù)雜的數(shù)據(jù)和計(jì)算,需要建立起大量的數(shù)據(jù)中心。"

“第一代 TPU 體積大且非常耗電,但它已經(jīng)通過不斷地學(xué)習(xí)而得到了改進(jìn),這正是這些 TPU 的工作,這就是 Google 。 ”

并非每家公司都能夠使用 Google 的反饋循環(huán),不過其他公司也確有其他選擇。“我們發(fā)現(xiàn),其中一個(gè)關(guān)鍵點(diǎn)是盡可能早得關(guān)注和重視選擇正確的架構(gòu),”西門子的 Saha 說。“所謂正確,并不是指某一個(gè)人認(rèn)為正確,也不是基于過去的經(jīng)驗(yàn),憑直覺做出的決定,因?yàn)楝F(xiàn)在還有太多的未知數(shù)。業(yè)界正在做的,是在設(shè)計(jì)周期早期,依靠數(shù)據(jù)驅(qū)動做出決定,這樣我們能夠在發(fā)現(xiàn)某些東西不起作用時(shí)迅速做出改變。”

這些決定是宏觀的,也可以是微觀的。“比如說,你的存儲元素與計(jì)算元素差距有多大?” Saha問道:“再比如,多久執(zhí)行一次內(nèi)存讀取,這是一個(gè)重要的問題,因?yàn)樽x取和寫入將直接影響整體的能效。業(yè)界正在尋找新的架構(gòu),沒有人知道什么樣的架構(gòu)才真正起作用。不過可以確定的是,要有一定的可塑性,且在決定架構(gòu)之前,能夠確保有足夠的市場數(shù)據(jù)來支撐。”

硬件和算法迭代快

影響架構(gòu)選擇的另一個(gè)因素是硬件和算法的發(fā)展速度。這決定了數(shù)據(jù)中心所有者從他們購買的硬件中賺錢的時(shí)間,也決定了他們愿意支付的價(jià)格,同時(shí)限定了芯片開發(fā)的總成本。

那么,數(shù)據(jù)中心芯片(即硬件)的使用壽命是多久?

“通常情況下,芯片或電路板的壽命為三到四年,”Xilinx 的 Ni 說。“一些較為激進(jìn)的數(shù)據(jù)中心可能會在這一時(shí)間段內(nèi)升級,還有一些則會持續(xù)使用更長時(shí)間。在人工智能領(lǐng)域,如果我們關(guān)注 Google TPU 的發(fā)布新聞,就能發(fā)現(xiàn)在過去六年左右的時(shí)間里,Google 發(fā)行了四個(gè)版本的 TPU,也就是說,幾乎每隔一兩年 Google 就會更換一次內(nèi)部硬件,針對 AI 等快速變化的工作負(fù)載進(jìn)行優(yōu)化。”

換個(gè)角度來看,AI 芯片公司可能每 18 個(gè)月就有一次進(jìn)入數(shù)據(jù)中心的機(jī)會。“要攪動這個(gè)市場并不容易,”Saha 說。“有兩個(gè)重要因素更換現(xiàn)有數(shù)據(jù)中心芯片的頻率,以及添加新東西的頻率。我看見幾乎所有的數(shù)據(jù)中心都在嘗試更新的東西,幾乎每個(gè)構(gòu)建數(shù)據(jù)中心芯片的公司都在同一些終端客戶合作。“

“市場多久更換一次正在工作的芯片?只要芯片在工作,公司就會盡量延長芯片的使用壽命。一旦芯片進(jìn)入數(shù)據(jù)中心,持續(xù)的時(shí)間會很長且難以更換。這就是為什么我們可以看到大型數(shù)據(jù)中心芯片領(lǐng)域有大量投資。”

“一部分投資者認(rèn)為這是贏家通吃的市場,最終會有一至三個(gè)獲勝者獲得最大的市場份額。一旦市場被這些公司占領(lǐng),這些公司的地位就很難被取代。”

設(shè)計(jì)面向 18 個(gè)月后的芯片

如果從今天開始設(shè)計(jì)芯片,那么這顆芯片必須滿足18個(gè)月后需要滿足的條件。

“當(dāng)我們決定對芯片進(jìn)行模塊化時(shí),我們還必須針對特定精度進(jìn)行優(yōu)化,”Xilinx 的 Ni 說。“例如,當(dāng)我們選擇在 8 位數(shù)精度上做文章時(shí),我們不得不立下賭約,當(dāng)這款產(chǎn)品成為主流時(shí),8 位仍然是主流。

“我們還要確保制造出的產(chǎn)品可以處理混合精度網(wǎng)絡(luò),其中一半是 8 位,四分之一是 4 位,另外四分之一是 1 位。為此,我們在 AI 引擎中執(zhí)行 8 位,其運(yùn)行基本性能非?,然后可以在 FPGA 架構(gòu)中實(shí)現(xiàn) 4 位和 1 位 MAC 單元。”

設(shè)計(jì)時(shí)間和算法進(jìn)化的時(shí)間要保持一致。“在 18 個(gè)月內(nèi),應(yīng)用程序很可能會變得相當(dāng)不同,”Tadikonda 警告說。“我認(rèn)為今天的數(shù)據(jù)科學(xué)家不會向任何人保證他們將在未來 18 個(gè)月內(nèi)運(yùn)行與今天相同的模型。”

還有其他一系列決策也需要作出。

“量化可能是許多能效指標(biāo)中的最大因素,”Saha 說。“量化將對推理產(chǎn)生更大的影響,推理分散在數(shù)據(jù)中心和邊緣之間,但在‘學(xué)習(xí)’端也需要一些量化。當(dāng)我們量化成較低的位數(shù)時(shí),就意味著我們正在權(quán)衡能效而不是準(zhǔn)確性。訓(xùn)練可能需要浮點(diǎn)數(shù),不過有一些新型浮點(diǎn)數(shù)出現(xiàn)。谷歌在設(shè)計(jì)下一代 TPU 時(shí),他們創(chuàng)造了 Bfloat16,這是用于訓(xùn)練的“大腦浮點(diǎn)數(shù)”。它與 IEEE 浮點(diǎn)數(shù)非常不同,它在精度上具有浮點(diǎn)數(shù)的優(yōu)勢,但也具有顯著的能效優(yōu)勢。”

不過這將讓經(jīng)濟(jì)因素陷入困境。

“對于如此規(guī)模的 ASIC,需要在快速變化節(jié)奏里付出巨大的努力,只有少數(shù)公司能夠保證其經(jīng)濟(jì)性,”Tadikonda 說。“因?yàn)橛嘘P(guān)這些數(shù)據(jù)的用例正在增加,所以算法正在發(fā)生變化。我們今天認(rèn)為有效的算法明天不一定有效,想要跟上節(jié)奏并處于最前沿,就必須不斷創(chuàng)新或重新研發(fā) ASIC。谷歌占據(jù)優(yōu)勢,因?yàn)樗鼡碛凶銐蚨嗟臄?shù)據(jù)以至于能快速攪動局面,它從自己的 TPU 中學(xué)到了很多東西,知道為了保證程序運(yùn)行地更好需要作出哪些改變。”

“如果我是第三方芯片開發(fā)商,我沒有這些數(shù)據(jù),就只能依靠我的客戶來提供,因此周轉(zhuǎn)周期會更長。谷歌的情況非常特殊。”

數(shù)據(jù)的缺乏也給驗(yàn)證帶來壓力。“浮點(diǎn)硬件的驗(yàn)證對滿足這些芯片的性能和功耗要求至關(guān)重要,”OneSpin市場營銷主管 Rob Van Blommestein 說。

“長期以來,浮點(diǎn)硬件設(shè)計(jì)的驗(yàn)證一直被認(rèn)為是一項(xiàng)重大挑戰(zhàn)。FPU(floating-point unit)將浮點(diǎn)運(yùn)算的數(shù)學(xué)復(fù)雜性與需要復(fù)雜控制路徑的各種特殊情況相結(jié)合。我們需要一種正式的驗(yàn)證解決方案,以驗(yàn)證由硬件浮點(diǎn)單元 (FPU) 計(jì)算出的算術(shù)運(yùn)算結(jié)果是否與 IEEE 754 標(biāo)準(zhǔn)規(guī)范準(zhǔn)確匹配。”

結(jié)論

人們常說,數(shù)據(jù)是新的石油,這一比喻在人工智能領(lǐng)域得以明顯體現(xiàn)。

對于芯片架構(gòu)師來說,這個(gè)比喻再恰切不過。他們需要訪問數(shù)據(jù)來改進(jìn)構(gòu)建更好的產(chǎn)品,這也是數(shù)據(jù)中心處理器用戶黏性高的原因;架構(gòu)師們一旦擁有數(shù)據(jù)中心處理器,就有機(jī)會獲得需要的數(shù)據(jù)。

另一個(gè)唯一可行的辦法是加快設(shè)計(jì)速度來提升效率,推動產(chǎn)品成本的回收但具有諷刺意味的是,在試圖通過提升效率來解決問題的時(shí)候,AI 卻成為了唯一的阻礙者。

畢竟,AI 領(lǐng)域的算法進(jìn)化速度和變數(shù)實(shí)在是太大了。


贊助本站

相關(guān)內(nèi)容
AiLab云推薦
推薦內(nèi)容
展開

熱門欄目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能實(shí)驗(yàn)室 版權(quán)所有    關(guān)于我們 | 聯(lián)系我們 | 廣告服務(wù) | 公司動態(tài) | 免責(zé)聲明 | 隱私條款 | 工作機(jī)會 | 展會港