當(dāng)前位置：人工智能實(shí)驗(yàn)室> 人工智能動態(tài) > 挑戰(zhàn) Google TPU，AI 芯片新玩家面臨哪些難題？

挑戰(zhàn) Google TPU，AI 芯片新玩家面臨哪些難題？
來源：互聯(lián)網(wǎng) 發(fā)布日期：2021-08-09 07:04:08 瀏覽：24582次

導(dǎo)讀：雷鋒網(wǎng)按：距離 Google 第一代 TPU 助力 AlphaGo 打敗李世石已有 5 年，Google TPU 已經(jīng)更新到第四代。與此同時(shí)，數(shù)據(jù)中心領(lǐng)域的 AI 芯片大熱，在大量投資下涌現(xiàn)了不少新玩家，盡管未來是光明的，但新玩家們不得不面對 Google 等大企業(yè)雄厚的財(cái)力和已經(jīng)形成...

雷鋒網(wǎng)按：距離 Google 第一代 TPU 助力 AlphaGo 打敗李世石已有 5 年，Google TPU 已經(jīng)更新到第四代。與此同時(shí)，數(shù)據(jù)中心領(lǐng)域的 AI 芯片大熱，在大量投資下涌現(xiàn)了不少新玩家，盡管未來是光明的，但新玩家們不得不面對 Google 等大企業(yè)雄厚的財(cái)力和已經(jīng)形成的市場格局。挑戰(zhàn) Google TPU，AI 芯片新玩家還會面臨哪些難題？圍繞這一話題，外媒作者 BRIAN BAILEY 進(jìn)行了全面而深入的解讀，雷鋒網(wǎng)對本文進(jìn)行了不改變原意的編譯。

近些年，大量資金涌入到數(shù)據(jù)中心領(lǐng)域新型 AI 處理器的研發(fā)中。

但在投資熱潮的背后，也要注意到問題所在。畢竟，該領(lǐng)域需要處理的問題是特定的，結(jié)果不可預(yù)測；且該領(lǐng)域的競爭者們財(cái)力雄厚（因?yàn)樗鼈兺蔷揞^），能夠提供用戶黏性非常強(qiáng)的產(chǎn)品。

對于新型 AI 芯片設(shè)計(jì)公司而言，最大的問題在于：來自終端的數(shù)據(jù)不足。

需要多少個(gè)數(shù)據(jù)中心，才能實(shí)現(xiàn)盈利？

通常，芯片設(shè)計(jì)公司在設(shè)計(jì)一個(gè)新的 AI 處理器時(shí)，首先會弄清楚一個(gè)基本問題如何定義產(chǎn)品的靈活性？是專為單一任務(wù)而設(shè)計(jì)？還是支持更多的工作負(fù)載？

這兩個(gè)問題之間存在一系列解決方案，但與過去的許多解決方案相比，為 AI 處理器找到合適的解決方案更加困難，對數(shù)據(jù)中心工作負(fù)載而言尤其如此。

之所以更加困難，是因?yàn)橛性S多因素需要平衡。“既需要在一定的成本和時(shí)間內(nèi)設(shè)計(jì)和制造芯片，又要考慮成本和回報(bào)問題。”Synopsys 人工智能產(chǎn)品和研發(fā)總監(jiān) Stelios Diamantidis 解釋道。這些限制因素縮小了 AI 處理器的潛在市常

“設(shè)計(jì)和制造定制芯片，什么時(shí)候才能賺錢？”Synopsys 驗(yàn)證組工程副總裁 Susheel Tadikonda 說。

“如果我們要為數(shù)據(jù)中心提供定制芯片，那么需要多少個(gè)數(shù)據(jù)中心才能實(shí)現(xiàn)盈利？也許可以高價(jià)出售芯片，但光是這樣遠(yuǎn)遠(yuǎn)不夠。如果是為消費(fèi)電子設(shè)備設(shè)計(jì)和制造芯片，那么這一領(lǐng)域存在十億臺設(shè)備體量，這也是 AISC 芯片能夠賺取更多利潤的市場之一，當(dāng)然設(shè)備體量越大越好。”

不過就算最終弄清楚多少個(gè)數(shù)據(jù)中心才能實(shí)現(xiàn)盈利，也無法確定設(shè)計(jì)方案。

“芯片定制化程度越來越高，以至于能夠?yàn)榉浅Ｌ囟ǖ乃惴▌?chuàng)建芯片，提供更高的能效和性能，”西門子 EDA 戰(zhàn)略和業(yè)務(wù)發(fā)展高級經(jīng)理 Anoop Saha 說： “但這會犧牲一部分市場，也會縮短芯片的壽命。如果兩年后出現(xiàn)了一個(gè)新算法，那為舊算法定制的芯片的價(jià)值還會如初嗎？很多事情都會互相牽制。“

“一些邊緣算法確實(shí)已經(jīng)趨于穩(wěn)定。這是因?yàn)闃I(yè)界經(jīng)過多年研究，找到一些多場景適用的最佳算法，例如我們已經(jīng)看到的神經(jīng)卷積網(wǎng)絡(luò)算法 CNN（convolutional neural network），還有對于喚醒詞檢測、手寫識別等特定應(yīng)用找到的最佳算法。”Anoop Saha 補(bǔ)充道。

芯片自定義的優(yōu)勢

要對芯片進(jìn)行自定義，核心是理解面向何種工作負(fù)載芯片自定義的確為許多玩家?guī)韮?yōu)勢。

Xilinx 人工智能和軟件產(chǎn)品營銷總監(jiān) Nick Ni 表示：“大多數(shù)大型企業(yè)已經(jīng)組建了自己的芯片部門，并為其數(shù)據(jù)中心一些高工作負(fù)載打造芯片。例如，如果 Google 將‘推薦’型神經(jīng)網(wǎng)絡(luò)視為其數(shù)據(jù)中心中最高的工作負(fù)載之一，那么它就很有必要為此創(chuàng)建專用芯片。如果排名第二的工作負(fù)載是語音識別，排名第三的是 YouTube 的視頻轉(zhuǎn)碼，那么為其打造專用芯片都是有意義的。“

“其實(shí)這里的機(jī)會很多，但 Google 只是一個(gè)孤例。幾年前，谷歌發(fā)表了一篇廣受好評的論文，文章陳述了一個(gè)事實(shí)數(shù)據(jù)中心的工作負(fù)載類型非常豐富，但沒有一種工作負(fù)載占比超過 10%，這意味著還有大量占比微小的工作負(fù)載需要優(yōu)化。”

“大多數(shù)定制都是面向推理的，當(dāng)這些定制芯片轉(zhuǎn)向訓(xùn)練時(shí)，就需要浮點(diǎn)支持，”Synopsys 的 Diamantidis 表示。

“但是如果需要的是一個(gè) 100% 應(yīng)用于推理的解決方案，那么它的定點(diǎn)（ fixed point）位數(shù)可能是八位甚至更低的精度。如果模型是固定的，那么在推理基礎(chǔ)設(shè)備之上進(jìn)行定制是否有意義？例如，針對語音、視頻以及其他重量級應(yīng)用程序的定制解決方案。大企業(yè)們（Hyperscaler）實(shí)際上正在投資應(yīng)用于推理的芯片解決方案，這些推理適用于它們自身在 AI 領(lǐng)域的定制化高級模型和解決方案但如果是需要處理多種應(yīng)用，那么就需要更多的靈活性和可定制性。”

當(dāng)然，對 Google 而言，這已經(jīng)是一個(gè)良性循環(huán)。“ TPU 旨在滿足 Google 數(shù)據(jù)中心內(nèi)的特定工作負(fù)載，”Synopsys 的 Tadikonda 說。“Google 最開始打造TPU，是因?yàn)橐庾R到處理如此龐大復(fù)雜的數(shù)據(jù)和計(jì)算，需要建立起大量的數(shù)據(jù)中心。"

“第一代 TPU 體積大且非常耗電，但它已經(jīng)通過不斷地學(xué)習(xí)而得到了改進(jìn)，這正是這些 TPU 的工作，這就是 Google 。 ”

并非每家公司都能夠使用 Google 的反饋循環(huán)，不過其他公司也確有其他選擇。“我們發(fā)現(xiàn)，其中一個(gè)關(guān)鍵點(diǎn)是盡可能早得關(guān)注和重視選擇正確的架構(gòu)，”西門子的 Saha 說。“所謂正確，并不是指某一個(gè)人認(rèn)為正確，也不是基于過去的經(jīng)驗(yàn)，憑直覺做出的決定，因?yàn)楝F(xiàn)在還有太多的未知數(shù)。業(yè)界正在做的，是在設(shè)計(jì)周期早期，依靠數(shù)據(jù)驅(qū)動做出決定，這樣我們能夠在發(fā)現(xiàn)某些東西不起作用時(shí)迅速做出改變。”

這些決定是宏觀的，也可以是微觀的。“比如說，你的存儲元素與計(jì)算元素差距有多大？” Saha問道：“再比如，多久執(zhí)行一次內(nèi)存讀取，這是一個(gè)重要的問題，因?yàn)樽x取和寫入將直接影響整體的能效。業(yè)界正在尋找新的架構(gòu)，沒有人知道什么樣的架構(gòu)才真正起作用。不過可以確定的是，要有一定的可塑性，且在決定架構(gòu)之前，能夠確保有足夠的市場數(shù)據(jù)來支撐。”

硬件和算法迭代快

影響架構(gòu)選擇的另一個(gè)因素是硬件和算法的發(fā)展速度。這決定了數(shù)據(jù)中心所有者從他們購買的硬件中賺錢的時(shí)間，也決定了他們愿意支付的價(jià)格，同時(shí)限定了芯片開發(fā)的總成本。

那么，數(shù)據(jù)中心芯片（即硬件）的使用壽命是多久？

“通常情況下，芯片或電路板的壽命為三到四年，”Xilinx 的 Ni 說。“一些較為激進(jìn)的數(shù)據(jù)中心可能會在這一時(shí)間段內(nèi)升級，還有一些則會持續(xù)使用更長時(shí)間。在人工智能領(lǐng)域，如果我們關(guān)注 Google TPU 的發(fā)布新聞，就能發(fā)現(xiàn)在過去六年左右的時(shí)間里，Google 發(fā)行了四個(gè)版本的 TPU，也就是說，幾乎每隔一兩年 Google 就會更換一次內(nèi)部硬件，針對 AI 等快速變化的工作負(fù)載進(jìn)行優(yōu)化。”

換個(gè)角度來看，AI 芯片公司可能每 18 個(gè)月就有一次進(jìn)入數(shù)據(jù)中心的機(jī)會。“要攪動這個(gè)市場并不容易，”Saha 說。“有兩個(gè)重要因素更換現(xiàn)有數(shù)據(jù)中心芯片的頻率，以及添加新東西的頻率。我看見幾乎所有的數(shù)據(jù)中心都在嘗試更新的東西，幾乎每個(gè)構(gòu)建數(shù)據(jù)中心芯片的公司都在同一些終端客戶合作。“

“市場多久更換一次正在工作的芯片？只要芯片在工作，公司就會盡量延長芯片的使用壽命。一旦芯片進(jìn)入數(shù)據(jù)中心，持續(xù)的時(shí)間會很長且難以更換。這就是為什么我們可以看到大型數(shù)據(jù)中心芯片領(lǐng)域有大量投資。”

“一部分投資者認(rèn)為這是贏家通吃的市場，最終會有一至三個(gè)獲勝者獲得最大的市場份額。一旦市場被這些公司占領(lǐng)，這些公司的地位就很難被取代。”

設(shè)計(jì)面向 18 個(gè)月后的芯片

如果從今天開始設(shè)計(jì)芯片，那么這顆芯片必須滿足18個(gè)月后需要滿足的條件。

“當(dāng)我們決定對芯片進(jìn)行模塊化時(shí)，我們還必須針對特定精度進(jìn)行優(yōu)化，”Xilinx 的 Ni 說。“例如，當(dāng)我們選擇在 8 位數(shù)精度上做文章時(shí)，我們不得不立下賭約，當(dāng)這款產(chǎn)品成為主流時(shí)，8 位仍然是主流。

“我們還要確保制造出的產(chǎn)品可以處理混合精度網(wǎng)絡(luò)，其中一半是 8 位，四分之一是 4 位，另外四分之一是 1 位。為此，我們在 AI 引擎中執(zhí)行 8 位，其運(yùn)行基本性能非�？�，然后可以在 FPGA 架構(gòu)中實(shí)現(xiàn) 4 位和 1 位 MAC 單元。”

設(shè)計(jì)時(shí)間和算法進(jìn)化的時(shí)間要保持一致。“在 18 個(gè)月內(nèi)，應(yīng)用程序很可能會變得相當(dāng)不同，”Tadikonda 警告說。“我認(rèn)為今天的數(shù)據(jù)科學(xué)家不會向任何人保證他們將在未來 18 個(gè)月內(nèi)運(yùn)行與今天相同的模型。”

還有其他一系列決策也需要作出。

“量化可能是許多能效指標(biāo)中的最大因素，”Saha 說。“量化將對推理產(chǎn)生更大的影響，推理分散在數(shù)據(jù)中心和邊緣之間，但在‘學(xué)習(xí)’端也需要一些量化。當(dāng)我們量化成較低的位數(shù)時(shí)，就意味著我們正在權(quán)衡能效而不是準(zhǔn)確性。訓(xùn)練可能需要浮點(diǎn)數(shù)，不過有一些新型浮點(diǎn)數(shù)出現(xiàn)。谷歌在設(shè)計(jì)下一代 TPU 時(shí)，他們創(chuàng)造了 Bfloat16，這是用于訓(xùn)練的“大腦浮點(diǎn)數(shù)”。它與 IEEE 浮點(diǎn)數(shù)非常不同，它在精度上具有浮點(diǎn)數(shù)的優(yōu)勢，但也具有顯著的能效優(yōu)勢。”

不過這將讓經(jīng)濟(jì)因素陷入困境。

“對于如此規(guī)模的 ASIC，需要在快速變化節(jié)奏里付出巨大的努力，只有少數(shù)公司能夠保證其經(jīng)濟(jì)性，”Tadikonda 說。“因?yàn)橛嘘P(guān)這些數(shù)據(jù)的用例正在增加，所以算法正在發(fā)生變化。我們今天認(rèn)為有效的算法明天不一定有效，想要跟上節(jié)奏并處于最前沿，就必須不斷創(chuàng)新或重新研發(fā) ASIC。谷歌占據(jù)優(yōu)勢，因?yàn)樗鼡碛凶銐蚨嗟臄?shù)據(jù)以至于能快速攪動局面，它從自己的 TPU 中學(xué)到了很多東西，知道為了保證程序運(yùn)行地更好需要作出哪些改變。”

“如果我是第三方芯片開發(fā)商，我沒有這些數(shù)據(jù)，就只能依靠我的客戶來提供，因此周轉(zhuǎn)周期會更長。谷歌的情況非常特殊。”

數(shù)據(jù)的缺乏也給驗(yàn)證帶來壓力。“浮點(diǎn)硬件的驗(yàn)證對滿足這些芯片的性能和功耗要求至關(guān)重要，”OneSpin市場營銷主管 Rob Van Blommestein 說。

“長期以來，浮點(diǎn)硬件設(shè)計(jì)的驗(yàn)證一直被認(rèn)為是一項(xiàng)重大挑戰(zhàn)。FPU（floating-point unit）將浮點(diǎn)運(yùn)算的數(shù)學(xué)復(fù)雜性與需要復(fù)雜控制路徑的各種特殊情況相結(jié)合。我們需要一種正式的驗(yàn)證解決方案，以驗(yàn)證由硬件浮點(diǎn)單元 (FPU) 計(jì)算出的算術(shù)運(yùn)算結(jié)果是否與 IEEE 754 標(biāo)準(zhǔn)規(guī)范準(zhǔn)確匹配。”

結(jié)論

人們常說，數(shù)據(jù)是新的石油，這一比喻在人工智能領(lǐng)域得以明顯體現(xiàn)。

對于芯片架構(gòu)師來說，這個(gè)比喻再恰切不過。他們需要訪問數(shù)據(jù)來改進(jìn)構(gòu)建更好的產(chǎn)品，這也是數(shù)據(jù)中心處理器用戶黏性高的原因；架構(gòu)師們一旦擁有數(shù)據(jù)中心處理器，就有機(jī)會獲得需要的數(shù)據(jù)。

另一個(gè)唯一可行的辦法是加快設(shè)計(jì)速度來提升效率，推動產(chǎn)品成本的回收但具有諷刺意味的是，在試圖通過提升效率來解決問題的時(shí)候，AI 卻成為了唯一的阻礙者。

畢竟，AI 領(lǐng)域的算法進(jìn)化速度和變數(shù)實(shí)在是太大了。

相關(guān)熱詞： 挑戰(zhàn) Google TPU 芯片新玩家玩家面臨哪些