展會信息港展會大全

為什么人工智能會超出你想象的費電
來源:互聯(lián)網(wǎng)   發(fā)布日期:2020-12-29 17:17:41   瀏覽:15056次  

導讀:https://qz.com/1949677/why-have-ai-models-become-so-power-hungry/ Kate Saenko 編輯/大路 每當談及未來科技,人工智能和新能源常常一起出現(xiàn)。久而久之,我們似乎都有種錯覺,人工智能就是節(jié)能環(huán)保的。但事實卻非如此,人工智能雖然功能強大,科幻感十足...

https://qz.com/1949677/why-have-ai-models-become-so-power-hungry/

Kate Saenko

編輯/大路

每當談及未來科技,人工智能和新能源常常一起出現(xiàn)。久而久之,我們似乎都有種錯覺,人工智能就是節(jié)能環(huán)保的。但事實卻非如此,人工智能雖然功能強大,科幻感十足,但卻一點也不環(huán)保,甚至“污染”嚴重。

十二月初,一則谷歌公司的丑聞引起了軒然大波。事件起因是谷歌一名研究員想發(fā)表論文,但被內(nèi)部否決、并被要求撤稿。這篇論文的內(nèi)容就是關于谷歌的語言處理人工智能會產(chǎn)生巨大的碳足跡。碳足跡(carbon footprint)是指企業(yè)機構(gòu)、產(chǎn)品或個人通過交通運輸、食品生產(chǎn)和消費以及各類生產(chǎn)過程等引起的溫室氣體排放的集合。而根據(jù)研究人員估計,訓練一個人工智能模型所產(chǎn)生的碳排放,相當于把五部車生產(chǎn)出來并開到報廢。

像谷歌在愛荷華州的這個數(shù)據(jù)中心就耗費了大量電力。

那為什么AI模型是如此的耗電呢?它與傳統(tǒng)的數(shù)據(jù)中心計算有什么不同呢?

培訓效率低

相比數(shù)據(jù)中心完成的傳統(tǒng)數(shù)據(jù)處理包括視頻流、電子郵件和社交媒體。AI的計算量更大,因為它需要閱讀大量的數(shù)據(jù),直到它學會理解這些數(shù)據(jù)--也就是我們常說的接受訓練。

雖然被稱為人工智能,但與人的學習方式相比,這種訓練的效率非常低,F(xiàn)代人工智能使用的是人工神經(jīng)網(wǎng)絡,它是模擬人腦神經(jīng)元的一種數(shù)學計算。每個神經(jīng)元與相鄰神經(jīng)元的連接強度是網(wǎng)絡的一個參數(shù),被稱為權重。為了學習如何理解人類語言,網(wǎng)絡會從隨機權重開始,并逐步調(diào)整,直到模型的輸出與正確答案一致。

訓練語言網(wǎng)絡的一個常見方法就是,給它輸入大量來自維基百科和新聞機構(gòu)等網(wǎng)站的文本,并將一些單詞屏蔽掉,讓它猜測被屏蔽的單詞。一個例子是 "我的狗很可愛","可愛 "這個詞被掩蓋掉。一開始,模型會把它們?nèi)颗e,但是,經(jīng)過多輪調(diào)整后,連接權重會開始變化,并在數(shù)據(jù)中發(fā)現(xiàn)正確的模式,而網(wǎng)絡最終也變得準確。

最近的一個名為BERT的模型就使用了33億個來自英文書籍和維基百科文章中的單詞進行訓練。而且,在訓練過程中,BERT對這個數(shù)據(jù)集的閱讀不是一次,而是40次。相比之下,一個學會說話的孩子在5歲前可能僅會聽到4500萬個單詞,這比BERT少3000倍。

尋找合適的結(jié)構(gòu)

此外,讓語言模型的構(gòu)建成本更高的原因是,這個訓練過程在開發(fā)過程中會發(fā)生很多次。因為研究人員希望找到網(wǎng)絡的最佳結(jié)構(gòu)--有多少神經(jīng)元,神經(jīng)元之間有多少連接,學習過程中參數(shù)的變化速度應該有多快等等。他們嘗試的組合越多,網(wǎng)絡達到高精度的機會就越大。而相比之下,人類的大腦不需要找到一個最佳結(jié)構(gòu)--它們自帶一個經(jīng)過進化磨練的“預建結(jié)構(gòu)”。

隨著公司和學術界在人工智能領域的互相競爭,人們也都面臨著在技術狀態(tài)上改進的壓力。即使在機器翻譯這樣的困難任務上實現(xiàn)1%的準確性進步,也會是非常重要的,企業(yè)就可以借此進行更好的宣傳。但為了獲得這1%的改進,一個研究者可能要對模型進行數(shù)千次訓練,每次都用不同的結(jié)構(gòu),直到找到最好的模型。

馬薩諸塞大學阿默斯特分校的研究人員通過測量訓練過程中常用硬件的功耗,估算了開發(fā)人工智能語言模型的能源成本。他們發(fā)現(xiàn),訓練一次 BERT 的碳足跡相當于一名乘客在紐約和舊金山之間飛一個來回。然而,再通過使用不同的結(jié)構(gòu)進行搜索--也就是說,通過使用略微不同數(shù)量的神經(jīng)元、連接和其他參數(shù)對數(shù)據(jù)進行多次訓練,成本變成了相當于315名乘客,或者整架747飛機的碳排放。

更大更熱

AI模型也常常比它們需要的大得多,而且這一數(shù)值每年都在增長。一個類似于 BERT 的最新語言模型,叫做 GPT-2,它的網(wǎng)絡中就有 15 億個權重。而今年因為其高準確度而引起轟動的GPT-3則有1750億個權重。

研究人員發(fā)現(xiàn),擁有更大的網(wǎng)絡會導致更好的準確性,即使只有一小部分網(wǎng)絡最終是有用的。類似的事情也發(fā)生在兒童的大腦中,神經(jīng)元連接會先被添加,然后又被減少,但很明顯,生物大腦比計算機更節(jié)能。

并且,AI模型是在專門的硬件上進行訓練的,比如圖形處理器單元,它們比傳統(tǒng)的CPU消耗更多的電力。如果你擁有一臺游戲筆記本電腦,它可能就有一個這樣的圖形處理器單元,以創(chuàng)建高級圖形,例如玩Minecraft RTX。你可能也會注意到,它們產(chǎn)生的熱量比普通筆記本電腦要多得多。

所有這些理論和證據(jù)都意味著,開發(fā)高級人工智能模型正在增加大量的碳足跡。除非我們改用100%的可再生能源,否則人工智能的進步可能會與減少溫室氣體排放和減緩氣候變化的目標背道而馳。開發(fā)的財務成本也變得更高,以至于只有少數(shù)選定的實驗室能夠負擔得起,而這些實驗室的管理者也是制定什么樣的人工智能模型能得到開發(fā)的議程的人。

事半功倍

這對人工智能研究的未來意味著什么呢?事情可能也不像看起來那么悲觀。隨著更高效的訓練方法被發(fā)明出來,訓練的成本可能會下降。同樣,雖然數(shù)據(jù)中心的能源使用之前被預測將會爆炸性增長,但由于數(shù)據(jù)中心效率的提高,也擁有了更高效的硬件和冷卻,這種情況并沒有發(fā)生。

此外,訓練模型的成本和使用模型的成本之間也有一個權衡,所以在訓練時花費更多的精力來提出一個更小的模型,實際上可能會讓使用模型的成本更低。因為一個模型在它的一生中會被使用很多次,這就會節(jié)約了大量的能源。

研究人員也一直在研究如何通過共享權重,或者在網(wǎng)絡的多個部分使用相同的權重來使AI模型變得更校這些網(wǎng)絡被稱為為shapshifter網(wǎng)絡,因為一組小的權重可以被重新配置成任何形狀或結(jié)構(gòu)的大網(wǎng)絡。其他研究人員也已經(jīng)表明,在相同的訓練時間內(nèi),權重共享具有更好的性能。

展望未來,人工智能界或許應該在開發(fā)節(jié)能的訓練方案上投入更多。否則,就有可能讓人工智能被少數(shù)有能力設定議程的人所主導,包括開發(fā)什么樣的模型,用什么樣的數(shù)據(jù)來訓練它們,以及模型的用途。


贊助本站

相關內(nèi)容
AiLab云推薦
推薦內(nèi)容
展開

熱門欄目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能實驗室 版權所有    關于我們 | 聯(lián)系我們 | 廣告服務 | 公司動態(tài) | 免責聲明 | 隱私條款 | 工作機會 | 展會港