11月22日,美國國家工程院外籍院士、粵港澳大灣區(qū)數(shù)字經(jīng)濟研究院創(chuàng)院理事長沈向洋在2024IDEA大會上分享了其對人工智能“三件套”(算力、算法、數(shù)據(jù))的最新思考。他表示,在技術(shù)大爆發(fā)時期開展創(chuàng)新,對技術(shù)的深度理解尤為重要。站在商業(yè)的視角,新技術(shù)快速沖入市場,則意味著技術(shù)需要理解需求。技術(shù)要在持續(xù)不斷的反饋和創(chuàng)新中,與市場完成匹配。
從“摩爾定律”到“黃氏定律”:算力需求持續(xù)增長
整個計算行業(yè)過去四五十年的發(fā)展,最重要的一件事情是算力的不斷提升。根據(jù)英特爾創(chuàng)始人之一戈登摩爾(Gordon Moor)提出的摩爾定律,當(dāng)價格不變時,集成電路上可容納的元器件的數(shù)目,約每隔18-24個月便會增加一倍,性能也將提升一倍;蛘邠Q句話,性能每2年翻一倍,價格下降一半。
然而過去這十幾年隨著人工智能的蓬勃發(fā)展,特別是深度學(xué)習(xí)的發(fā)展,對算力的需求更加提高。英偉達提出了以其創(chuàng)始人黃仁勛的名字命名的“黃氏定律”,認(rèn)為GPU(圖形處理器)將推動AI性能實現(xiàn)逐年翻倍。
“從以前的百億級,到現(xiàn)在的千億級、萬億級,大模型參數(shù)規(guī)模越來越大,對訓(xùn)練的要求越來越高。要訓(xùn)練這樣的模型,數(shù)據(jù)量要增長,性能要隨之提升,對算力的需求也會呈現(xiàn)出平方級的增長。所以我經(jīng)常講一句話,那就是‘講卡傷感情,沒卡沒感情’!鄙蛳蜓蟾锌f道。
同時,沈向洋評論稱,英偉達是過去十幾年,IT行業(yè)、人工智能行業(yè)最了不起、最成功的一家公司之一,它硬生生把自己從一家做硬件、芯片的乙方公司做成了甲方!按蠹覍τミ_的未來充滿信心,最重要的是對算力的需求。這也解釋了為什么過去十年英偉達的市值漲了300倍!
從GPT到o1:人工智能發(fā)生范式轉(zhuǎn)移
沈向洋表示,從2017年開始Transformer架構(gòu)(一種基于注意力機制的深度學(xué)習(xí)模型架構(gòu))出來,人工智能、深度學(xué)習(xí)、大模型基本上是沿著Transformer這條線“堆”數(shù)據(jù)、“堆”算力。GPT4推出之后,盡管GPT5一直沒有出來,但OpenAI仍然推出了一些新技術(shù)突破的東西,包括多模態(tài)GPT-4o。最新的o1(OpenAI最新發(fā)布的大語言模型)推理學(xué)習(xí)能力展現(xiàn)出的人工智能的范式轉(zhuǎn)移非常值得我們認(rèn)真思考。
GPT系列做的事情是通過預(yù)訓(xùn)練來預(yù)測“下一個Token(吞吐量)”。技術(shù)背景是把所有的數(shù)據(jù)進行“聰明的”壓縮,它可以很快給你答案。只要問一句話就能得到一個結(jié)果。而新的范式變革是增強學(xué)習(xí),即可以自行改善的“Learning(學(xué)習(xí))”,在給出答案之前還有一個后訓(xùn)練、后推理的過程。
實際上,增強學(xué)習(xí)并不是一個新鮮事物。AlphaGo下圍棋就是用這種增強學(xué)習(xí)的方法打敗人類世界冠軍的。不過新的增強學(xué)習(xí)“打法”更為通用。以前做一個系統(tǒng)只能解決一個問題,比如下圍棋或者做其他工作。今天o1不僅可以做數(shù)據(jù)、做編程,還可以做物理、做化學(xué)等等!拔矣X得接下來這幾年,算法沿著SRL(強化學(xué)習(xí))這條道路走下去,一定會有令人驚艷的全新突破!鄙蛳蜓蟊硎。
從海量到高質(zhì)量數(shù)據(jù)短缺:未來大模型需要合成數(shù)據(jù)
公開數(shù)據(jù)顯示,GPT3的訓(xùn)練用了2T(即2萬億Token)的數(shù)據(jù)。GPT4大概用了20T(即20萬億Token)的數(shù)據(jù),幾乎相當(dāng)于今天能找到的所有清洗過的互聯(lián)網(wǎng)數(shù)據(jù)。GPT5要比GPT4有長足的進步,預(yù)測數(shù)據(jù)量大概會達到200T(即200萬億Token)的規(guī)模。
為了進一步闡釋大模型訓(xùn)練所需的數(shù)據(jù)量規(guī)模,沈向洋列舉了幾個例子:1萬億數(shù)據(jù)相當(dāng)于500萬本書,或者20萬張高清照片,亦或是500萬篇論文。一個人從小學(xué)、中學(xué)、大學(xué)到念完大學(xué)的時候,真正學(xué)到的東西相當(dāng)于1000本,也僅僅是0.00018T的數(shù)據(jù)。人類歷史上所有的書加起來大概也只有21億Token的數(shù)據(jù)。
“現(xiàn)在互聯(lián)網(wǎng)上已經(jīng)找不到那么多高質(zhì)量的數(shù)據(jù)了,人工智能向前發(fā)展要造數(shù)據(jù)、合成數(shù)據(jù),這有可能帶來大模型創(chuàng)業(yè)的下一個百億美金問題,那就是怎么來合成數(shù)據(jù)!鄙蛳蜓蟊硎。GPT系列模型的訓(xùn)練依靠的是互聯(lián)網(wǎng)語料數(shù)據(jù),比如文本、圖片、音頻、視頻等多模態(tài)數(shù)據(jù),o1的訓(xùn)練則需要強邏輯性的數(shù)據(jù),很多數(shù)據(jù)是網(wǎng)上沒有的,需要做一些優(yōu)質(zhì)的合成數(shù)據(jù)。
“我們不能盲目的造數(shù)據(jù),而是要有理有據(jù),有邏輯關(guān)系的存在。要先采集真實數(shù)據(jù),建一個語境圖譜,然后再合成數(shù)據(jù),把這些合成數(shù)據(jù)放進大模型繼續(xù)做預(yù)訓(xùn)練和推理!鄙蛳蜓蠼榻B說道。據(jù)他透露,IDEA DataMaker(數(shù)據(jù)合成平臺)知識驅(qū)動大模型數(shù)據(jù)合成技術(shù)已經(jīng)可以將模型推理準(zhǔn)確率提升25.4%以上,平均節(jié)約成本達85.7%。同時,IDEA大模型合成數(shù)據(jù)加密訓(xùn)練技術(shù)可以打破數(shù)據(jù)孤島,助力私域數(shù)據(jù)的安全流通。相較于基礎(chǔ)模型,該技術(shù)可將大模型專業(yè)推理能力提升12.8%~24.1%,加密接近無損甚至少量提升。
作者丨宋婧編輯丨趙晨美編丨馬利亞監(jiān)制丨連曉東