劃重點(diǎn)
01圖靈獎得主Yann LeCun表示,當(dāng)前主流的技術(shù)路徑無法引領(lǐng)我們走向AGI,甚至現(xiàn)在AI的水平還不如一只貓。
02他建議放棄生成模型、概率模型、對比學(xué)習(xí)和強(qiáng)化學(xué)習(xí),轉(zhuǎn)而采用JEPA架構(gòu)和基于能量的模型。
03LeCun認(rèn)為,通用人工智能需要數(shù)年到數(shù)十年才能實(shí)現(xiàn),機(jī)器將超越人類智力,但處于控制之下。
04為此,他呼吁開源人工智能平臺,以促進(jìn)文化多樣性和民主的保存。
以上內(nèi)容由騰訊混元大模型生成,僅供參考
在 AI 圈里,圖靈獎得主 Yann Lecun 是一個典型的異類。當(dāng)眾多技術(shù)專家堅信,沿著當(dāng)前的技術(shù)路線,AGI 的實(shí)現(xiàn)只是時間問題時,Yann Lecun 卻一再提出異議。在與同行的激烈辯論中,他不止一次表示,當(dāng)前主流的技術(shù)路徑無法引領(lǐng)我們走向 AGI,甚至現(xiàn)在 AI 的水平還不如一只貓。而圖靈獎得主、Meta 首席 AI 科學(xué)家、紐約大學(xué)教授等等,這些耀眼的頭銜以及沉甸甸的一線實(shí)踐經(jīng)驗(yàn),卻也讓我們誰也無法忽視這位 AI 專家的見解。
那么,Yann LeCun 對于 AI 的未來究竟有何看法呢?在最近一次公開演講中,他也再次詳細(xì)闡述了自己的觀點(diǎn):僅僅依靠文本訓(xùn)練,AI 永遠(yuǎn)無法達(dá)到接近人類水平的智能。部分觀點(diǎn)如下:1.未來,人們將普遍佩戴智能眼鏡或其他類型的智能設(shè)備,這些設(shè)備將內(nèi)置助手系統(tǒng),形成個人的智能虛擬團(tuán)隊,以提高個人的創(chuàng)造性和效率。2.智能系統(tǒng)的目的不是為了取代人類,而是為了增強(qiáng)人類的智力,使人們能夠更高效地工作。3.即使是寵物貓,其大腦中的模型也比任何 AI 系統(tǒng)能夠構(gòu)建的模型復(fù)雜。4.FAIR 基本上不再專注于語言模型,而是朝向下一代 AI 系統(tǒng)的長期目標(biāo)邁進(jìn)。5.僅僅通過訓(xùn)練文本數(shù)據(jù),AI 系統(tǒng)無法達(dá)到接近人類水平的智力。6.Yann Lecun 建議放棄生成模型、概率模型、對比學(xué)習(xí)和強(qiáng)化學(xué)習(xí),轉(zhuǎn)而采用 JEPA 架構(gòu)和基于能量的模型,認(rèn)為這些方法更有可能推動 AI 的發(fā)展。7.雖然機(jī)器最終會超越人類智力,但它們將受到控制,因?yàn)樗鼈兪悄繕?biāo)驅(qū)動的。有趣的是,演講開始前還發(fā)生了一段小插曲。主持人在介紹 LeCun 時,稱他為 Facebook AI 研究院(FAIR)的首席 AI 科學(xué)家。對此,LeCun 在演講開始前澄清,F(xiàn)AIR 中的「F」已經(jīng)不再代表 Facebook,而是「基垂(Fundamental)的意思。關(guān)注 AI 第一新媒體,率先獲取 AI 前沿資訊和洞察
AI 對世界的了解不如你的貓好的,我將談?wù)勅祟愃郊墑e的 AI,以及說我們?nèi)绾螌?shí)現(xiàn)它,以及我們?yōu)楹斡植粫䦟?shí)現(xiàn)它。首先,我們確實(shí)需要人類水平的 AI。因?yàn)槲磥恚幸粋是我們大多數(shù)人將佩戴智能眼鏡或其他類型的設(shè)備。我們將與這些設(shè)備進(jìn)行對話,而這些系統(tǒng)將承載助手,可能不止一個,可能是一整套助手。這將導(dǎo)致我們每個人基本上都有一支智能虛擬團(tuán)隊在為我們工作。所以,人人都將成為「老板」,只是這些「員工」不是真正的人類。我們需要構(gòu)建這樣的系統(tǒng),基本上是為了增強(qiáng)人類的智力,使人們更具創(chuàng)造性和更高效。
但為此,我們需要機(jī)器能夠理解世界,能夠記住事物,具備直覺和常識,能夠推理和計劃,達(dá)到與人類相同的水平。盡管你可能聽到過一些支持者說,目前的 AI 系統(tǒng)并不具備這些能力。所以我們需要花時間學(xué)習(xí)如何建模世界,擁有關(guān)于世界運(yùn)作的心理模型。事實(shí)上,每種動物都有這樣的模型。你的貓一定有一個比任何 AI 系統(tǒng)所能構(gòu)建或設(shè)計的模型都要復(fù)雜的模型。
我們需要的系統(tǒng)應(yīng)該具有持久記憶的系統(tǒng),而當(dāng)前的語言模型(LLM)并沒有,能夠規(guī)劃復(fù)雜行動序列的系統(tǒng),而今天的系統(tǒng)無法做到,并且這個系統(tǒng)應(yīng)該是可控和安全的。因此,我將提出一個架構(gòu),稱為目標(biāo)驅(qū)動的 AI。我大約兩年前寫了一篇關(guān)于這個的愿景論文,并發(fā)布了這篇論文。FAIR 的很多人正在努力實(shí)現(xiàn)這個計劃。FAIR 過去研究過更多應(yīng)用項(xiàng)目,但 Meta 在一年半前創(chuàng)建了一個名為生成式 AI(Gen AI)的產(chǎn)品部門,專注于 AI 產(chǎn)品。他們進(jìn)行應(yīng)用研發(fā),因此現(xiàn)在 FAIR 已經(jīng)被重新引導(dǎo),朝向下一代 AI 系統(tǒng)的長期目標(biāo)。我們基本上不再專注于語言模型。包括大型語言模型(LLM)在內(nèi)的 AI 成功,尤其是過去 5、6 年中取得的許多其他系統(tǒng)的成功,依賴于一系列技術(shù),當(dāng)然,包括自監(jiān)督學(xué)習(xí)。
自監(jiān)督學(xué)習(xí)的核心在于訓(xùn)練一個系統(tǒng),不是針對任何特定任務(wù),而是盡量以良好的方式表示輸入數(shù)據(jù)。實(shí)現(xiàn)這一點(diǎn)的一種方法是通過損壞再重建恢復(fù)。因此,你可以取一段文本,通過去掉一些單詞或改變其他單詞來破壞它。這個過程可以用于文本、DNA 序列、蛋白質(zhì)或其他任何內(nèi)容,甚至在某種程度上也可以用于圖像。然后你訓(xùn)練一個龐大的神經(jīng)網(wǎng)絡(luò)來重建完整的輸入,即未被破壞的版本。這是一個生成模型,因?yàn)樗噲D重建原始信號。所以,紅色框就像一個代價函數(shù),對吧?它計算輸入 Y 和重建后的輸出 y 之間的距離,而這就是學(xué)習(xí)過程中要最小化的參數(shù)。在這個過程中,系統(tǒng)學(xué)習(xí)到了輸入的內(nèi)部表示,可以用于各種后續(xù)任務(wù)。
當(dāng)然,這可以用于預(yù)測文本中的單詞,這就是自回歸預(yù)測(autoregressive prediction)所做的事情。語言模型是這一點(diǎn)的特例,其中架構(gòu)的設(shè)計方式是為了預(yù)測一個項(xiàng)、一個 token 或一個單詞時,只能查看其左側(cè)的其他token。它不能查看未來。如果你正確訓(xùn)練一個系統(tǒng),給它展示文本,并要求它預(yù)測文本中的下一個單詞或下一個 token,那么你可以使用該系統(tǒng)來預(yù)測下一個單詞。然后你將那個下一個單詞加入輸入中,再預(yù)測第二個單詞,并將其加入輸入中,預(yù)測第三個單詞。這就是自回歸預(yù)測(autoregressive prediction)。這是 LLMs 所做的事情,這并不是一個新概念,自香農(nóng)(Shannon)時代以來就存在了,可以追溯到 50 年代,這已經(jīng)很久了,但變化在于我們現(xiàn)在擁有那些龐大的神經(jīng)網(wǎng)絡(luò)架構(gòu),可以在大量數(shù)據(jù)上進(jìn)行訓(xùn)練,并且看起來會從中涌現(xiàn)出一些特性。但這種自回歸預(yù)測有一些主要的局限性,在通常意義上這里并沒有真正的推理存在。還有另一個局限性是,這僅適用于以離散對象、符號、token、單詞等形式出現(xiàn)的數(shù)據(jù),基本上是可以離散化的東西。我們在達(dá)到人類水平智力方面仍然缺少一些重要的東西。我在這里并不一定是在談?wù)撊祟愃降闹橇,但即使是你的貓或狗也能完成一些?dāng)前 AI 系統(tǒng)無法企及的驚人壯舉。
任何 10 歲的小孩都可以一次性學(xué)會清理餐桌并填滿洗碗機(jī),對吧?根本不需要練習(xí)之類的,對吧?17 歲的人學(xué)會開車大約需要 20 小時的練習(xí)。我們?nèi)匀粵]有 L5 級自動駕駛汽車,當(dāng)然也沒有能夠清理餐桌和填滿洗碗機(jī)的家用機(jī)器人。僅僅通過訓(xùn)練文本,AI 永遠(yuǎn)無法達(dá)到接近人類水平的智力所以我們真的缺少一些重要的東西,否則我們將能夠用 AI 系統(tǒng)完成這些事情。我們不斷碰到一個叫做莫拉維克悖論(Moravec's Paradox)的東西,即對我們而言看似微不足道、甚至不被認(rèn)為是智能的事情,實(shí)際上用機(jī)器完成起來卻非常困難,而像操縱語言這樣的高級復(fù)雜抽象思維,似乎對機(jī)器來說卻很簡單,像下棋、圍棋之類的事情也是如此。也許其中一個原因是這樣的。一個大型語言模型(LLM)通常是在 20 萬億個 token 上進(jìn)行訓(xùn)練的。一個 token 基本上是一個單詞的四分之三,平均來說。因此,這里總共是 1.5 × 10 的 13 次方個單詞。每個 token 大約是 3B,通常,這樣就需要 6 × 10 的 13 次方個字節(jié)。對于我們?nèi)魏我粋人來說,讀完這些內(nèi)容大約需要幾十萬年的時間,對吧?這基本上是互聯(lián)網(wǎng)上所有公開文本的總和。
但考慮一下一個孩子,一個四歲的孩子總共清醒了 16000 小時。我們有 200 萬個視神經(jīng)纖維進(jìn)入我們的大腦。每根神經(jīng)纖維大約以每秒 1B 的速度傳輸數(shù)據(jù),也許是每秒半個字節(jié)。有些估計說這可能是每秒 3B。這沒關(guān)系,反正是一個數(shù)量級。這個數(shù)據(jù)量大約是 10 的 14 次方個字節(jié),差不多與 LLM 的數(shù)量級相當(dāng)。因此,在四年內(nèi),一個四歲孩子看到的視覺數(shù)據(jù)與最大的語言模型在整個互聯(lián)網(wǎng)上公開可用的文本上訓(xùn)練的數(shù)據(jù)量一樣多。以數(shù)據(jù)作為起點(diǎn),這告訴我們幾個事情。首先,這告訴我們,僅僅通過訓(xùn)練文本,我們永遠(yuǎn)無法達(dá)到接近人類水平的智力。這是根本不可能發(fā)生的。其次,視覺信息是非常冗余的,每根視神經(jīng)纖維每秒傳輸 1B 的信息,這已經(jīng)比你視網(wǎng)膜中的光感受器壓縮了 100 比 1。我們視網(wǎng)膜中大約有 6000 萬到 1 億個光感受器。這些光感受器通過視網(wǎng)膜前的神經(jīng)元壓縮為 100 萬個神經(jīng)纖維。因此,已經(jīng)存在 100 比 1 的壓縮。然后到達(dá)大腦時,信息被擴(kuò)展了大約 50 倍左右。
因此,我測量的是壓縮信息,但它仍然非常冗余。而冗余實(shí)際上是自監(jiān)督學(xué)習(xí)所需要的。自監(jiān)督學(xué)習(xí)只會從冗余數(shù)據(jù)中學(xué)習(xí)到有用的東西,如果數(shù)據(jù)高度壓縮,這意味著數(shù)據(jù)變成了隨機(jī)噪聲的,那么你就無法學(xué)習(xí)任何東西。你需要冗余才能學(xué)習(xí)到任何東西。你需要學(xué)習(xí)數(shù)據(jù)的潛在結(jié)構(gòu)。因此,我們需要訓(xùn)練系統(tǒng),通過觀看視頻或在現(xiàn)實(shí)世界中生活來學(xué)習(xí)常識和物理知識。我說話的順序可能會有些混亂,我主要想告訴你這個目標(biāo)驅(qū)動的人工智能架構(gòu)到底是什么。它與 LLM 或前饋神經(jīng)元有很大不同,因?yàn)橥评磉^程不僅僅是通過神經(jīng)網(wǎng)絡(luò)的一系列層,而實(shí)際上是運(yùn)行一個優(yōu)化算法。
從概念上來看,它看起來是這樣的。一種前饋過程是觀察結(jié)果通過感知系統(tǒng)運(yùn)行的過程。例如,如果你有一系列的神經(jīng)網(wǎng)絡(luò)層并產(chǎn)生一個輸出,那么對于任何單一輸入,你只能有一個輸出,但在很多情況下,對于一個感知,可能會有多個可能的輸出解釋。你需要一種不僅僅計算功能,而是能夠?yàn)閱我惠斎胩峁┒鄠輸出的映射過程。實(shí)現(xiàn)這一點(diǎn)的唯一方法是通過隱函數(shù);旧,這個目標(biāo)框架右側(cè)的紅色框表示一個函數(shù),它基本上測量輸入與其提議輸出之間的兼容性,然后通過找到最與輸入兼容的輸出值來計算輸出。你可以想象這個目標(biāo)是某種能量函數(shù),你是在以輸出為變量最小化這個能量。你可能會有多個解決方案,并且你可能有某種方法來處理這些多個解決方案。人類的感知系統(tǒng)確實(shí)如此,如果你對特定的感知有多個解釋,你的大腦會自發(fā)地在這些解釋之間循環(huán)。因此,有一些證據(jù)表明,這種類型的事情確實(shí)會發(fā)生。但是讓我回到架構(gòu)上來。因此,利用這種通過優(yōu)化推理的原則。如果你愿意,關(guān)于人類思維方式的假設(shè)如下。你在世界中做出觀察。感知系統(tǒng)給你提供了世界當(dāng)前狀態(tài)的概念。但當(dāng)然,它只給你提供了你當(dāng)前能夠感知的世界狀態(tài)的概念。你可能對世界其余部分的狀態(tài)有一些記憶中的想法。這可能與記憶的內(nèi)容結(jié)合在一起,并被輸入到世界模型中。什么是模型?世界模型是你對世界行為的心理模型,因此你可以想象你可能采取的一系列行動,而你的世界模型將允許你預(yù)測這些行動序列對世界的影響。
因此,綠色框表示世界模型,你將假設(shè)的一系列行動輸入其中,它預(yù)測世界的最終狀態(tài)將是什么,或者你預(yù)測在世界中將要發(fā)生的整個軌跡。你將其與一組目標(biāo)函數(shù)相結(jié)合。一個目標(biāo)是測量目標(biāo)實(shí)現(xiàn)的程度,任務(wù)是否完成,也許還有一組其他目標(biāo),作為安全邊界,基本上測量所遵循的軌跡或采取的行動在多大程度上對機(jī)器人或機(jī)器周圍的人沒有危險,等等。因此,現(xiàn)在的推理過程(我還沒有談?wù)搶W(xué)習(xí))僅僅是推理,包括尋找最小化這些目標(biāo)的行動序列,找到最小化這些目標(biāo)的一系列行動。這就是推理過程。因此,這不僅僅是前饋過程。你可以通過搜索離散選項(xiàng)來完成這一點(diǎn),但這并不高效。更好的方法是確保所有這些框都是可微分的,你可以對它們進(jìn)行反向傳播梯度,然后通過梯度下降更新行動序列。
現(xiàn)在,這個想法其實(shí)并不新鮮,已經(jīng)存在了超過 60 年,甚至更久。首先,讓我談?wù)勈褂檬澜缒P瓦M(jìn)行這種推理的優(yōu)勢。優(yōu)勢在于,你可以在不需要任何學(xué)習(xí)的情況下完成新任務(wù)。我們時常這樣做。我們面臨新情況時,會考慮它,想象我們行動的后果,然后采取將實(shí)現(xiàn)目標(biāo)(無論是什么)的行動序列,我們不需要學(xué)習(xí)來完成該任務(wù),我們可以進(jìn)行規(guī)劃。因此,這基本上是規(guī)劃。你可以將大多數(shù)推理形式歸結(jié)為優(yōu)化。因此,通過優(yōu)化進(jìn)行推理的過程本質(zhì)上比僅僅通過神經(jīng)網(wǎng)絡(luò)的多層運(yùn)行更強(qiáng)大。正如我所說,這種通過優(yōu)化進(jìn)行推理的思想已經(jīng)存在超過 60 年。在優(yōu)化控制理論領(lǐng)域,這被稱為模型預(yù)測控制。你有一個要控制的系統(tǒng)模型,比如火箭、飛機(jī)或機(jī)器人。你可以想象,利用你的世界模型計算一系列控制指令的效果。然后你優(yōu)化這一序列,使運(yùn)動達(dá)到你想要的結(jié)果。所有經(jīng)典機(jī)器人學(xué)的運(yùn)動規(guī)劃都是通過這種方式完成的,這并不是新事物。這里的新意在于,我們將學(xué)習(xí)世界模型,感知系統(tǒng)將提取出適當(dāng)?shù)某橄蟊硎尽,F(xiàn)在,在我進(jìn)入一個例子之前,說明如何運(yùn)行這個系統(tǒng),你可以構(gòu)建一個整體的 AI 系統(tǒng),包含所有這些組件:世界模型、可以針對手頭任務(wù)配置的成本函數(shù)、優(yōu)化模塊(即真正優(yōu)化、尋找給定世界模型的最佳動作序列的模塊)、短期記憶、感知系統(tǒng)等等。
那么,這樣是如何工作的呢?如果你的動作不是單一動作,而是一個動作序列,而你的世界模型實(shí)際上是一個系統(tǒng),它告訴你,在時間 T 的世界狀態(tài)和可能采取的行動下,預(yù)測時間 T+1 的世界狀態(tài)。你想預(yù)測在這種情況下兩個動作的序列將產(chǎn)生什么效果。你可以多次運(yùn)行你的世界模型來實(shí)現(xiàn)這一點(diǎn)。獲取初始世界狀態(tài)表示,輸入對行動零的假設(shè),利用模型預(yù)測下一狀態(tài),然后進(jìn)行行動一,計算下一狀態(tài),計算成本,然后通過反向傳播和基于梯度的優(yōu)化方法,找出將最小化成本的兩個動作。這就是模型預(yù)測控制。
現(xiàn)在,世界并不是完全確定的,因此你必須使用潛在變量來擬合你的世界模型。潛變量基本上是可以在一組數(shù)據(jù)中切換或從分布中抽取的變量,它們代表世界模型在與觀察兼容的多個預(yù)測之間的切換。更有趣的是,智能系統(tǒng)目前還無法去做人類乃至動物能夠做到的事情,那就是分層規(guī)劃。例如,如果你在計劃從紐約到巴黎的旅行,你可以使用你對世界、對身體的理解,可能還有你對從這里到巴黎整個配置的想法,以你的低級肌肉控制來規(guī)劃你的整個旅行。對吧?如果每十毫秒的肌肉控制步驟數(shù)量,所有這些你在去巴黎之前必須做的事情疊加起來,簡直是巨大的數(shù)字。因此,你所做的就是以分層規(guī)劃的方式進(jìn)行規(guī)劃,你從很高的層面開始說,好吧,要去巴黎,我首先需要去機(jī)場,搭乘飛機(jī)。我如何去機(jī)場?假設(shè)我在紐約市,我必須下樓去叫出租車。我怎么下樓?我必須先從椅子上起來,打開門,走到電梯,按下按鈕,等等。我如何從椅子上站起來?在某個時刻,你將不得不將事情表達(dá)為低級肌肉控制動作,但我們并不是在以低級別的方式規(guī)劃整個過程,而是在進(jìn)行分層規(guī)劃。
如何使用 AI 系統(tǒng)做到這一點(diǎn)仍然是完全未解決的,我們對此毫無頭緒。這似乎是智能行為的一個重要要求。那么,我們?nèi)绾螌W(xué)習(xí)能夠進(jìn)行層次規(guī)劃的世界模型,能夠在不同抽象層次上工作呢?沒有人展示出任何接近這一點(diǎn)的成果。這是一個重大挑戰(zhàn)。圖像顯示我剛剛提到的例子。那么,我們現(xiàn)在如何訓(xùn)練這個世界模型呢?因?yàn)檫@確實(shí)是一個大問題。我嘗試弄清楚嬰兒在什么年齡學(xué)習(xí)關(guān)于世界的基本概念。他們?nèi)绾螌W(xué)習(xí)直觀的物理學(xué)、物理直覺,以及所有這些內(nèi)容?這些發(fā)生在他們開始學(xué)習(xí)語言和互動等事情之前很久。因此,諸如面孔追蹤之類的能力實(shí)際上發(fā)生得非常早。生物運(yùn)動,即有生命的物體與無生命物體之間的區(qū)別,也會很早就出現(xiàn)。物體恒常性也是如此,指的是當(dāng)一個物體被另一個物體遮擋時,它依然存在這一事實(shí)。
而嬰兒是很自然地學(xué)習(xí)的,你不需要給他們事物的名稱。他們會知道椅子、桌子和貓是不同的。而關(guān)于穩(wěn)定性和支持性等概念,比如像重力、慣性、守恒、動量這些實(shí)際上大約在九個月大時才會出現(xiàn)。這需要很長時間。因此,如果你向六個月大的嬰兒展示左邊的情境,即小車在平臺上,你將它推下平臺,它似乎在空中漂福六個月大的嬰兒會注意到這一點(diǎn),而十個月大的嬰兒則會覺得這不應(yīng)該發(fā)生,物體應(yīng)該掉落。當(dāng)發(fā)生意外情況時,這意味著你的「世界模型」是錯誤的。所以你會關(guān)注,因?yàn)檫@可能會要了你的命。因此,這里需要發(fā)生的學(xué)習(xí)類型與我們之前討論的學(xué)習(xí)類型非常相似。獲取輸入,以某種方式破壞它,并訓(xùn)練一個大型神經(jīng)網(wǎng)絡(luò)來預(yù)測缺失的部分。如果你訓(xùn)練一個系統(tǒng)來預(yù)測視頻中將要發(fā)生的事情,就像我們訓(xùn)練神經(jīng)網(wǎng)絡(luò)預(yù)測文本中將要發(fā)生的事情一樣,也許這些系統(tǒng)將能夠?qū)W習(xí)常識。不幸的是,我們已經(jīng)嘗試了這個十年了,結(jié)果完全失敗。我們從來沒有接近過能夠通過僅僅試圖預(yù)測視頻中的像素來真正學(xué)習(xí)任何通用知識的系統(tǒng)。
你可以訓(xùn)練一個系統(tǒng)來預(yù)測看起來不錯的視頻,F(xiàn)在有許多視頻生成系統(tǒng)的例子,但它們內(nèi)部并不是良好的物理世界模型。我們不能用它們來做這件事。好吧,所以我們將使用生成模型來預(yù)測個體將要發(fā)生的事情的想法,系統(tǒng)會神奇地理解世界的結(jié)構(gòu),這完全是失敗的。在過去的十年里,我們嘗試了許多方法。之所以失敗,是因?yàn)橛性S多可能的未來。在像文本這樣的離散空間中,你可以預(yù)測哪個單詞會跟在一串單詞之后,你可以生成字典中可能單詞的概率分布。但當(dāng)涉及到視頻幀時,我們沒有好的方法來表示視頻幀的概率分布。實(shí)際上,這個任務(wù)完全不可能。
比如,我拍攝這個房間的視頻,對吧?我拿著相機(jī)拍攝那部分,然后停止視頻。我問系統(tǒng)接下來會發(fā)生什么。它可能會預(yù)測剩下的房間。會有一面墻,會有人坐著,密度可能會和左邊的相似,但絕對不可能在像素級別上準(zhǔn)確預(yù)測你們每個人的樣子、世界的紋理以及房間的精確大小等所有細(xì)節(jié)。所以,我提出的解決方案為聯(lián)合嵌入預(yù)測架構(gòu)(JEPA)。其理念就是放棄預(yù)測像素,而是學(xué)習(xí)一個對世界運(yùn)作的抽象表示,然后在這個表示空間中進(jìn)行預(yù)測。這就是架構(gòu),聯(lián)合嵌入預(yù)測架構(gòu)。這兩個嵌入分別取 X(損壞版本)和 Y,經(jīng)過編碼器處理,然后訓(xùn)練系統(tǒng)根據(jù) X 的表示預(yù)測 Y 的表示,F(xiàn)在的問題是,如果只是用梯度下降、反向傳播來最小化預(yù)測誤差來訓(xùn)練這樣的系統(tǒng),它將崩潰。它可能會學(xué)習(xí)一個常量表示,這樣預(yù)測就變得非常簡單,但卻沒有信息量。因此,我希望你記住的的是,生成架構(gòu)試圖重建預(yù)測的自編碼器、生成架構(gòu)、掩碼自編碼器等,與在表示空間中進(jìn)行預(yù)測的聯(lián)合嵌入架構(gòu)之間的區(qū)別。我認(rèn)為未來在于這些聯(lián)合嵌入架構(gòu),我們有大量的經(jīng)驗(yàn)證據(jù)表明,學(xué)習(xí)良好的圖像表示的最佳方法是使用聯(lián)合編輯架構(gòu)。
所有嘗試通過重建來學(xué)習(xí)圖像表示的嘗試都很糟糕,效果不好,盡管有很多大型項(xiàng)目聲稱它們有效,但實(shí)際上并不行,最佳性能是通過右邊的架構(gòu)獲得的。現(xiàn)在,如果你仔細(xì)想想,這實(shí)際上就是我們智力的表現(xiàn):尋找某種現(xiàn)象的良好表示,以便能夠進(jìn)行預(yù)測,這真的就是科學(xué)的本質(zhì)。真的。想想看,如果你想預(yù)測一個行星的軌跡,行星是一個非常復(fù)雜的物體,它巨大,具有天氣、溫度和密度等各種特征。雖然它是一個復(fù)雜的對象,但要預(yù)測行星的軌跡,你只需要知道 6 個數(shù)字:3 個位置坐標(biāo)和 3 個速度向量,僅此而已,你不需要做其他任何事情。這是一個非常重要的例子,真正展示了預(yù)測能力的本質(zhì)在于找到我們觀察事物的良好表示。
那么,我們?nèi)绾斡?xùn)練這樣一個系統(tǒng)呢?所以你想要防止系統(tǒng)崩潰。做到這一點(diǎn)的一種方法是使用某種代價函數(shù),測量編碼器輸出的表示的信息內(nèi)容,并盡量最大化信息內(nèi)容,最小化負(fù)信息。你的訓(xùn)練系統(tǒng)要同時盡可能提取輸入中的信息,同時最小化在該表示空間中的預(yù)測誤差。系統(tǒng)將找到提取盡可能多的信息與不提取不可預(yù)測信息之間的某種權(quán)衡。你將得到一個良好的表示空間,在這個空間中可以進(jìn)行預(yù)測。現(xiàn)在,你如何測量信息?這就是事情變得有點(diǎn)奇怪的地方。我將跳過這一點(diǎn)。機(jī)器將會超越人類智力,且安全可控實(shí)際上,有一種方法可以通過訓(xùn)練、基于能量的模型和能量函數(shù)從數(shù)學(xué)上理解這一點(diǎn),但我沒有時間深入探討。基本上,我在這里告訴你幾件不同的事情:放棄生成模型,轉(zhuǎn)而使用那些 JEPA 架構(gòu);放棄概率模型,轉(zhuǎn)而使用那些基于能量的模型,放棄對比學(xué)習(xí)方法,還有強(qiáng)化學(xué)習(xí)。這些我已經(jīng)說了 10 年了。而這些都是今天機(jī)器學(xué)習(xí)中最流行的四個支柱。因此目前我可能不太受歡迎。
一種方法是估計信息量,測量來自編碼器的信息內(nèi)容。目前有六種不同的方法來實(shí)現(xiàn)這一點(diǎn)。實(shí)際上,這里有一個叫做 MCR 的方法,來自我在 NYU 的同事,那就是防止系統(tǒng)崩潰并產(chǎn)生常數(shù)。取出來自編碼器的變量,并確保這些變量具有非零的標(biāo)準(zhǔn)差。你可以將其放入一個成本函數(shù)中,確保權(quán)重被搜索,變量不會崩潰并變?yōu)槌?shù)。這是比較簡單的。
現(xiàn)在的問題是,系統(tǒng)可能會「作弊」,使所有變量相等或高度相關(guān)。因此,你需要添加另一個項(xiàng),要求最小化這些變量的協(xié)方差矩陣的非對角線項(xiàng),以確保它們相關(guān)。當(dāng)然,這還不夠,因?yàn)樽兞咳钥赡芤蕾,但不相關(guān)。因此,我們采用另一種方法,將 SX 的維度擴(kuò)展到更高的維度空間 VX,并在該空間中應(yīng)用方差協(xié)方差正則化,以確保滿足要求。這里還有一個技巧,因?yàn)槲宜畲蠡氖切畔?nèi)容的上限。我希望實(shí)際的信息內(nèi)容能跟隨我對上限的最大化。我需要的是一個下限,這樣它會推動下限,信息也會隨之增加。不幸的是,我們并沒有信息的下限,或者至少我們不知道如何計算它們。
有第二套方法,稱為「蒸餾風(fēng)格方法」。這種方法以神秘的方式運(yùn)作。如果你想清楚了解誰在做什么,你應(yīng)該問坐在這里的 Grill。他在這方面有一篇個人論文,定義得很好。它的核心思想是只更新模型的一部分,而在另一部分不進(jìn)行梯度的反向傳播,并通過一種有趣的方式共享權(quán)重。關(guān)于這方面也有很多論文。如果你想訓(xùn)練一個完全自監(jiān)督的系統(tǒng),以生成良好的圖像表示,這種方法效果很好。圖像的破壞是通過掩蔽進(jìn)行的,最近的一些工作是我們?yōu)橐曨l做的,這樣我們就可以訓(xùn)練一個系統(tǒng)來提取良好的視頻表示,以便用于下游任務(wù),如動作識別視頻等。你可以看到,給一個視頻掩蔽掉一大塊,通過這個過程進(jìn)行預(yù)測,在表示空間中使用這種蒸餾技巧來防止崩潰。這效果很好。
因此,如果我們在這個項(xiàng)目中成功,并最終得到能夠推理、計劃和理解物理世界的系統(tǒng),未來我們所有的互動將會是這樣的。這將需要數(shù)年,甚至可能是十年才能讓一切正常運(yùn)作。馬克扎克伯格一直在問我需要多長時間。如果我們成功做到這一點(diǎn),好的,我們將擁有能夠調(diào)解我們與數(shù)字世界所有互動的系統(tǒng)。它們將回答我們所有的問題。它們將在很多時候與我們同在,基本上會構(gòu)成所有人類知識的一個庫。這感覺像是一個基礎(chǔ)設(shè)施的東西,就像互聯(lián)網(wǎng)一樣。這并不像是一個產(chǎn)品,而更像是一種基礎(chǔ)設(shè)施。這些人工智能平臺必須是開源的。IBM 和 Meta 參與了一個名為人工智能聯(lián)盟的組織,促進(jìn)開源人工智能平臺。我們需要這些平臺是開源的,因?yàn)槲覀冃枰@些人工智能系統(tǒng)的多樣性。
我們需要它們理解世界上所有的語言、所有的文化、所有的價值體系,而你不會僅僅從由美國西海岸或東海岸的公司生產(chǎn)的單一系統(tǒng)中獲得這些。這必須是來自全世界的貢獻(xiàn)。當(dāng)然,訓(xùn)練金融模型的成本非常高,因此只有少數(shù)公司能夠做到這一點(diǎn)。如果像 Meta 這樣的公司能夠提供開源的基礎(chǔ)模型,那么全世界都可以為自己的目的對其進(jìn)行微調(diào)。這是 Meta 和 IBM 采用的哲學(xué)。
因此,開源人工智能不僅僅是一個好主意,它對于文化多樣性,甚至可能對于民主的保存都是必要的。訓(xùn)練和微調(diào)將通過眾包進(jìn)行,或者由初創(chuàng)公司和其他公司的生態(tài)系統(tǒng)完成。這正是推動人工智能初創(chuàng)生態(tài)系統(tǒng)發(fā)展的原因之一,就是這些開源人工智能模型的可用性。達(dá)到通用人工智能需要多長時間?我不知道,可能需要數(shù)年到數(shù)十年。
這過程中有很大的變化,還有許多問題需要解決。這幾乎肯定比我們想象的要困難得多。這不會在一天內(nèi)發(fā)生,而是逐步的、漸進(jìn)的演變。所以并不是說某一天我們會發(fā)現(xiàn)通用人工智能的秘密,啟動機(jī)器后立刻擁有超智能,而我們都會被超智能所消滅,不,情況并不是這樣的。機(jī)器將會超越人類智力,但它們將處于控制之下,因?yàn)樗鼈兪悄繕?biāo)驅(qū)動的。我們給它們設(shè)定目標(biāo),它們就會完成這些目標(biāo)。就像我們這里的許多人都是行業(yè)或?qū)W術(shù)界的領(lǐng)導(dǎo)者。我們與比我們聰明的人合作,我當(dāng)然也是。有很多人比我聰明,并不意味著他們想要主宰或接管,這就是事情的真相。當(dāng)然這背后確實(shí)也有風(fēng)險,但我將把這留給后面的討論,非常感謝。