當(dāng)前位置：人工智能實驗室> 人物報道 > 圖靈獎得主Yann LeCun萬字演講：今天的AI比貓還笨，自曝早已放棄大模型

圖靈獎得主Yann LeCun萬字演講：今天的AI比貓還笨，自曝早已放棄大模型
來源：互聯(lián)網(wǎng) 發(fā)布日期：2024-10-21 08:23:01 瀏覽：2796次

導(dǎo)讀：劃重點 01圖靈獎得主Yann LeCun表示，當(dāng)前主流的技術(shù)路徑無法引領(lǐng)我們走向AGI，甚至現(xiàn)在AI的水平還不如一只貓。 02他建議放棄生成模型、概率模型、對比學(xué)習(xí)和強(qiáng)化學(xué)習(xí)，轉(zhuǎn)而采用JEPA架構(gòu)和基于能量的模型。 03LeCun認(rèn)為，通用人工智能需要數(shù)年到數(shù)十年才能實...

劃重點

01圖靈獎得主Yann LeCun表示，當(dāng)前主流的技術(shù)路徑無法引領(lǐng)我們走向AGI，甚至現(xiàn)在AI的水平還不如一只貓。

02他建議放棄生成模型、概率模型、對比學(xué)習(xí)和強(qiáng)化學(xué)習(xí)，轉(zhuǎn)而采用JEPA架構(gòu)和基于能量的模型。

03LeCun認(rèn)為，通用人工智能需要數(shù)年到數(shù)十年才能實現(xiàn)，機(jī)器將超越人類智力，但處于控制之下。

04為此，他呼吁開源人工智能平臺，以促進(jìn)文化多樣性和民主的保存。

以上內(nèi)容由騰訊混元大模型生成，僅供參考

在 AI 圈里，圖靈獎得主 Yann Lecun 是一個典型的異類。當(dāng)眾多技術(shù)專家堅信，沿著當(dāng)前的技術(shù)路線，AGI 的實現(xiàn)只是時間問題時，Yann Lecun 卻一再提出異議。在與同行的激烈辯論中，他不止一次表示，當(dāng)前主流的技術(shù)路徑無法引領(lǐng)我們走向 AGI，甚至現(xiàn)在 AI 的水平還不如一只貓。而圖靈獎得主、Meta 首席 AI 科學(xué)家、紐約大學(xué)教授等等，這些耀眼的頭銜以及沉甸甸的一線實踐經(jīng)驗，卻也讓我們誰也無法忽視這位 AI 專家的見解。圖靈獎得主Yann LeCun萬字演講：今天的AI比貓還笨，自曝早已放棄大模型

那么，Yann LeCun 對于 AI 的未來究竟有何看法呢？在最近一次公開演講中，他也再次詳細(xì)闡述了自己的觀點：僅僅依靠文本訓(xùn)練，AI 永遠(yuǎn)無法達(dá)到接近人類水平的智能。部分觀點如下：1.未來，人們將普遍佩戴智能眼鏡或其他類型的智能設(shè)備，這些設(shè)備將內(nèi)置助手系統(tǒng)，形成個人的智能虛擬團(tuán)隊，以提高個人的創(chuàng)造性和效率。2.智能系統(tǒng)的目的不是為了取代人類，而是為了增強(qiáng)人類的智力，使人們能夠更高效地工作。3.即使是寵物貓，其大腦中的模型也比任何 AI 系統(tǒng)能夠構(gòu)建的模型復(fù)雜。4.FAIR 基本上不再專注于語言模型，而是朝向下一代 AI 系統(tǒng)的長期目標(biāo)邁進(jìn)。5.僅僅通過訓(xùn)練文本數(shù)據(jù)，AI 系統(tǒng)無法達(dá)到接近人類水平的智力。6.Yann Lecun 建議放棄生成模型、概率模型、對比學(xué)習(xí)和強(qiáng)化學(xué)習(xí)，轉(zhuǎn)而采用 JEPA 架構(gòu)和基于能量的模型，認(rèn)為這些方法更有可能推動 AI 的發(fā)展。7.雖然機(jī)器最終會超越人類智力，但它們將受到控制，因為它們是目標(biāo)驅(qū)動的。有趣的是，演講開始前還發(fā)生了一段小插曲。主持人在介紹 LeCun 時，稱他為 Facebook AI 研究院（FAIR）的首席 AI 科學(xué)家。對此，LeCun 在演講開始前澄清，F(xiàn)AIR 中的「F」已經(jīng)不再代表 Facebook，而是「基垂（Fundamental）的意思。關(guān)注 AI 第一新媒體，率先獲取 AI 前沿資訊和洞察

AI 對世界的了解不如你的貓好的，我將談?wù)勅祟愃郊墑e的 AI，以及說我們?nèi)绾螌崿F(xiàn)它，以及我們?yōu)楹斡植粫䦟崿F(xiàn)它。首先，我們確實需要人類水平的 AI。因為未來，有一個是我們大多數(shù)人將佩戴智能眼鏡或其他類型的設(shè)備。我們將與這些設(shè)備進(jìn)行對話，而這些系統(tǒng)將承載助手，可能不止一個，可能是一整套助手。這將導(dǎo)致我們每個人基本上都有一支智能虛擬團(tuán)隊在為我們工作。所以，人人都將成為「老板」，只是這些「員工」不是真正的人類。我們需要構(gòu)建這樣的系統(tǒng)，基本上是為了增強(qiáng)人類的智力，使人們更具創(chuàng)造性和更高效。圖靈獎得主Yann LeCun萬字演講：今天的AI比貓還笨，自曝早已放棄大模型

但為此，我們需要機(jī)器能夠理解世界，能夠記住事物，具備直覺和常識，能夠推理和計劃，達(dá)到與人類相同的水平。盡管你可能聽到過一些支持者說，目前的 AI 系統(tǒng)并不具備這些能力。所以我們需要花時間學(xué)習(xí)如何建模世界，擁有關(guān)于世界運(yùn)作的心理模型。事實上，每種動物都有這樣的模型。你的貓一定有一個比任何 AI 系統(tǒng)所能構(gòu)建或設(shè)計的模型都要復(fù)雜的模型。 圖靈獎得主Yann LeCun萬字演講：今天的AI比貓還笨，自曝早已放棄大模型

我們需要的系統(tǒng)應(yīng)該具有持久記憶的系統(tǒng)，而當(dāng)前的語言模型（LLM）并沒有，能夠規(guī)劃復(fù)雜行動序列的系統(tǒng)，而今天的系統(tǒng)無法做到，并且這個系統(tǒng)應(yīng)該是可控和安全的。因此，我將提出一個架構(gòu)，稱為目標(biāo)驅(qū)動的 AI。我大約兩年前寫了一篇關(guān)于這個的愿景論文，并發(fā)布了這篇論文。FAIR 的很多人正在努力實現(xiàn)這個計劃。FAIR 過去研究過更多應(yīng)用項目，但 Meta 在一年半前創(chuàng)建了一個名為生成式 AI（Gen AI）的產(chǎn)品部門，專注于 AI 產(chǎn)品。他們進(jìn)行應(yīng)用研發(fā)，因此現(xiàn)在 FAIR 已經(jīng)被重新引導(dǎo)，朝向下一代 AI 系統(tǒng)的長期目標(biāo)。我們基本上不再專注于語言模型。包括大型語言模型（LLM）在內(nèi)的 AI 成功，尤其是過去 5、6 年中取得的許多其他系統(tǒng)的成功，依賴于一系列技術(shù)，當(dāng)然，包括自監(jiān)督學(xué)習(xí)。圖靈獎得主Yann LeCun萬字演講：今天的AI比貓還笨，自曝早已放棄大模型

自監(jiān)督學(xué)習(xí)的核心在于訓(xùn)練一個系統(tǒng)，不是針對任何特定任務(wù)，而是盡量以良好的方式表示輸入數(shù)據(jù)。實現(xiàn)這一點的一種方法是通過損壞再重建恢復(fù)。因此，你可以取一段文本，通過去掉一些單詞或改變其他單詞來破壞它。這個過程可以用于文本、DNA 序列、蛋白質(zhì)或其他任何內(nèi)容，甚至在某種程度上也可以用于圖像。然后你訓(xùn)練一個龐大的神經(jīng)網(wǎng)絡(luò)來重建完整的輸入，即未被破壞的版本。這是一個生成模型，因為它試圖重建原始信號。所以，紅色框就像一個代價函數(shù)，對吧？它計算輸入 Y 和重建后的輸出 y 之間的距離，而這就是學(xué)習(xí)過程中要最小化的參數(shù)。在這個過程中，系統(tǒng)學(xué)習(xí)到了輸入的內(nèi)部表示，可以用于各種后續(xù)任務(wù)。圖靈獎得主Yann LeCun萬字演講：今天的AI比貓還笨，自曝早已放棄大模型

當(dāng)然，這可以用于預(yù)測文本中的單詞，這就是自回歸預(yù)測（autoregressive prediction）所做的事情。語言模型是這一點的特例，其中架構(gòu)的設(shè)計方式是為了預(yù)測一個項、一個 token 或一個單詞時，只能查看其左側(cè)的其他token。它不能查看未來。如果你正確訓(xùn)練一個系統(tǒng)，給它展示文本，并要求它預(yù)測文本中的下一個單詞或下一個 token，那么你可以使用該系統(tǒng)來預(yù)測下一個單詞。然后你將那個下一個單詞加入輸入中，再預(yù)測第二個單詞，并將其加入輸入中，預(yù)測第三個單詞。這就是自回歸預(yù)測（autoregressive prediction）。這是 LLMs 所做的事情，這并不是一個新概念，自香農(nóng)（Shannon）時代以來就存在了，可以追溯到 50 年代，這已經(jīng)很久了，但變化在于我們現(xiàn)在擁有那些龐大的神經(jīng)網(wǎng)絡(luò)架構(gòu)，可以在大量數(shù)據(jù)上進(jìn)行訓(xùn)練，并且看起來會從中涌現(xiàn)出一些特性。但這種自回歸預(yù)測有一些主要的局限性，在通常意義上這里并沒有真正的推理存在。還有另一個局限性是，這僅適用于以離散對象、符號、token、單詞等形式出現(xiàn)的數(shù)據(jù)，基本上是可以離散化的東西。我們在達(dá)到人類水平智力方面仍然缺少一些重要的東西。我在這里并不一定是在談?wù)撊祟愃降闹橇�，但即使是你的貓或狗也能完成一些�?dāng)前 AI 系統(tǒng)無法企及的驚人壯舉。圖靈獎得主Yann LeCun萬字演講：今天的AI比貓還笨，自曝早已放棄大模型

任何 10 歲的小孩都可以一次性學(xué)會清理餐桌并填滿洗碗機(jī)，對吧？根本不需要練習(xí)之類的，對吧？17 歲的人學(xué)會開車大約需要 20 小時的練習(xí)。我們?nèi)匀粵]有 L5 級自動駕駛汽車，當(dāng)然也沒有能夠清理餐桌和填滿洗碗機(jī)的家用機(jī)器人。僅僅通過訓(xùn)練文本，AI 永遠(yuǎn)無法達(dá)到接近人類水平的智力所以我們真的缺少一些重要的東西，否則我們將能夠用 AI 系統(tǒng)完成這些事情。我們不斷碰到一個叫做莫拉維克悖論（Moravec's Paradox）的東西，即對我們而言看似微不足道、甚至不被認(rèn)為是智能的事情，實際上用機(jī)器完成起來卻非常困難，而像操縱語言這樣的高級復(fù)雜抽象思維，似乎對機(jī)器來說卻很簡單，像下棋、圍棋之類的事情也是如此。也許其中一個原因是這樣的。一個大型語言模型（LLM）通常是在 20 萬億個 token 上進(jìn)行訓(xùn)練的。一個 token 基本上是一個單詞的四分之三，平均來說。因此，這里總共是 1.5 × 10 的 13 次方個單詞。每個 token 大約是 3B，通常，這樣就需要 6 × 10 的 13 次方個字節(jié)。對于我們?nèi)魏我粋€人來說，讀完這些內(nèi)容大約需要幾十萬年的時間，對吧？這基本上是互聯(lián)網(wǎng)上所有公開文本的總和。圖靈獎得主Yann LeCun萬字演講：今天的AI比貓還笨，自曝早已放棄大模型

但考慮一下一個孩子，一個四歲的孩子總共清醒了 16000 小時。我們有 200 萬個視神經(jīng)纖維進(jìn)入我們的大腦。每根神經(jīng)纖維大約以每秒 1B 的速度傳輸數(shù)據(jù)，也許是每秒半個字節(jié)。有些估計說這可能是每秒 3B。這沒關(guān)系，反正是一個數(shù)量級。這個數(shù)據(jù)量大約是 10 的 14 次方個字節(jié)，差不多與 LLM 的數(shù)量級相當(dāng)。因此，在四年內(nèi)，一個四歲孩子看到的視覺數(shù)據(jù)與最大的語言模型在整個互聯(lián)網(wǎng)上公開可用的文本上訓(xùn)練的數(shù)據(jù)量一樣多。以數(shù)據(jù)作為起點，這告訴我們幾個事情。首先，這告訴我們，僅僅通過訓(xùn)練文本，我們永遠(yuǎn)無法達(dá)到接近人類水平的智力。這是根本不可能發(fā)生的。其次，視覺信息是非常冗余的，每根視神經(jīng)纖維每秒傳輸 1B 的信息，這已經(jīng)比你視網(wǎng)膜中的光感受器壓縮了 100 比 1。我們視網(wǎng)膜中大約有 6000 萬到 1 億個光感受器。這些光感受器通過視網(wǎng)膜前的神經(jīng)元壓縮為 100 萬個神經(jīng)纖維。因此，已經(jīng)存在 100 比 1 的壓縮。然后到達(dá)大腦時，信息被擴(kuò)展了大約 50 倍左右。圖靈獎得主Yann LeCun萬字演講：今天的AI比貓還笨，自曝早已放棄大模型

因此，我測量的是壓縮信息，但它仍然非常冗余。而冗余實際上是自監(jiān)督學(xué)習(xí)所需要的。自監(jiān)督學(xué)習(xí)只會從冗余數(shù)據(jù)中學(xué)習(xí)到有用的東西，如果數(shù)據(jù)高度壓縮，這意味著數(shù)據(jù)變成了隨機(jī)噪聲的，那么你就無法學(xué)習(xí)任何東西。你需要冗余才能學(xué)習(xí)到任何東西。你需要學(xué)習(xí)數(shù)據(jù)的潛在結(jié)構(gòu)。因此，我們需要訓(xùn)練系統(tǒng)，通過觀看視頻或在現(xiàn)實世界中生活來學(xué)習(xí)常識和物理知識。我說話的順序可能會有些混亂，我主要想告訴你這個目標(biāo)驅(qū)動的人工智能架構(gòu)到底是什么。它與 LLM 或前饋神經(jīng)元有很大不同，因為推理過程不僅僅是通過神經(jīng)網(wǎng)絡(luò)的一系列層，而實際上是運(yùn)行一個優(yōu)化算法。圖靈獎得主Yann LeCun萬字演講：今天的AI比貓還笨，自曝早已放棄大模型

從概念上來看，它看起來是這樣的。一種前饋過程是觀察結(jié)果通過感知系統(tǒng)運(yùn)行的過程。例如，如果你有一系列的神經(jīng)網(wǎng)絡(luò)層并產(chǎn)生一個輸出，那么對于任何單一輸入，你只能有一個輸出，但在很多情況下，對于一個感知，可能會有多個可能的輸出解釋。你需要一種不僅僅計算功能，而是能夠為單一輸入提供多個輸出的映射過程。實現(xiàn)這一點的唯一方法是通過隱函數(shù)�；旧�，這個目標(biāo)框架右側(cè)的紅色框表示一個函數(shù)，它基本上測量輸入與其提議輸出之間的兼容性，然后通過找到最與輸入兼容的輸出值來計算輸出。你可以想象這個目標(biāo)是某種能量函數(shù)，你是在以輸出為變量最小化這個能量。你可能會有多個解決方案，并且你可能有某種方法來處理這些多個解決方案。人類的感知系統(tǒng)確實如此，如果你對特定的感知有多個解釋，你的大腦會自發(fā)地在這些解釋之間循環(huán)。因此，有一些證據(jù)表明，這種類型的事情確實會發(fā)生。但是讓我回到架構(gòu)上來。因此，利用這種通過優(yōu)化推理的原則。如果你愿意，關(guān)于人類思維方式的假設(shè)如下。你在世界中做出觀察。感知系統(tǒng)給你提供了世界當(dāng)前狀態(tài)的概念。但當(dāng)然，它只給你提供了你當(dāng)前能夠感知的世界狀態(tài)的概念。你可能對世界其余部分的狀態(tài)有一些記憶中的想法。這可能與記憶的內(nèi)容結(jié)合在一起，并被輸入到世界模型中。什么是模型？世界模型是你對世界行為的心理模型，因此你可以想象你可能采取的一系列行動，而你的世界模型將允許你預(yù)測這些行動序列對世界的影響。 圖靈獎得主Yann LeCun萬字演講：今天的AI比貓還笨，自曝早已放棄大模型

因此，綠色框表示世界模型，你將假設(shè)的一系列行動輸入其中，它預(yù)測世界的最終狀態(tài)將是什么，或者你預(yù)測在世界中將要發(fā)生的整個軌跡。你將其與一組目標(biāo)函數(shù)相結(jié)合。一個目標(biāo)是測量目標(biāo)實現(xiàn)的程度，任務(wù)是否完成，也許還有一組其他目標(biāo)，作為安全邊界，基本上測量所遵循的軌跡或采取的行動在多大程度上對機(jī)器人或機(jī)器周圍的人沒有危險，等等。因此，現(xiàn)在的推理過程（我還沒有談?wù)搶W(xué)習(xí)）僅僅是推理，包括尋找最小化這些目標(biāo)的行動序列，找到最小化這些目標(biāo)的一系列行動。這就是推理過程。因此，這不僅僅是前饋過程。你可以通過搜索離散選項來完成這一點，但這并不高效。更好的方法是確保所有這些框都是可微分的，你可以對它們進(jìn)行反向傳播梯度，然后通過梯度下降更新行動序列。圖靈獎得主Yann LeCun萬字演講：今天的AI比貓還笨，自曝早已放棄大模型

現(xiàn)在，這個想法其實并不新鮮，已經(jīng)存在了超過 60 年，甚至更久。首先，讓我談?wù)勈褂檬澜缒Ｐ瓦M(jìn)行這種推理的優(yōu)勢。優(yōu)勢在于，你可以在不需要任何學(xué)習(xí)的情況下完成新任務(wù)。我們時常這樣做。我們面臨新情況時，會考慮它，想象我們行動的后果，然后采取將實現(xiàn)目標(biāo)（無論是什么）的行動序列，我們不需要學(xué)習(xí)來完成該任務(wù)，我們可以進(jìn)行規(guī)劃。因此，這基本上是規(guī)劃。你可以將大多數(shù)推理形式歸結(jié)為優(yōu)化。因此，通過優(yōu)化進(jìn)行推理的過程本質(zhì)上比僅僅通過神經(jīng)網(wǎng)絡(luò)的多層運(yùn)行更強(qiáng)大。正如我所說，這種通過優(yōu)化進(jìn)行推理的思想已經(jīng)存在超過 60 年。在優(yōu)化控制理論領(lǐng)域，這被稱為模型預(yù)測控制。你有一個要控制的系統(tǒng)模型，比如火箭、飛機(jī)或機(jī)器人。你可以想象，利用你的世界模型計算一系列控制指令的效果。然后你優(yōu)化這一序列，使運(yùn)動達(dá)到你想要的結(jié)果。所有經(jīng)典機(jī)器人學(xué)的運(yùn)動規(guī)劃都是通過這種方式完成的，這并不是新事物。這里的新意在于，我們將學(xué)習(xí)世界模型，感知系統(tǒng)將提取出適當(dāng)?shù)某橄蟊硎尽，F(xiàn)在，在我進(jìn)入一個例子之前，說明如何運(yùn)行這個系統(tǒng)，你可以構(gòu)建一個整體的 AI 系統(tǒng)，包含所有這些組件：世界模型、可以針對手頭任務(wù)配置的成本函數(shù)、優(yōu)化模塊（即真正優(yōu)化、尋找給定世界模型的最佳動作序列的模塊）、短期記憶、感知系統(tǒng)等等。圖靈獎得主Yann LeCun萬字演講：今天的AI比貓還笨，自曝早已放棄大模型

那么，這樣是如何工作的呢？如果你的動作不是單一動作，而是一個動作序列，而你的世界模型實際上是一個系統(tǒng)，它告訴你，在時間 T 的世界狀態(tài)和可能采取的行動下，預(yù)測時間 T+1 的世界狀態(tài)。你想預(yù)測在這種情況下兩個動作的序列將產(chǎn)生什么效果。你可以多次運(yùn)行你的世界模型來實現(xiàn)這一點。獲取初始世界狀態(tài)表示，輸入對行動零的假設(shè)，利用模型預(yù)測下一狀態(tài)，然后進(jìn)行行動一，計算下一狀態(tài)，計算成本，然后通過反向傳播和基于梯度的優(yōu)化方法，找出將最小化成本的兩個動作。這就是模型預(yù)測控制。圖靈獎得主Yann LeCun萬字演講：今天的AI比貓還笨，自曝早已放棄大模型

現(xiàn)在，世界并不是完全確定的，因此你必須使用潛在變量來擬合你的世界模型。潛變量基本上是可以在一組數(shù)據(jù)中切換或從分布中抽取的變量，它們代表世界模型在與觀察兼容的多個預(yù)測之間的切換。更有趣的是，智能系統(tǒng)目前還無法去做人類乃至動物能夠做到的事情，那就是分層規(guī)劃。例如，如果你在計劃從紐約到巴黎的旅行，你可以使用你對世界、對身體的理解，可能還有你對從這里到巴黎整個配置的想法，以你的低級肌肉控制來規(guī)劃你的整個旅行。對吧？如果每十毫秒的肌肉控制步驟數(shù)量，所有這些你在去巴黎之前必須做的事情疊加起來，簡直是巨大的數(shù)字。因此，你所做的就是以分層規(guī)劃的方式進(jìn)行規(guī)劃，你從很高的層面開始說，好吧，要去巴黎，我首先需要去機(jī)場，搭乘飛機(jī)。我如何去機(jī)場？假設(shè)我在紐約市，我必須下樓去叫出租車。我怎么下樓？我必須先從椅子上起來，打開門，走到電梯，按下按鈕，等等。我如何從椅子上站起來？在某個時刻，你將不得不將事情表達(dá)為低級肌肉控制動作，但我們并不是在以低級別的方式規(guī)劃整個過程，而是在進(jìn)行分層規(guī)劃。圖靈獎得主Yann LeCun萬字演講：今天的AI比貓還笨，自曝早已放棄大模型

如何使用 AI 系統(tǒng)做到這一點仍然是完全未解決的，我們對此毫無頭緒。這似乎是智能行為的一個重要要求。那么，我們?nèi)绾螌W(xué)習(xí)能夠進(jìn)行層次規(guī)劃的世界模型，能夠在不同抽象層次上工作呢？沒有人展示出任何接近這一點的成果。這是一個重大挑戰(zhàn)。圖像顯示我剛剛提到的例子。那么，我們現(xiàn)在如何訓(xùn)練這個世界模型呢？因為這確實是一個大問題。我嘗試弄清楚嬰兒在什么年齡學(xué)習(xí)關(guān)于世界的基本概念。他們?nèi)绾螌W(xué)習(xí)直觀的物理學(xué)、物理直覺，以及所有這些內(nèi)容？這些發(fā)生在他們開始學(xué)習(xí)語言和互動等事情之前很久。因此，諸如面孔追蹤之類的能力實際上發(fā)生得非常早。生物運(yùn)動，即有生命的物體與無生命物體之間的區(qū)別，也會很早就出現(xiàn)。物體恒常性也是如此，指的是當(dāng)一個物體被另一個物體遮擋時，它依然存在這一事實。圖靈獎得主Yann LeCun萬字演講：今天的AI比貓還笨，自曝早已放棄大模型

而嬰兒是很自然地學(xué)習(xí)的，你不需要給他們事物的名稱。他們會知道椅子、桌子和貓是不同的。而關(guān)于穩(wěn)定性和支持性等概念，比如像重力、慣性、守恒、動量這些實際上大約在九個月大時才會出現(xiàn)。這需要很長時間。因此，如果你向六個月大的嬰兒展示左邊的情境，即小車在平臺上，你將它推下平臺，它似乎在空中漂福六個月大的嬰兒會注意到這一點，而十個月大的嬰兒則會覺得這不應(yīng)該發(fā)生，物體應(yīng)該掉落。當(dāng)發(fā)生意外情況時，這意味著你的「世界模型」是錯誤的。所以你會關(guān)注，因為這可能會要了你的命。因此，這里需要發(fā)生的學(xué)習(xí)類型與我們之前討論的學(xué)習(xí)類型非常相似。獲取輸入，以某種方式破壞它，并訓(xùn)練一個大型神經(jīng)網(wǎng)絡(luò)來預(yù)測缺失的部分。如果你訓(xùn)練一個系統(tǒng)來預(yù)測視頻中將要發(fā)生的事情，就像我們訓(xùn)練神經(jīng)網(wǎng)絡(luò)預(yù)測文本中將要發(fā)生的事情一樣，也許這些系統(tǒng)將能夠?qū)W習(xí)常識。不幸的是，我們已經(jīng)嘗試了這個十年了，結(jié)果完全失敗。我們從來沒有接近過能夠通過僅僅試圖預(yù)測視頻中的像素來真正學(xué)習(xí)任何通用知識的系統(tǒng)。圖靈獎得主Yann LeCun萬字演講：今天的AI比貓還笨，自曝早已放棄大模型

你可以訓(xùn)練一個系統(tǒng)來預(yù)測看起來不錯的視頻。現(xiàn)在有許多視頻生成系統(tǒng)的例子，但它們內(nèi)部并不是良好的物理世界模型。我們不能用它們來做這件事。好吧，所以我們將使用生成模型來預(yù)測個體將要發(fā)生的事情的想法，系統(tǒng)會神奇地理解世界的結(jié)構(gòu)，這完全是失敗的。在過去的十年里，我們嘗試了許多方法。之所以失敗，是因為有許多可能的未來。在像文本這樣的離散空間中，你可以預(yù)測哪個單詞會跟在一串單詞之后，你可以生成字典中可能單詞的概率分布。但當(dāng)涉及到視頻幀時，我們沒有好的方法來表示視頻幀的概率分布。實際上，這個任務(wù)完全不可能。圖靈獎得主Yann LeCun萬字演講：今天的AI比貓還笨，自曝早已放棄大模型

比如，我拍攝這個房間的視頻，對吧？我拿著相機(jī)拍攝那部分，然后停止視頻。我問系統(tǒng)接下來會發(fā)生什么。它可能會預(yù)測剩下的房間。會有一面墻，會有人坐著，密度可能會和左邊的相似，但絕對不可能在像素級別上準(zhǔn)確預(yù)測你們每個人的樣子、世界的紋理以及房間的精確大小等所有細(xì)節(jié)。所以，我提出的解決方案為聯(lián)合嵌入預(yù)測架構(gòu)（JEPA）。其理念就是放棄預(yù)測像素，而是學(xué)習(xí)一個對世界運(yùn)作的抽象表示，然后在這個表示空間中進(jìn)行預(yù)測。這就是架構(gòu)，聯(lián)合嵌入預(yù)測架構(gòu)。這兩個嵌入分別取 X（損壞版本）和 Y，經(jīng)過編碼器處理，然后訓(xùn)練系統(tǒng)根據(jù) X 的表示預(yù)測 Y 的表示�，F(xiàn)在的問題是，如果只是用梯度下降、反向傳播來最小化預(yù)測誤差來訓(xùn)練這樣的系統(tǒng)，它將崩潰。它可能會學(xué)習(xí)一個常量表示，這樣預(yù)測就變得非常簡單，但卻沒有信息量。因此，我希望你記住的的是，生成架構(gòu)試圖重建預(yù)測的自編碼器、生成架構(gòu)、掩碼自編碼器等，與在表示空間中進(jìn)行預(yù)測的聯(lián)合嵌入架構(gòu)之間的區(qū)別。我認(rèn)為未來在于這些聯(lián)合嵌入架構(gòu)，我們有大量的經(jīng)驗證據(jù)表明，學(xué)習(xí)良好的圖像表示的最佳方法是使用聯(lián)合編輯架構(gòu)。圖靈獎得主Yann LeCun萬字演講：今天的AI比貓還笨，自曝早已放棄大模型

所有嘗試通過重建來學(xué)習(xí)圖像表示的嘗試都很糟糕，效果不好，盡管有很多大型項目聲稱它們有效，但實際上并不行，最佳性能是通過右邊的架構(gòu)獲得的�，F(xiàn)在，如果你仔細(xì)想想，這實際上就是我們智力的表現(xiàn)：尋找某種現(xiàn)象的良好表示，以便能夠進(jìn)行預(yù)測，這真的就是科學(xué)的本質(zhì)。真的。想想看，如果你想預(yù)測一個行星的軌跡，行星是一個非常復(fù)雜的物體，它巨大，具有天氣、溫度和密度等各種特征。雖然它是一個復(fù)雜的對象，但要預(yù)測行星的軌跡，你只需要知道 6 個數(shù)字：3 個位置坐標(biāo)和 3 個速度向量，僅此而已，你不需要做其他任何事情。這是一個非常重要的例子，真正展示了預(yù)測能力的本質(zhì)在于找到我們觀察事物的良好表示。圖靈獎得主Yann LeCun萬字演講：今天的AI比貓還笨，自曝早已放棄大模型

那么，我們?nèi)绾斡?xùn)練這樣一個系統(tǒng)呢？所以你想要防止系統(tǒng)崩潰。做到這一點的一種方法是使用某種代價函數(shù)，測量編碼器輸出的表示的信息內(nèi)容，并盡量最大化信息內(nèi)容，最小化負(fù)信息。你的訓(xùn)練系統(tǒng)要同時盡可能提取輸入中的信息，同時最小化在該表示空間中的預(yù)測誤差。系統(tǒng)將找到提取盡可能多的信息與不提取不可預(yù)測信息之間的某種權(quán)衡。你將得到一個良好的表示空間，在這個空間中可以進(jìn)行預(yù)測�，F(xiàn)在，你如何測量信息？這就是事情變得有點奇怪的地方。我將跳過這一點。機(jī)器將會超越人類智力，且安全可控實際上，有一種方法可以通過訓(xùn)練、基于能量的模型和能量函數(shù)從數(shù)學(xué)上理解這一點，但我沒有時間深入探討�；旧�，我在這里告訴你幾件不同的事情：放棄生成模型，轉(zhuǎn)而使用那些 JEPA 架構(gòu)；放棄概率模型，轉(zhuǎn)而使用那些基于能量的模型，放棄對比學(xué)習(xí)方法，還有強(qiáng)化學(xué)習(xí)。這些我已經(jīng)說了 10 年了。而這些都是今天機(jī)器學(xué)習(xí)中最流行的四個支柱。因此目前我可能不太受歡迎。圖靈獎得主Yann LeCun萬字演講：今天的AI比貓還笨，自曝早已放棄大模型

一種方法是估計信息量，測量來自編碼器的信息內(nèi)容。目前有六種不同的方法來實現(xiàn)這一點。實際上，這里有一個叫做 MCR 的方法，來自我在 NYU 的同事，那就是防止系統(tǒng)崩潰并產(chǎn)生常數(shù)。取出來自編碼器的變量，并確保這些變量具有非零的標(biāo)準(zhǔn)差。你可以將其放入一個成本函數(shù)中，確保權(quán)重被搜索，變量不會崩潰并變?yōu)槌?shù)。這是比較簡單的。圖靈獎得主Yann LeCun萬字演講：今天的AI比貓還笨，自曝早已放棄大模型

現(xiàn)在的問題是，系統(tǒng)可能會「作弊」，使所有變量相等或高度相關(guān)。因此，你需要添加另一個項，要求最小化這些變量的協(xié)方差矩陣的非對角線項，以確保它們相關(guān)。當(dāng)然，這還不夠，因為變量仍可能依賴，但不相關(guān)。因此，我們采用另一種方法，將 SX 的維度擴(kuò)展到更高的維度空間 VX，并在該空間中應(yīng)用方差協(xié)方差正則化，以確保滿足要求。這里還有一個技巧，因為我所最大化的是信息內(nèi)容的上限。我希望實際的信息內(nèi)容能跟隨我對上限的最大化。我需要的是一個下限，這樣它會推動下限，信息也會隨之增加。不幸的是，我們并沒有信息的下限，或者至少我們不知道如何計算它們。圖靈獎得主Yann LeCun萬字演講：今天的AI比貓還笨，自曝早已放棄大模型

有第二套方法，稱為「蒸餾風(fēng)格方法」。這種方法以神秘的方式運(yùn)作。如果你想清楚了解誰在做什么，你應(yīng)該問坐在這里的 Grill。他在這方面有一篇個人論文，定義得很好。它的核心思想是只更新模型的一部分，而在另一部分不進(jìn)行梯度的反向傳播，并通過一種有趣的方式共享權(quán)重。關(guān)于這方面也有很多論文。如果你想訓(xùn)練一個完全自監(jiān)督的系統(tǒng)，以生成良好的圖像表示，這種方法效果很好。圖像的破壞是通過掩蔽進(jìn)行的，最近的一些工作是我們?yōu)橐曨l做的，這樣我們就可以訓(xùn)練一個系統(tǒng)來提取良好的視頻表示，以便用于下游任務(wù)，如動作識別視頻等。你可以看到，給一個視頻掩蔽掉一大塊，通過這個過程進(jìn)行預(yù)測，在表示空間中使用這種蒸餾技巧來防止崩潰。這效果很好。圖靈獎得主Yann LeCun萬字演講：今天的AI比貓還笨，自曝早已放棄大模型

因此，如果我們在這個項目中成功，并最終得到能夠推理、計劃和理解物理世界的系統(tǒng)，未來我們所有的互動將會是這樣的。這將需要數(shù)年，甚至可能是十年才能讓一切正常運(yùn)作。馬克扎克伯格一直在問我需要多長時間。如果我們成功做到這一點，好的，我們將擁有能夠調(diào)解我們與數(shù)字世界所有互動的系統(tǒng)。它們將回答我們所有的問題。它們將在很多時候與我們同在，基本上會構(gòu)成所有人類知識的一個庫。這感覺像是一個基礎(chǔ)設(shè)施的東西，就像互聯(lián)網(wǎng)一樣。這并不像是一個產(chǎn)品，而更像是一種基礎(chǔ)設(shè)施。這些人工智能平臺必須是開源的。IBM 和 Meta 參與了一個名為人工智能聯(lián)盟的組織，促進(jìn)開源人工智能平臺。我們需要這些平臺是開源的，因為我們需要這些人工智能系統(tǒng)的多樣性。圖靈獎得主Yann LeCun萬字演講：今天的AI比貓還笨，自曝早已放棄大模型

我們需要它們理解世界上所有的語言、所有的文化、所有的價值體系，而你不會僅僅從由美國西海岸或東海岸的公司生產(chǎn)的單一系統(tǒng)中獲得這些。這必須是來自全世界的貢獻(xiàn)。當(dāng)然，訓(xùn)練金融模型的成本非常高，因此只有少數(shù)公司能夠做到這一點。如果像 Meta 這樣的公司能夠提供開源的基礎(chǔ)模型，那么全世界都可以為自己的目的對其進(jìn)行微調(diào)。這是 Meta 和 IBM 采用的哲學(xué)。圖靈獎得主Yann LeCun萬字演講：今天的AI比貓還笨，自曝早已放棄大模型

因此，開源人工智能不僅僅是一個好主意，它對于文化多樣性，甚至可能對于民主的保存都是必要的。訓(xùn)練和微調(diào)將通過眾包進(jìn)行，或者由初創(chuàng)公司和其他公司的生態(tài)系統(tǒng)完成。這正是推動人工智能初創(chuàng)生態(tài)系統(tǒng)發(fā)展的原因之一，就是這些開源人工智能模型的可用性。達(dá)到通用人工智能需要多長時間？我不知道，可能需要數(shù)年到數(shù)十年。 圖靈獎得主Yann LeCun萬字演講：今天的AI比貓還笨，自曝早已放棄大模型

這過程中有很大的變化，還有許多問題需要解決。這幾乎肯定比我們想象的要困難得多。這不會在一天內(nèi)發(fā)生，而是逐步的、漸進(jìn)的演變。所以并不是說某一天我們會發(fā)現(xiàn)通用人工智能的秘密，啟動機(jī)器后立刻擁有超智能，而我們都會被超智能所消滅，不，情況并不是這樣的。機(jī)器將會超越人類智力，但它們將處于控制之下，因為它們是目標(biāo)驅(qū)動的。我們給它們設(shè)定目標(biāo)，它們就會完成這些目標(biāo)。就像我們這里的許多人都是行業(yè)或?qū)W術(shù)界的領(lǐng)導(dǎo)者。我們與比我們聰明的人合作，我當(dāng)然也是。有很多人比我聰明，并不意味著他們想要主宰或接管，這就是事情的真相。當(dāng)然這背后確實也有風(fēng)險，但我將把這留給后面的討論，非常感謝。

相關(guān)熱詞： 圖靈得主 Yann LeCun 萬字演講今天比貓自