圖片來源:Princeton University
語言中充滿了視覺格言。比如,“眼見為實”,“一幅畫勝過千言萬語”,“眼不見,心不煩”等等。這是因為我們?nèi)祟悘囊曈X中獲取了很多意義。但并不是一直都具備視覺能力。直到大約 5.4 億年前,所有生物都生活在水面以下,且它們都無法看見。只有隨著三葉蟲的出現(xiàn),動物們才能第一次感知到周圍陽光的豐富。接下來發(fā)生的事情是非凡的。在接下來的 1 千萬到 1.5 千萬年中,視覺的能力開啟了一個被稱為寒武紀大爆發(fā)的時期,在這個時期,大多數(shù)現(xiàn)代動物的祖先出現(xiàn)了。今天,我們正在經(jīng)歷人工智能(AI)的現(xiàn)代寒武紀大爆發(fā)。似乎每周都有一種新的、令人驚嘆的工具問世。最初,生成式AI革命是由像 ChatGPT這樣的巨大語言模型推動的,它們模仿人類的語言智能。但我相信,基于視覺的智能我稱之為空間智能更為根本。語言很重要,但作為人類,我們理解和與世界互動的能力在很大程度上基于我們所看到的。一個被稱為計算機視覺的AI子領域長期以來一直致力于教會計算機擁有與人類相同或更好的空間智能。過去 15 年,該領域迅速發(fā)展。并且,在以AI以人為本的核心信念指導下,我將我的職業(yè)生涯奉獻給了這一領域。沒有人教孩子如何看。孩子們通過經(jīng)驗和例子來理解世界。他們的眼睛就像生物相機,每秒拍攝五張“照片”。到三歲時,孩子們已經(jīng)看過數(shù)億張這樣的照片。我們需要從大型語言模型轉(zhuǎn)向大型世界模型我們知道,經(jīng)過數(shù)十年的研究,視覺的一個基本元素是物體識別,因此我們開始教計算機這種能力。這并不容易。將一只貓的三維(3D)形狀呈現(xiàn)為二維(2D)圖像的方式是無窮無盡的,這取決于視角、姿勢、背景等。為了讓計算機在圖片中識別出一只貓,它需要擁有大量信息,就像一個孩子一樣。這一切直到 2000 年代中期才成為可能。那時,被稱為卷積神經(jīng)網(wǎng)絡的算法,經(jīng)過數(shù)十年的發(fā)展,遇到了現(xiàn)代 GPU 的強大能力以及“大數(shù)據(jù)”的可用性來自互聯(lián)網(wǎng)、數(shù)碼相機等的數(shù)十億張圖像。我的實驗室為這一融合貢獻了“大數(shù)據(jù)”元素。在 2007 年,我們在一個名為 ImageNet 的項目中創(chuàng)建了一個包含 1500 萬張標記圖像的數(shù)據(jù)庫,涵蓋 22000 個物體類別。然后,我們和其他研究人員使用圖像及其相應的文本標簽訓練神經(jīng)網(wǎng)絡模型,使得模型能夠用簡單的句子描述之前未見過的照片。利用 ImageNet 數(shù)據(jù)庫創(chuàng)建的這些圖像識別系統(tǒng)的意外快速進展,幫助引發(fā)了現(xiàn)代AI熱潮。隨著技術的進步,基于變換器架構(gòu)和擴散等技術的新一代模型帶來了生成性AI工具的曙光。在語言領域,這使得像 ChatGPT這樣的聊天機器人成為可能。在視覺方面,現(xiàn)代系統(tǒng)不僅能夠識別,還可以根據(jù)文本提示生成圖像和視頻。結(jié)果令人印象深刻,但仍然僅限于2D。為了讓計算機具有人類的空間智能,它們需要能夠建模世界、推理事物和地點,并在時間和3D空間中進行互動。簡而言之,我們需要從大型語言模型轉(zhuǎn)向大型世界模型。我們已經(jīng)在學術界和工業(yè)界的實驗室中看到了這一點的初步跡象。借助最新的 AI 模型,這些模型使用來自機器人傳感器和執(zhí)行器的文本、圖像、視頻和空間數(shù)據(jù)進行訓練,我們可以通過文本提示來控制機器人例如,要求它們拔掉手機充電器或制作一個簡單的三明治;蛘撸o定一張 2D 圖像,該模型可以將其轉(zhuǎn)化為用戶可以探索的無限數(shù)量的合理 3D 空間。應用是無窮無盡的。想象一下,能夠在普通家庭中導航并照顧老人的機器人;為外科醫(yī)生提供不知疲倦的額外幫助;或者在模擬、培訓和教育中的應用。這是真正以人為中心的人工智能,空間智能是它的下一個前沿。人類進化了數(shù)億年所取得的成果,現(xiàn)在在計算機中僅需幾十年就能出現(xiàn)。而我們?nèi)祟悓⑹鞘芤嬲。本文翻譯自:The Economist, https://www.economist.com/the-world-ahead/2024/11/20/fei-fei-li-says-understanding-how-the-world-works-is-the-next-step-for-ai編譯:ChatGPT