OpenAI的研究科學(xué)家布朗(Noam Brown),這兩天在他的自我介紹中,加上了一條:OpanAI o1的共同締造者。
他在OpenAI主要研究多步推理、自我對弈和多智能體人工智能。之前布朗已經(jīng)取得成就可謂輝煌:他和FAIR(Meta)的團隊開發(fā)了CICERO,這是第一個在策略游戲《外交》中達到人類水平表現(xiàn)的人工智能。在卡內(nèi)基梅隆大學(xué)期間,他與導(dǎo)師一起開發(fā)了Libratus和Pluribus,在人機對抗賽中擊敗了頂級人類撲克職業(yè)選手。
他早期的職業(yè),其實是金融交易員。布朗在美聯(lián)儲的國際金融市場部門工作,研究金融市場的算法交易,之前是華爾街上一名從事算法交易的工程師。
2012年,深度學(xué)習(xí)開始進入黃金時代,他進入卡內(nèi)基梅隆大學(xué)計算機系,碩士和博士的專業(yè)分別是機器人和計算機科學(xué)。2017年,布朗在Deepmind實習(xí),參與了AlphaGO Zero項目。
早在大模型興起之前,DeepMind用強化學(xué)習(xí)的方法,在游戲和博弈中,已經(jīng)取得了超人的成就,問題在于,這種在給定領(lǐng)域的超人智能,能否泛化到其他領(lǐng)域,產(chǎn)生通用的人工智能。早在OpenAI之前,AGI已經(jīng)是DeepMind的使命:解決智能,然后解決一切。
今年3月10日,布朗在X上發(fā)布了一組推文,紀(jì)念A(yù)lphaGo戰(zhàn)勝圍棋世界冠軍8周年。他實際上是在向席爾弗(David Silver)致敬。
席爾弗是 DeepMind 的首席研究科學(xué)家,他領(lǐng)導(dǎo)了 AlphaGo 項目,首次在圍棋比賽中擊敗頂級職業(yè)選手;之后的AlphaZero 能自我對弈學(xué)習(xí),成為世界上最強大的國際象棋、將棋和圍棋程序。他還共同領(lǐng)導(dǎo)了 AlphaStar 項目,開發(fā)出了世界上首個達到特級大師水平的星際爭霸玩家。西爾弗在谷歌的研究重點是基于強化學(xué)習(xí)的人工智能代理,共同領(lǐng)導(dǎo)了將深度學(xué)習(xí)和強化學(xué)習(xí)相結(jié)合的項目。
最近,西爾弗在MIT的一次演講中指出,強化學(xué)習(xí),正在引領(lǐng)AI跨越大型語言模型(LLM)之谷。他認(rèn)為,單靠LLMs不足以取得超級人工智能。超級規(guī)模的強化學(xué)習(xí)展開了一條通向超人智能的明確路徑。其有效性已經(jīng)一再得到證明(如Atari, AlphaGo, AlphaZero......)。同樣的方法也適用于強大的LLM先驗?zāi)P停ɡ鏏lphaProof)。而這一切“僅僅是開始”。
這個大模型新時代的機會,被布朗抓住了。2023年7月,布朗從Meta跳槽到OpenAI,當(dāng)時他的想法很明確:“多年來,我一直在研究人工智能在撲克和外交等游戲中的自我博弈和推理。現(xiàn)在,我將探討如何使這些方法真正通用。如果成功,我們或許有一天會看到比 GPT-4 強大 1000 倍的大型語言模型。”
布朗認(rèn)為,AlphaGo在擊敗世界冠軍李世石時,關(guān)鍵在于每下一步棋之前一分鐘的“思考”。AlphaGoZero的學(xué)習(xí)和推理方法,相當(dāng)于預(yù)訓(xùn)練10萬倍的規(guī)模。布朗在撲克游戲中也發(fā)現(xiàn)了同樣的規(guī)律,并且用AI首次在撲克游戲中首次戰(zhàn)勝了人類頂級選手。2021年,瓊斯(Andy Jones)在六邊形游戲(Hex)的實驗中,發(fā)現(xiàn)并總結(jié)了這一規(guī)律;他的論文《通過棋盤游戲擴展縮放定律》展示了如何在蒙特卡羅樹搜索(MCTS)的訓(xùn)練計算和推理計算之間進行權(quán)衡。增加 10 倍的 MCTS 步驟幾乎等同于多訓(xùn)練 10 倍。
布朗認(rèn)為,如果發(fā)現(xiàn)一種通用的方法,不僅限于游戲,會帶來巨大的好處。“是的,推理可能會慢上1000倍,而且會更昂貴,但是,為了研發(fā)一種治療癌癥的藥物,或者證明黎曼猜想,多少推理的代價我們不會付出呢?” 而且它會對AI大模型的安全對齊研究帶來新的方法。
o1在OpenAI準(zhǔn)備了很久,在2023年3月微軟發(fā)布了測評GPT-4的深度論文時,就提出解決大模型中的幻覺問題,需要開發(fā)出類似人腦的“第二系統(tǒng)”,即慢思考功能。直到去年10月份,o1的研發(fā)才開始展開,OpenAI逾百名員工參與。此時正值OpenAI董事會突然解除奧特曼的CEO職位前夕,傳得沸沸揚揚的OpenAI的Q*模型項目,主要負(fù)責(zé)人之一正是布朗。Meta的首席AI科學(xué)家楊立昆認(rèn)為布朗正在研究Q*,即強化學(xué)習(xí)中的Q-learning (值函數(shù)算法)。
o1預(yù)覽版和輕量版發(fā)布了,被廣泛認(rèn)可開辟了大模型研究的新方向,也是擴展定律的新范式。布朗回憶自去年7月加入OpenAI,現(xiàn)在這一切都發(fā)生得快于預(yù)期。
隨著最初創(chuàng)始人的紛紛離去,新一代的頂級人才正在接過火炬。o1正在接管OpenAI的一些工作關(guān)于Codebase的公關(guān)稿,已經(jīng)幾乎完全由o1撰寫。
據(jù)硅谷媒體報道,為了實現(xiàn)以1500億美元的估值融資65億美元,奧特曼可能會徹底改變OpenAI的治理結(jié)構(gòu),在2025年廢除頂層非營利公司,讓OpenAI完全成為一家營利性公司。
OpenAI還是原來的那家公司嗎?它的創(chuàng)始人幾乎走光了,它的治理結(jié)構(gòu)已經(jīng)改變,它所做的大模型發(fā)展方向已經(jīng)發(fā)生改變,原先從事的工作,已經(jīng)被稱為“傳統(tǒng)大模型”,F(xiàn)在,在OpenAI內(nèi)部,有些人認(rèn)為,已經(jīng)沒有必要做出一個GPT-6級別的基礎(chǔ)模型,才能達到人類水平的推理表現(xiàn),通向AGI,就差一個強化學(xué)習(xí)了。o1開啟了這一進程,并且初步證明了這一點。
在原聯(lián)合創(chuàng)始人兼首席科學(xué)家蘇茨克沃(Ilya Sutzkever)對于擴展定律的信仰,成為OpenAI的靈魂。蘇茨克沃的離開,標(biāo)志著OpenAI正在進入一個新的發(fā)展階段。
蘇茨克沃對強化學(xué)習(xí)的大模型不感興趣嗎?無論是當(dāng)年西爾弗關(guān)于AlphaGo的論文,還是后來OpenAI的論文Let's Verify Step by Step,蘇茨克沃都是其中的作者之一。他本人對于用強化學(xué)習(xí)實現(xiàn)Superman Intelligence那一套,一點都不陌生,而且當(dāng)年正是他把布朗招至麾下。
如果說實現(xiàn)AGI,就差一個強化學(xué)習(xí),這樣的方向,蘇茨克沃在離開之前就已經(jīng)為OpenAI定下。他后來共同負(fù)責(zé)安全對齊工作,并且打算用4年時間解決”超級智能“的對齊問題。但他離開了OpenAI,創(chuàng)辦了自己的公司SSI( Safe Superintelligence Inc)并且稱他未來推出的第一個產(chǎn)品將是安全的超級人工智能。
現(xiàn)在,我們要面對三個概念,它們之間的關(guān)系要搞清楚:
超人智能(Superhuman Intelligence),在個別特定領(lǐng)域超過人類(通過強化學(xué)習(xí)實現(xiàn),如AlphaGo Zero)
通用人工智能(Artificial General Intelligence), 達到通用人類智能的水平,具有廣泛的靈活性和適應(yīng)性 (以為只要不停地擴展下去,通過大模型可以實現(xiàn))
超級智能(Superintelligence),在所有方面超過人類一般智能 (蘇茨克沃的新創(chuàng)業(yè)項目)。
o1出現(xiàn)之后,LLM+RL=AGI,AGI+Ilya=SSI或ASI ?
今年以來,OpenAI公司鬧個不停,蘇茨克沃等創(chuàng)始人及團隊主力出走、奧特曼的領(lǐng)導(dǎo)力受到質(zhì)疑、GPT-4已經(jīng)初主要對手趕超而GPT-5遲遲沒有發(fā)布,由于出現(xiàn)高達50億美元的虧損,公司的財務(wù)可持續(xù)性也令人擔(dān)憂。所以這一切,在讓OpenAI看起來像是團正在燃燒的“垃圾箱大火”(dumpster fire),F(xiàn)在,隨著o1的發(fā)布,Open AI一時又成為街上最靚的仔,對外稱不缺算力只缺人,展開了新一輪的招兵買馬。
“來吧,加入這場垃圾箱大火。”