自拍偷拍亚洲精品无码视频,儿子耕了母亲荒废的田清朝,成人无码不卡电影

強化學(xué)習(xí)正在引領(lǐng)AI跨越LLM之谷 | 筆記

來源：互聯(lián)網(wǎng) 發(fā)布日期：2024-09-18 09:54:36 瀏覽：1950次

導(dǎo)讀：OpenAI的研究科學(xué)家布朗（Noam Brown），這兩天在他的自我介紹中，加上了一條：OpanAI o1的共同締造者。他在OpenAI主要研究多步推理、自我對弈和多智能體人工智能。之前布朗已經(jīng)取得成就可謂輝煌：他和FAIR（Meta）的團隊開發(fā)了CICERO，這是第一個在策略游...

OpenAI的研究科學(xué)家布朗（Noam Brown），這兩天在他的自我介紹中，加上了一條：OpanAI o1的共同締造者。

他在OpenAI主要研究多步推理、自我對弈和多智能體人工智能。之前布朗已經(jīng)取得成就可謂輝煌：他和FAIR（Meta）的團隊開發(fā)了CICERO，這是第一個在策略游戲《外交》中達到人類水平表現(xiàn)的人工智能。在卡內(nèi)基梅隆大學(xué)期間，他與導(dǎo)師一起開發(fā)了Libratus和Pluribus，在人機對抗賽中擊敗了頂級人類撲克職業(yè)選手。

他早期的職業(yè)，其實是金融交易員。布朗在美聯(lián)儲的國際金融市場部門工作，研究金融市場的算法交易，之前是華爾街上一名從事算法交易的工程師。

2012年，深度學(xué)習(xí)開始進入黃金時代，他進入卡內(nèi)基梅隆大學(xué)計算機系，碩士和博士的專業(yè)分別是機器人和計算機科學(xué)。2017年，布朗在Deepmind實習(xí)，參與了AlphaGO Zero項目。

早在大模型興起之前，DeepMind用強化學(xué)習(xí)的方法，在游戲和博弈中，已經(jīng)取得了超人的成就，問題在于，這種在給定領(lǐng)域的超人智能，能否泛化到其他領(lǐng)域，產(chǎn)生通用的人工智能。早在OpenAI之前，AGI已經(jīng)是DeepMind的使命：解決智能，然后解決一切。

今年3月10日，布朗在X上發(fā)布了一組推文，紀(jì)念A(yù)lphaGo戰(zhàn)勝圍棋世界冠軍8周年。他實際上是在向席爾弗（David Silver）致敬。

席爾弗是 DeepMind 的首席研究科學(xué)家，他領(lǐng)導(dǎo)了 AlphaGo 項目，首次在圍棋比賽中擊敗頂級職業(yè)選手；之后的AlphaZero 能自我對弈學(xué)習(xí)，成為世界上最強大的國際象棋、將棋和圍棋程序。他還共同領(lǐng)導(dǎo)了 AlphaStar 項目，開發(fā)出了世界上首個達到特級大師水平的星際爭霸玩家。西爾弗在谷歌的研究重點是基于強化學(xué)習(xí)的人工智能代理，共同領(lǐng)導(dǎo)了將深度學(xué)習(xí)和強化學(xué)習(xí)相結(jié)合的項目。

最近，西爾弗在MIT的一次演講中指出，強化學(xué)習(xí)，正在引領(lǐng)AI跨越大型語言模型（LLM）之谷。他認(rèn)為，單靠LLMs不足以取得超級人工智能。超級規(guī)模的強化學(xué)習(xí)展開了一條通向超人智能的明確路徑。其有效性已經(jīng)一再得到證明（如Atari, AlphaGo, AlphaZero......)。同樣的方法也適用于強大的LLM先驗?zāi)Ｐ停ɡ鏏lphaProof）。而這一切“僅僅是開始”。

強化學(xué)習(xí)正在引領(lǐng)AI跨越LLM之谷 | 筆記

這個大模型新時代的機會，被布朗抓住了。2023年7月，布朗從Meta跳槽到OpenAI，當(dāng)時他的想法很明確：“多年來，我一直在研究人工智能在撲克和外交等游戲中的自我博弈和推理。現(xiàn)在，我將探討如何使這些方法真正通用。如果成功，我們或許有一天會看到比 GPT-4 強大 1000 倍的大型語言模型。”

布朗認(rèn)為，AlphaGo在擊敗世界冠軍李世石時，關(guān)鍵在于每下一步棋之前一分鐘的“思考”。AlphaGoZero的學(xué)習(xí)和推理方法，相當(dāng)于預(yù)訓(xùn)練10萬倍的規(guī)模。布朗在撲克游戲中也發(fā)現(xiàn)了同樣的規(guī)律，并且用AI首次在撲克游戲中首次戰(zhàn)勝了人類頂級選手。2021年，瓊斯（Andy Jones）在六邊形游戲（Hex）的實驗中，發(fā)現(xiàn)并總結(jié)了這一規(guī)律；他的論文《通過棋盤游戲擴展縮放定律》展示了如何在蒙特卡羅樹搜索（MCTS）的訓(xùn)練計算和推理計算之間進行權(quán)衡。增加 10 倍的 MCTS 步驟幾乎等同于多訓(xùn)練 10 倍。

布朗認(rèn)為，如果發(fā)現(xiàn)一種通用的方法，不僅限于游戲，會帶來巨大的好處。“是的，推理可能會慢上1000倍，而且會更昂貴，但是，為了研發(fā)一種治療癌癥的藥物，或者證明黎曼猜想，多少推理的代價我們不會付出呢？” 而且它會對AI大模型的安全對齊研究帶來新的方法。

o1在OpenAI準(zhǔn)備了很久，在2023年3月微軟發(fā)布了測評GPT-4的深度論文時，就提出解決大模型中的幻覺問題，需要開發(fā)出類似人腦的“第二系統(tǒng)”，即慢思考功能。直到去年10月份，o1的研發(fā)才開始展開，OpenAI逾百名員工參與。此時正值OpenAI董事會突然解除奧特曼的CEO職位前夕，傳得沸沸揚揚的OpenAI的Q*模型項目，主要負(fù)責(zé)人之一正是布朗。Meta的首席AI科學(xué)家楊立昆認(rèn)為布朗正在研究Q*，即強化學(xué)習(xí)中的Q-learning （值函數(shù)算法）。

o1預(yù)覽版和輕量版發(fā)布了，被廣泛認(rèn)可開辟了大模型研究的新方向，也是擴展定律的新范式。布朗回憶自去年7月加入OpenAI，現(xiàn)在這一切都發(fā)生得快于預(yù)期。

隨著最初創(chuàng)始人的紛紛離去，新一代的頂級人才正在接過火炬。o1正在接管OpenAI的一些工作關(guān)于Codebase的公關(guān)稿，已經(jīng)幾乎完全由o1撰寫。

據(jù)硅谷媒體報道，為了實現(xiàn)以1500億美元的估值融資65億美元，奧特曼可能會徹底改變OpenAI的治理結(jié)構(gòu)，在2025年廢除頂層非營利公司，讓OpenAI完全成為一家營利性公司。

OpenAI還是原來的那家公司嗎？它的創(chuàng)始人幾乎走光了，它的治理結(jié)構(gòu)已經(jīng)改變，它所做的大模型發(fā)展方向已經(jīng)發(fā)生改變，原先從事的工作，已經(jīng)被稱為“傳統(tǒng)大模型”�，F(xiàn)在，在OpenAI內(nèi)部，有些人認(rèn)為，已經(jīng)沒有必要做出一個GPT-6級別的基礎(chǔ)模型，才能達到人類水平的推理表現(xiàn)，通向AGI，就差一個強化學(xué)習(xí)了。o1開啟了這一進程，并且初步證明了這一點。

強化學(xué)習(xí)正在引領(lǐng)AI跨越LLM之谷 | 筆記

在原聯(lián)合創(chuàng)始人兼首席科學(xué)家蘇茨克沃（Ilya Sutzkever)對于擴展定律的信仰，成為OpenAI的靈魂。蘇茨克沃的離開，標(biāo)志著OpenAI正在進入一個新的發(fā)展階段。

蘇茨克沃對強化學(xué)習(xí)的大模型不感興趣嗎？無論是當(dāng)年西爾弗關(guān)于AlphaGo的論文，還是后來OpenAI的論文Let's Verify Step by Step，蘇茨克沃都是其中的作者之一。他本人對于用強化學(xué)習(xí)實現(xiàn)Superman Intelligence那一套，一點都不陌生，而且當(dāng)年正是他把布朗招至麾下。

如果說實現(xiàn)AGI，就差一個強化學(xué)習(xí)，這樣的方向，蘇茨克沃在離開之前就已經(jīng)為OpenAI定下。他后來共同負(fù)責(zé)安全對齊工作，并且打算用4年時間解決”超級智能“的對齊問題。但他離開了OpenAI，創(chuàng)辦了自己的公司SSI（ Safe Superintelligence Inc）并且稱他未來推出的第一個產(chǎn)品將是安全的超級人工智能。

現(xiàn)在，我們要面對三個概念，它們之間的關(guān)系要搞清楚：

超人智能（Superhuman Intelligence），在個別特定領(lǐng)域超過人類（通過強化學(xué)習(xí)實現(xiàn)，如AlphaGo Zero）

通用人工智能（Artificial General Intelligence), 達到通用人類智能的水平，具有廣泛的靈活性和適應(yīng)性（以為只要不停地擴展下去，通過大模型可以實現(xiàn)）

超級智能（Superintelligence），在所有方面超過人類一般智能（蘇茨克沃的新創(chuàng)業(yè)項目）。

o1出現(xiàn)之后，LLM+RL=AGI，AGI+Ilya=SSI或ASI ？

今年以來，OpenAI公司鬧個不停，蘇茨克沃等創(chuàng)始人及團隊主力出走、奧特曼的領(lǐng)導(dǎo)力受到質(zhì)疑、GPT-4已經(jīng)初主要對手趕超而GPT-5遲遲沒有發(fā)布，由于出現(xiàn)高達50億美元的虧損，公司的財務(wù)可持續(xù)性也令人擔(dān)憂。所以這一切，在讓OpenAI看起來像是團正在燃燒的“垃圾箱大火”（dumpster fire)�，F(xiàn)在，隨著o1的發(fā)布，Open AI一時又成為街上最靚的仔，對外稱不缺算力只缺人，展開了新一輪的招兵買馬。

“來吧，加入這場垃圾箱大火。”

強化學(xué)習(xí)正在引領(lǐng)AI跨越LLM之谷 | 筆記

相關(guān)熱詞： 強化學(xué)習(xí) 正在引領(lǐng) 跨越 LLM 之谷筆記 OpenA

強化學(xué)習(xí)正在引領(lǐng)AI跨越LLM之谷 | 筆記
來源：互聯(lián)網(wǎng) 發(fā)布日期：2024-09-18 09:54:36 瀏覽：1950次

相關(guān)內(nèi)容

AiLab云推薦

最新資訊

本月熱點

熱門排行

推薦內(nèi)容

在線客服

熱門欄目HotCates

關(guān)于我們

版權(quán)聲明

強化學(xué)習(xí)正在引領(lǐng)AI跨越LLM之谷 | 筆記 來源：互聯(lián)網(wǎng) 發(fā)布日期：2024-09-18 09:54:36 瀏覽：1950次

相關(guān)內(nèi)容

AiLab云推薦

最新資訊

本月熱點

熱門排行

推薦內(nèi)容

在線客服

熱門欄目HotCates

關(guān)于我們

版權(quán)聲明

強化學(xué)習(xí)正在引領(lǐng)AI跨越LLM之谷 | 筆記
來源：互聯(lián)網(wǎng) 發(fā)布日期：2024-09-18 09:54:36 瀏覽：1950次