沒(méi)有任何預(yù)警,OpenAI 突然發(fā)布了 OpenAI o1 系列模型。按照官方技術(shù)博客說(shuō)法,o1 在推理能力上代表了人工智能最強(qiáng)的水平。OpenAI CEO Sam Altman 表示:「OpenAI o1 是一個(gè)新范式的開(kāi)始:可以進(jìn)行通用復(fù)雜推理的 AI!乖趶(fù)雜推理任務(wù)上,這款新模型代表了 AI 能力的新水平;诖耍琌penAI 選擇將此系列重新命名為 OpenAI o1,并從頭開(kāi)始計(jì)數(shù)。不知道這是否意味著,GPT-5 這個(gè)命名也不會(huì)出現(xiàn)了。簡(jiǎn)單總結(jié)新模型的特點(diǎn):OpenAI o1:性能強(qiáng)大,適用于處理各個(gè)領(lǐng)域推理的復(fù)雜任務(wù)。OpenAI o1 mini:經(jīng)濟(jì)高效,適用于需要推理但不需要廣泛世界知識(shí)的應(yīng)用場(chǎng)景,F(xiàn)在,該模型已經(jīng)全量推送,你可以通過(guò) ChatGPT 網(wǎng)頁(yè)端或者 API 進(jìn)行訪問(wèn)。其中 o1-preview 還是預(yù)覽版,OpenAI 還會(huì)繼續(xù)更新開(kāi)發(fā)下一版本。目前使用有一定次數(shù)限制,o1-preview 每周 30 條消息,o1-mini 每周 50 條。和傳聞中的「草莓」一樣,新模型能夠推理復(fù)雜任務(wù),并解決科學(xué)、編碼和數(shù)學(xué)領(lǐng)域中比以往更為困難的問(wèn)題。官方表示,如果你需要解決科學(xué)、編碼、數(shù)學(xué)等領(lǐng)域的復(fù)雜問(wèn)題,那么這些增強(qiáng)的推理功能將尤為有用。例如,醫(yī)療研究人員可以用它注釋細(xì)胞測(cè)序數(shù)據(jù),物理學(xué)家可以用它生成復(fù)雜的量子光學(xué)公式,開(kāi)發(fā)人員可以用它構(gòu)建并執(zhí)行多步驟的工作流程。此外,OpenAI o1 系列擅長(zhǎng)生成和調(diào)試復(fù)雜代碼。為了給開(kāi)發(fā)人員提供更高效的解決方案,OpenAI 還發(fā)布了一款更快、更便宜的推理模型 OpenAI o1-mini,尤其擅長(zhǎng)編碼。作為較小版本,o1-mini 的成本比 o1-preview 低 80%,是一個(gè)功能強(qiáng)大且高效的模型,適用于需要推理但不需要廣泛世界知識(shí)的應(yīng)用場(chǎng)景。在具體訓(xùn)練過(guò)程中,OpenAI 會(huì)訓(xùn)練這些模型在回答問(wèn)題之前深入思考。o1 在回答問(wèn)題前會(huì)產(chǎn)生一個(gè)內(nèi)部的思維鏈,這使得它能夠進(jìn)行更深入的推理。通過(guò)訓(xùn)練,OpenAI o1 模型能夠?qū)W會(huì)完善自己的思維方式,并且隨著更多的強(qiáng)化學(xué)習(xí)(訓(xùn)練時(shí)間計(jì)算)和更多的思考時(shí)間(測(cè)試時(shí)間計(jì)算)而持續(xù)提高。OpenAI 研究員 @yubai01 也點(diǎn)出了 01 的訓(xùn)練路線:我們使用 RL 來(lái)訓(xùn)練一個(gè)更強(qiáng)大的推理模型。很高興能成為這段旅程的一部分,而且要走很長(zhǎng)一段路!據(jù)介紹,在測(cè)試中,這款模型在物理、化學(xué)和生物等任務(wù)中表現(xiàn)得如同博士生,尤其是在數(shù)學(xué)和編碼領(lǐng)域表現(xiàn)突出。在國(guó)際數(shù)學(xué)奧林匹克競(jìng)賽(IMO)的資格考試中,GPT-4o 只解決了 13% 的問(wèn)題,而推理模型得分高達(dá) 83%。在 Codeforces 編程競(jìng)賽中,它的表現(xiàn)進(jìn)入了前 89% 的隊(duì)列。不過(guò),和傳聞的爆料一樣,作為一個(gè)早期版本,該模型還不具備一些 ChatGPT 的常用功能,比如網(wǎng)頁(yè)瀏覽和上傳文件或圖像等多模態(tài)能力。相比之下,GPT-4o 反而會(huì)更加勝任許多常見(jiàn)的應(yīng)用場(chǎng)景。為了確保新模型的安全,OpenAI 提出了一種新的安全訓(xùn)練方法。在最嚴(yán)苛的「越獄」測(cè)試中,GPT-4o 得分為 22(滿分 100),而 o1-preview 模型得分為 84,在安全性方面堪稱遙遙領(lǐng)先。從下周開(kāi)始,ChatGPT Enterprise 和 Edu 用戶也可以訪問(wèn)這兩款模型。符合條件的開(kāi)發(fā)人員現(xiàn)在可以通過(guò) API 使用這兩款模型,每分鐘速率也有所限制。在這里劃個(gè)重點(diǎn),OpenAI 表示,未來(lái)將向所有 ChatGPT 免費(fèi)用戶提供 o1-mini 的訪問(wèn)權(quán)限。不過(guò),大概率也會(huì)在次數(shù)上有所限制。關(guān)于新模型 o1 更多細(xì)節(jié),我們很快將在更詳細(xì)的體驗(yàn)后與大家分享。如果你有感興趣的問(wèn)題,歡迎在留言區(qū)告訴我們。推理能力遙遙領(lǐng)先,但仍分不出「9.11 和 9.8 哪個(gè)大」官方也放出了更多 OpenAI o1 的更多演示視頻。比如使用 OpenAI o1 來(lái)編寫(xiě)一個(gè)找松鼠的網(wǎng)頁(yè)游戲。這個(gè)游戲的目標(biāo)是控制一只考拉躲避不斷增加的草莓,并在 3 秒后找到出現(xiàn)的松鼠。與傳統(tǒng)的經(jīng)典游戲如貪吃蛇不同,這類游戲的邏輯相對(duì)復(fù)雜,更考驗(yàn) OpenAI o1 的邏輯推理能力。
編譯視頻來(lái)自 @dotey,下同又或者,OpenAI o1 已經(jīng)開(kāi)始能通過(guò)推理,解決一些簡(jiǎn)單的物理問(wèn)題,演示列舉了一個(gè)例子,一顆小草莓被放在一個(gè)普通的杯子里,杯子倒扣在桌子上,然后杯子被拿起,詢問(wèn)草莓會(huì)在哪里,并要求解釋推理過(guò)程。這表明模型能夠理解物體在不同物理狀態(tài)下的位置變化。
落地到具體的應(yīng)用中,OpenAI o1 還能成為醫(yī)生的得力助手,比如幫助醫(yī)生整理總結(jié)的病例信息,甚至輔助診斷一些疑難雜癥。熱衷于將 AI 與科學(xué)相結(jié)合的量子物理學(xué)家馬里奧·克萊恩(Mario Krenn)也向 OpenAI 的 o1 模型提出一個(gè)關(guān)于特定的量子算符應(yīng)用的問(wèn)題,結(jié)果,OpenAI o1 也輕松拿捏。
「Strawberry」里有多少個(gè)「r」,GPT-4o 會(huì)回答錯(cuò)誤,但卻難不倒 OpenAI o1,這一點(diǎn)值得好評(píng)不過(guò),經(jīng)過(guò)實(shí)測(cè),OpenAI o1 依然無(wú)法解決「9.11 和 9.8 哪個(gè)大」的經(jīng)典難題,嚴(yán)重扣分。對(duì)于 OpenAI o1 的到來(lái),英偉達(dá)具身智能負(fù)責(zé)人 Jim Fan 表示:我們終于看到了推理時(shí)間擴(kuò)展的范式被推廣并投入生產(chǎn)。正如薩頓(強(qiáng)化學(xué)習(xí)教父)在《苦澀的教訓(xùn)》中所說(shuō),只有兩種技術(shù)可以無(wú)限制地與計(jì)算規(guī);簩W(xué)習(xí)和搜索。是時(shí)候?qū)⒅攸c(diǎn)轉(zhuǎn)向后者了。在他看來(lái),大模型中的很多參數(shù)是用來(lái)記憶事實(shí)的,這的確有助于在問(wèn)答的基準(zhǔn)測(cè)試「刷分」,但如果將邏輯推理能力與知識(shí)(事實(shí)記憶)分開(kāi),使用一個(gè)小的「推理核心」來(lái)調(diào)用工具,如瀏覽器和代碼驗(yàn)證器,這樣可以減少預(yù)訓(xùn)練的計(jì)算量。Jim Fan 也點(diǎn)出了 OpenAI o1 最強(qiáng)大的優(yōu)勢(shì)所在,即 01 模型可以輕松成為數(shù)據(jù)飛輪的一部分。簡(jiǎn)單來(lái)說(shuō),如果模型給出了正確的答案,那么整個(gè)搜索過(guò)程就可以變成一個(gè)包含正負(fù)獎(jiǎng)勵(lì)的訓(xùn)練數(shù)據(jù)集。這樣的數(shù)據(jù)集可以用來(lái)訓(xùn)練未來(lái)的模型版本,并且隨著生成的訓(xùn)練數(shù)據(jù)越來(lái)越精細(xì),模型的表現(xiàn)也會(huì)不斷改善。好一個(gè)通過(guò)自己博弈,實(shí)現(xiàn)自己訓(xùn)練自己的內(nèi)循環(huán)。不過(guò)網(wǎng)友的實(shí)測(cè)中也發(fā)現(xiàn)了一些問(wèn)題,比如回復(fù)的時(shí)間長(zhǎng)了不少,雖然花了更長(zhǎng)時(shí)間思考在一些問(wèn)題上也會(huì)出現(xiàn)答非所問(wèn)輸出不全等問(wèn)題。賽博禪心猜測(cè),這次的 o1 有可能是 GPT-4o 在進(jìn)行一些微調(diào) / 對(duì)齊后的 agent,整體遠(yuǎn)低于預(yù)期,Sam Altman 也承認(rèn) o1 仍然有缺陷,存在局限,在第一次使用時(shí)更令人印象深刻,而在你花更多時(shí)間使用后就沒(méi)那么好了。盡管如此,OpenAI o1 模型在整體的表現(xiàn)上還是可圈可點(diǎn)。現(xiàn)在,OpenAI o1 模型的發(fā)布堪稱下半年 AI 模型大戰(zhàn)的導(dǎo)火索,如無(wú)意外,接下來(lái),其他 AI 公司也不會(huì)藏著掖著了。沒(méi)錯(cuò),我點(diǎn)的就是 Anthropic、Meta AI、xAI 等老對(duì)手、以及一些潛在深處的 AI 黑馬。并且,從 GPT-4 發(fā)布至今,OpenAI 新模型發(fā)布的最深層意義并不在于性能的強(qiáng)大,而是提供一種技術(shù)路線的標(biāo)桿,帶領(lǐng)人們往未知的深水區(qū)邁進(jìn)。GPT-4 如此,OpenAI o1 也希望如此。