當(dāng)前位置：人工智能實(shí)驗(yàn)室> 人工智能動(dòng)態(tài) > GPT-5可能永遠(yuǎn)不會(huì)來(lái)了？OpenAI將新模型命名為o1，一個(gè)新時(shí)代開(kāi)始了

GPT-5可能永遠(yuǎn)不會(huì)來(lái)了？OpenAI將新模型命名為o1，一個(gè)新時(shí)代開(kāi)始了
來(lái)源：互聯(lián)網(wǎng) 發(fā)布日期：2024-09-13 13:20:55 瀏覽：3799次

導(dǎo)讀：沒(méi)有任何預(yù)警，OpenAI 突然發(fā)布了 OpenAI o1 系列模型。按照官方技術(shù)博客說(shuō)法，o1 在推理能力上代表了人工智能最強(qiáng)的水平。 OpenAI CEO Sam Altman 表示：「OpenAI o1 是一個(gè)新范式的開(kāi)始：可以進(jìn)行通用復(fù)雜推理的 AI�！乖趶�(fù)雜推理任務(wù)上，這款新模型代表...

沒(méi)有任何預(yù)警，OpenAI 突然發(fā)布了 OpenAI o1 系列模型。按照官方技術(shù)博客說(shuō)法，o1 在推理能力上代表了人工智能最強(qiáng)的水平。OpenAI CEO Sam Altman 表示：「OpenAI o1 是一個(gè)新范式的開(kāi)始：可以進(jìn)行通用復(fù)雜推理的 AI�！乖趶�(fù)雜推理任務(wù)上，這款新模型代表了 AI 能力的新水平�；诖耍琌penAI 選擇將此系列重新命名為 OpenAI o1，并從頭開(kāi)始計(jì)數(shù)。不知道這是否意味著，GPT-5 這個(gè)命名也不會(huì)出現(xiàn)了。簡(jiǎn)單總結(jié)新模型的特點(diǎn)：OpenAI o1：性能強(qiáng)大，適用于處理各個(gè)領(lǐng)域推理的復(fù)雜任務(wù)。OpenAI o1 mini：經(jīng)濟(jì)高效，適用于需要推理但不需要廣泛世界知識(shí)的應(yīng)用場(chǎng)景�，F(xiàn)在，該模型已經(jīng)全量推送，你可以通過(guò) ChatGPT 網(wǎng)頁(yè)端或者 API 進(jìn)行訪問(wèn)。其中 o1-preview 還是預(yù)覽版，OpenAI 還會(huì)繼續(xù)更新開(kāi)發(fā)下一版本。目前使用有一定次數(shù)限制，o1-preview 每周 30 條消息，o1-mini 每周 50 條。和傳聞中的「草莓」一樣，新模型能夠推理復(fù)雜任務(wù)，并解決科學(xué)、編碼和數(shù)學(xué)領(lǐng)域中比以往更為困難的問(wèn)題。官方表示，如果你需要解決科學(xué)、編碼、數(shù)學(xué)等領(lǐng)域的復(fù)雜問(wèn)題，那么這些增強(qiáng)的推理功能將尤為有用。例如，醫(yī)療研究人員可以用它注釋細(xì)胞測(cè)序數(shù)據(jù)，物理學(xué)家可以用它生成復(fù)雜的量子光學(xué)公式，開(kāi)發(fā)人員可以用它構(gòu)建并執(zhí)行多步驟的工作流程。此外，OpenAI o1 系列擅長(zhǎng)生成和調(diào)試復(fù)雜代碼。為了給開(kāi)發(fā)人員提供更高效的解決方案，OpenAI 還發(fā)布了一款更快、更便宜的推理模型 OpenAI o1-mini，尤其擅長(zhǎng)編碼。作為較小版本，o1-mini 的成本比 o1-preview 低 80%，是一個(gè)功能強(qiáng)大且高效的模型，適用于需要推理但不需要廣泛世界知識(shí)的應(yīng)用場(chǎng)景。在具體訓(xùn)練過(guò)程中，OpenAI 會(huì)訓(xùn)練這些模型在回答問(wèn)題之前深入思考。o1 在回答問(wèn)題前會(huì)產(chǎn)生一個(gè)內(nèi)部的思維鏈，這使得它能夠進(jìn)行更深入的推理。通過(guò)訓(xùn)練，OpenAI o1 模型能夠?qū)W會(huì)完善自己的思維方式，并且隨著更多的強(qiáng)化學(xué)習(xí)（訓(xùn)練時(shí)間計(jì)算）和更多的思考時(shí)間（測(cè)試時(shí)間計(jì)算）而持續(xù)提高。OpenAI 研究員 @yubai01 也點(diǎn)出了 01 的訓(xùn)練路線：我們使用 RL 來(lái)訓(xùn)練一個(gè)更強(qiáng)大的推理模型。很高興能成為這段旅程的一部分，而且要走很長(zhǎng)一段路！據(jù)介紹，在測(cè)試中，這款模型在物理、化學(xué)和生物等任務(wù)中表現(xiàn)得如同博士生，尤其是在數(shù)學(xué)和編碼領(lǐng)域表現(xiàn)突出。在國(guó)際數(shù)學(xué)奧林匹克競(jìng)賽（IMO）的資格考試中，GPT-4o 只解決了 13% 的問(wèn)題，而推理模型得分高達(dá) 83%。在 Codeforces 編程競(jìng)賽中，它的表現(xiàn)進(jìn)入了前 89% 的隊(duì)列。不過(guò)，和傳聞的爆料一樣，作為一個(gè)早期版本，該模型還不具備一些 ChatGPT 的常用功能，比如網(wǎng)頁(yè)瀏覽和上傳文件或圖像等多模態(tài)能力。相比之下，GPT-4o 反而會(huì)更加勝任許多常見(jiàn)的應(yīng)用場(chǎng)景。為了確保新模型的安全，OpenAI 提出了一種新的安全訓(xùn)練方法。在最嚴(yán)苛的「越獄」測(cè)試中，GPT-4o 得分為 22（滿分 100），而 o1-preview 模型得分為 84，在安全性方面堪稱遙遙領(lǐng)先。從下周開(kāi)始，ChatGPT Enterprise 和 Edu 用戶也可以訪問(wèn)這兩款模型。符合條件的開(kāi)發(fā)人員現(xiàn)在可以通過(guò) API 使用這兩款模型，每分鐘速率也有所限制。在這里劃個(gè)重點(diǎn)，OpenAI 表示，未來(lái)將向所有 ChatGPT 免費(fèi)用戶提供 o1-mini 的訪問(wèn)權(quán)限。不過(guò)，大概率也會(huì)在次數(shù)上有所限制。關(guān)于新模型 o1 更多細(xì)節(jié)，我們很快將在更詳細(xì)的體驗(yàn)后與大家分享。如果你有感興趣的問(wèn)題，歡迎在留言區(qū)告訴我們。推理能力遙遙領(lǐng)先，但仍分不出「9.11 和 9.8 哪個(gè)大」官方也放出了更多 OpenAI o1 的更多演示視頻。比如使用 OpenAI o1 來(lái)編寫(xiě)一個(gè)找松鼠的網(wǎng)頁(yè)游戲。這個(gè)游戲的目標(biāo)是控制一只考拉躲避不斷增加的草莓，并在 3 秒后找到出現(xiàn)的松鼠。與傳統(tǒng)的經(jīng)典游戲如貪吃蛇不同，這類游戲的邏輯相對(duì)復(fù)雜，更考驗(yàn) OpenAI o1 的邏輯推理能力。

編譯視頻來(lái)自 @dotey，下同又或者，OpenAI o1 已經(jīng)開(kāi)始能通過(guò)推理，解決一些簡(jiǎn)單的物理問(wèn)題，演示列舉了一個(gè)例子，一顆小草莓被放在一個(gè)普通的杯子里，杯子倒扣在桌子上，然后杯子被拿起，詢問(wèn)草莓會(huì)在哪里，并要求解釋推理過(guò)程。這表明模型能夠理解物體在不同物理狀態(tài)下的位置變化。

落地到具體的應(yīng)用中，OpenAI o1 還能成為醫(yī)生的得力助手，比如幫助醫(yī)生整理總結(jié)的病例信息，甚至輔助診斷一些疑難雜癥。熱衷于將 AI 與科學(xué)相結(jié)合的量子物理學(xué)家馬里奧·克萊恩（Mario Krenn）也向 OpenAI 的 o1 模型提出一個(gè)關(guān)于特定的量子算符應(yīng)用的問(wèn)題，結(jié)果，OpenAI o1 也輕松拿捏。

「Strawberry」里有多少個(gè)「r」，GPT-4o 會(huì)回答錯(cuò)誤，但卻難不倒 OpenAI o1，這一點(diǎn)值得好評(píng)不過(guò)，經(jīng)過(guò)實(shí)測(cè)，OpenAI o1 依然無(wú)法解決「9.11 和 9.8 哪個(gè)大」的經(jīng)典難題，嚴(yán)重扣分。對(duì)于 OpenAI o1 的到來(lái)，英偉達(dá)具身智能負(fù)責(zé)人 Jim Fan 表示：我們終于看到了推理時(shí)間擴(kuò)展的范式被推廣并投入生產(chǎn)。正如薩頓（強(qiáng)化學(xué)習(xí)教父）在《苦澀的教訓(xùn)》中所說(shuō)，只有兩種技術(shù)可以無(wú)限制地與計(jì)算規(guī)�；簩W(xué)習(xí)和搜索。是時(shí)候?qū)⒅攸c(diǎn)轉(zhuǎn)向后者了。在他看來(lái)，大模型中的很多參數(shù)是用來(lái)記憶事實(shí)的，這的確有助于在問(wèn)答的基準(zhǔn)測(cè)試「刷分」，但如果將邏輯推理能力與知識(shí)（事實(shí)記憶）分開(kāi)，使用一個(gè)小的「推理核心」來(lái)調(diào)用工具，如瀏覽器和代碼驗(yàn)證器，這樣可以減少預(yù)訓(xùn)練的計(jì)算量。Jim Fan 也點(diǎn)出了 OpenAI o1 最強(qiáng)大的優(yōu)勢(shì)所在，即 01 模型可以輕松成為數(shù)據(jù)飛輪的一部分。簡(jiǎn)單來(lái)說(shuō)，如果模型給出了正確的答案，那么整個(gè)搜索過(guò)程就可以變成一個(gè)包含正負(fù)獎(jiǎng)勵(lì)的訓(xùn)練數(shù)據(jù)集。這樣的數(shù)據(jù)集可以用來(lái)訓(xùn)練未來(lái)的模型版本，并且隨著生成的訓(xùn)練數(shù)據(jù)越來(lái)越精細(xì)，模型的表現(xiàn)也會(huì)不斷改善。好一個(gè)通過(guò)自己博弈，實(shí)現(xiàn)自己訓(xùn)練自己的內(nèi)循環(huán)。不過(guò)網(wǎng)友的實(shí)測(cè)中也發(fā)現(xiàn)了一些問(wèn)題，比如回復(fù)的時(shí)間長(zhǎng)了不少，雖然花了更長(zhǎng)時(shí)間思考在一些問(wèn)題上也會(huì)出現(xiàn)答非所問(wèn)輸出不全等問(wèn)題。賽博禪心猜測(cè)，這次的 o1 有可能是 GPT-4o 在進(jìn)行一些微調(diào) / 對(duì)齊后的 agent，整體遠(yuǎn)低于預(yù)期，Sam Altman 也承認(rèn) o1 仍然有缺陷，存在局限，在第一次使用時(shí)更令人印象深刻，而在你花更多時(shí)間使用后就沒(méi)那么好了。盡管如此，OpenAI o1 模型在整體的表現(xiàn)上還是可圈可點(diǎn)。現(xiàn)在，OpenAI o1 模型的發(fā)布堪稱下半年 AI 模型大戰(zhàn)的導(dǎo)火索，如無(wú)意外，接下來(lái)，其他 AI 公司也不會(huì)藏著掖著了。沒(méi)錯(cuò)，我點(diǎn)的就是 Anthropic、Meta AI、xAI 等老對(duì)手、以及一些潛在深處的 AI 黑馬。并且，從 GPT-4 發(fā)布至今，OpenAI 新模型發(fā)布的最深層意義并不在于性能的強(qiáng)大，而是提供一種技術(shù)路線的標(biāo)桿，帶領(lǐng)人們往未知的深水區(qū)邁進(jìn)。GPT-4 如此，OpenAI o1 也希望如此。

相關(guān)熱詞： GPT-5 可能永遠(yuǎn) 不會(huì) OpenAI 新模型模型命