當(dāng)前位置：人工智能實(shí)驗(yàn)室> 人工智能動(dòng)態(tài) > 深度解讀：OpenAI o1技術(shù)原理分析及產(chǎn)業(yè)影響

深度解讀：OpenAI o1技術(shù)原理分析及產(chǎn)業(yè)影響
來源：互聯(lián)網(wǎng) 發(fā)布日期：2024-09-25 20:06:13 瀏覽：3218次

導(dǎo)讀：劃重點(diǎn) 01OpenAI發(fā)布o(jì)1模型，具有強(qiáng)大的邏輯推理能力，在AIME 2024數(shù)學(xué)競(jìng)賽中準(zhǔn)確率達(dá)到驚人的83.3%，相比之下GPT-4o的準(zhǔn)確率只有13.4%。 02o1模型的核心在于通過自博弈強(qiáng)化學(xué)習(xí)和蒙特卡洛樹搜索等技術(shù)，將思維樹的推理能力內(nèi)化進(jìn)LLM中。 03然而，o1模型目前...

劃重點(diǎn)

01OpenAI發(fā)布o(jì)1模型，具有強(qiáng)大的邏輯推理能力，在AIME 2024數(shù)學(xué)競(jìng)賽中準(zhǔn)確率達(dá)到驚人的83.3%，相比之下GPT-4o的準(zhǔn)確率只有13.4%。

02o1模型的核心在于通過自博弈強(qiáng)化學(xué)習(xí)和蒙特卡洛樹搜索等技術(shù)，將思維樹的推理能力內(nèi)化進(jìn)LLM中。

03然而，o1模型目前距離AGI依然有較大距離，一次通過率為21%，相比GPT-4的9%有所提升，但距離AGI 85%的門檻仍有不短的距離。

04o1模型帶來的影響與啟示包括：提示詞工程的重要性可能快速下降，數(shù)據(jù)飛輪效應(yīng)有望為OpenAI訓(xùn)練下一代模型帶來巨大幫助。

以上內(nèi)容由騰訊混元大模型生成，僅供參考

文 |AlphaEngineer 作者|費(fèi)斌杰北京市青聯(lián)委員熵簡(jiǎn)科技CEO

距離OpenAI發(fā)布o(jì)1模型已經(jīng)過去一周，其口碑出現(xiàn)了明顯的兩極分化。

一種聲音認(rèn)為o1的出現(xiàn)意味著人類距離AGI只有咫尺之遙，另一種聲音認(rèn)為o1又貴又不好使，其能力表現(xiàn)甚至不如GPT-4。

沉淀一周后，我們結(jié)合熵簡(jiǎn)AI團(tuán)隊(duì)的研究成果，對(duì)o1的技術(shù)原理及產(chǎn)業(yè)影響進(jìn)行詳細(xì)探討，形成了以下判斷，與各位分享。

深度解讀：OpenAI o1技術(shù)原理分析及產(chǎn)業(yè)影響

原始報(bào)告的獲取鏈接放在文末，歡迎感興趣的朋友下載。

（1）直觀認(rèn)識(shí)o1模型強(qiáng)大的推理能力

OpenAI于9月13日推出o1模型，在邏輯推理能力上大幅提升。

在AIME 2024數(shù)學(xué)競(jìng)賽中，o1模型的準(zhǔn)確率達(dá)到驚人的83.3%，相比之下GPT-4o的準(zhǔn)確率只有13.4%，提升6倍。

在CodeForces代碼競(jìng)賽中，o1的準(zhǔn)確率甚至達(dá)到了89%，GPT-4o的準(zhǔn)確率是11.0%，呈現(xiàn)大幅提升。

深度解讀：OpenAI o1技術(shù)原理分析及產(chǎn)業(yè)影響

用柱狀圖來說明邏輯推理能力的提升，還不夠直觀。下面我用OpenAI官方的一個(gè)具體案例，來說明o1目前的邏輯推理能力到底達(dá)到了怎樣的水平。

這是一個(gè)“密碼破譯”的例子，給定一串密文“oyfjdnisdr rtqwainr acxz mynzbhhx”，它應(yīng)該翻譯成明文“Think step by step”，請(qǐng)你根據(jù)以上規(guī)則，翻譯以下密文：oyekaijzdf aaptcg suaokybhai ouow aqht mynznvaatzacdfoulxxz

下圖是GPT-4o的回答，回答很工整，先“break this down step by step”，然后進(jìn)行分詞，但最后無法破譯密碼，認(rèn)為只給出一個(gè)案例是不夠的，希望我們給予更多提示。

深度解讀：OpenAI o1技術(shù)原理分析及產(chǎn)業(yè)影響

接著讓我們來看o1的回答：

首先，o1對(duì)給出的問題進(jìn)行分析，認(rèn)為可以先檢查一下每個(gè)單詞的長(zhǎng)度。

它敏銳的發(fā)現(xiàn)，密文中每個(gè)單詞的長(zhǎng)度，和明文中每個(gè)單詞的長(zhǎng)度之間，有著2倍的關(guān)系。

oyfjdnisdr（10個(gè)字符）-> Think（5個(gè)字符）

rtqwainr（8個(gè)字符）-> step（4個(gè)字符）

在這個(gè)基礎(chǔ)上，o1推測(cè)應(yīng)該存在一種映射關(guān)系，使得密文中相鄰的2個(gè)字符能夠映射為明文中的1個(gè)字符，即：

深度解讀：OpenAI o1技術(shù)原理分析及產(chǎn)業(yè)影響

那么怎么才能把'oy'映射到'T'呢？

針對(duì)這個(gè)問題，o1進(jìn)行了多種嘗試。首先，按字母在字母表中的順序位置，可以假設(shè)o等于15，y等于25，T等于20。

o1嘗試了加法，嘗試了減法，發(fā)現(xiàn)都不對(duì)。

隨后o1嘗試把o和y相加，并對(duì)26求模，發(fā)現(xiàn)也不對(duì)。

然后o1發(fā)現(xiàn)，把o和y相加再除以2，正好等于T。

發(fā)現(xiàn)規(guī)律的時(shí)候，o1說：Wait a minute, that seems promising.

隨后，o1把這個(gè)規(guī)則用在了其他字符組上進(jìn)行驗(yàn)證，都成功了。

深度解讀：OpenAI o1技術(shù)原理分析及產(chǎn)業(yè)影響

因此，o1找到了密碼破譯的規(guī)則，那就是把密文中相鄰2個(gè)字符在字母表中的位數(shù)相加并除以2，就得到了明文字符在字母表中的位置。

通過這個(gè)規(guī)則，o1把“oyekaijzdf aaptcg suaokybhai ouow aqht mynznvaatzacdfoulxxz”這串密碼成功翻譯了出來，答案是：

There are three R's in Strawberry.

深度解讀：OpenAI o1技術(shù)原理分析及產(chǎn)業(yè)影響

通過這個(gè)例子，我們能夠更直觀的感受o1模型強(qiáng)大的邏輯推理能力。

尤其值得注意的是，這種推理能力不是單純縱深式的推理，而是類似決策樹的層層遞進(jìn)。遇到困難的時(shí)候，o1會(huì)做出假設(shè)，并對(duì)假設(shè)進(jìn)行驗(yàn)證。如果假設(shè)被證偽，它會(huì)選擇其他思路進(jìn)行突破，最終得到正確答案。

相比CoT（思維鏈）而言，它更像是ToT（思維樹）的結(jié)構(gòu)。

（2）o1原理猜想：RL+MCTS，將CoT能力內(nèi)化

目前OpenAI官方對(duì)于o1的原理是諱莫如深的，只有一篇官方的技術(shù)報(bào)告，標(biāo)題為《Learning to Reason with LLMs》。

全文不長(zhǎng)，但其中關(guān)于o1原理的探討更少，只有一句話：Through reinforcement learning, o1 learns to hone its chain of thought and refine the strategies it uses.

先說結(jié)論，我們認(rèn)為o1模型的核心在于：通過RL及MCTS，將CoT能力內(nèi)化進(jìn)LLM中。

在o1出現(xiàn)之前，CoT能力更多是一種Prompting技巧，是獨(dú)立于LLM之外存在的，而o1的價(jià)值在于將思維鏈的能力內(nèi)化到了LLM中。

深度解讀：OpenAI o1技術(shù)原理分析及產(chǎn)業(yè)影響

那么具體而言，o1是如何做到這點(diǎn)的呢？為了回答這個(gè)問題，我們得參考去年關(guān)于Q*的探討。

要知道，Q*、Strawberry、o1本質(zhì)上是相通的，因此去年底對(duì)Q*的解讀和分析，對(duì)于我們理解o1的工作原理是相當(dāng)有幫助的。

深度解讀：OpenAI o1技術(shù)原理分析及產(chǎn)業(yè)影響

在去年12月的時(shí)候，我們對(duì)Q*的原理做了詳細(xì)的探討和推測(cè)，具體可以參考這篇文章：

【重磅】解碼OpenAI Q*：邁向AGI的信仰之躍

在對(duì)其技術(shù)原理進(jìn)行分析之前，我們先講講大模型訓(xùn)練的第一性原理。

（3）大模型訓(xùn)練的第一性原理

大模型訓(xùn)練的第一性原理：本質(zhì)上大模型的能力都來自于訓(xùn)練數(shù)據(jù)，體現(xiàn)某方面能力的訓(xùn)練數(shù)據(jù)密度越高，訓(xùn)練出的大模型這方面的能力就越強(qiáng)。

粗略的分類，大模型的能力體現(xiàn)為三塊：語言表達(dá)能力、知識(shí)記憶能力、邏輯推理能力。

可以說，大模型的這三項(xiàng)能力的獲取和掌握，與上述的第一性原理是密不可分的。

首先來看語言表達(dá)能力。大模型的語言表達(dá)能力很強(qiáng)，各國語言來回翻譯很少出錯(cuò)，也鮮有用戶反饋說大模型的回答存在語法錯(cuò)誤，這是為什么呢？

這是因?yàn)�，隨便找一份訓(xùn)練數(shù)據(jù)，里面的每一句話都包含著語法信息。所以訓(xùn)練數(shù)據(jù)中體現(xiàn)語言表達(dá)能力的數(shù)據(jù)密度是非常高的，這也是為何大模型的語言能力很強(qiáng)的原因。

再來看知識(shí)記憶能力。這是大模型的另一項(xiàng)重要能力，但偶爾會(huì)出現(xiàn)記憶錯(cuò)誤，體現(xiàn)為幻覺現(xiàn)象。比如我們問大模型水滸傳108將分別有誰，大模型可能會(huì)說有武大郎。

這是因?yàn)槭澜缰R(shí)的覆蓋面非常廣泛，雖然訓(xùn)練數(shù)據(jù)體量很大，但是分散到任何專項(xiàng)知識(shí)的數(shù)據(jù)集就很少了。訓(xùn)練數(shù)據(jù)密度低了，自然訓(xùn)練出的大模型這方面的能力就弱，對(duì)專項(xiàng)知識(shí)的掌握就不夠扎實(shí)，體現(xiàn)為幻覺。

然后再來看邏輯推理能力。這次o1模型在邏輯推理能力上產(chǎn)生了巨大突破，那么為什么此前的大模型在邏輯推理能力上比較弱呢？

這是因?yàn)橛?xùn)練集中包含推理過程的數(shù)據(jù)太稀疏了。

就比如現(xiàn)在您在看的這篇文章，本質(zhì)上是我的思考結(jié)果，不是我的思考過程。

可能在未來的某一天，這篇文章會(huì)被訓(xùn)練進(jìn)某個(gè)大模型中，但是大模型學(xué)到的是思考的結(jié)果而已，因?yàn)槲覀內(nèi)祟惒⒉涣?xí)慣于把大腦中發(fā)生的思考過程寫成文字，一股腦都放到互聯(lián)網(wǎng)上。

這就導(dǎo)致互聯(lián)網(wǎng)上的海量數(shù)據(jù)中，包含推理過程的數(shù)據(jù)集非常稀疏。當(dāng)我們把這樣的訓(xùn)練集喂給大模型的時(shí)候，又怎么能夠指望大模型學(xué)到強(qiáng)大的邏輯推理能力呢？

反過來思考，為了讓大模型獲得更強(qiáng)的邏輯推理能力，我們需要做的，恰恰是提供更多包含推理過程數(shù)據(jù)的訓(xùn)練集。

有了這個(gè)大前提，對(duì)于Q*（也就是o1）的理解就水到渠成了。

（4）23年底關(guān)于Q*的理解：解釋微調(diào)、思維樹、過程監(jiān)督

去年下半年的時(shí)候，微軟發(fā)布了Orca系列模型。Orca模型采用了高質(zhì)量合成數(shù)據(jù)進(jìn)行訓(xùn)練，取得了不錯(cuò)的效果。

深度解讀：OpenAI o1技術(shù)原理分析及產(chǎn)業(yè)影響

值得注意的是，在訓(xùn)練Orca模型時(shí)，微軟采用了Explanation Tuning的方法，本質(zhì)上是用包含推理過程的數(shù)據(jù)集對(duì)模型進(jìn)行訓(xùn)練。

深度解讀：OpenAI o1技術(shù)原理分析及產(chǎn)業(yè)影響

通過在訓(xùn)練集中加入推理過程數(shù)據(jù)，Orca 2這樣一個(gè)小模型，在性能上追平甚至打敗了那些比它大5-10倍體量的大模型，說明解釋微調(diào)是有效的。

深度解讀：OpenAI o1技術(shù)原理分析及產(chǎn)業(yè)影響

去年另一項(xiàng)關(guān)鍵研究是ToT，即思維樹，Tree of Thought。

卡尼曼在其著作《思考，快與慢》中提到一個(gè)著名的模型，即人類的思考活動(dòng)可以分為系統(tǒng)1的快思考和系統(tǒng)2的慢思考。

當(dāng)被問到“2+3=？”時(shí)，人類的推理過程和LLM很相似，根據(jù)上文直接推出下文，不帶遲疑，這是系統(tǒng)1的快思考。

當(dāng)被問到“23×68=？”時(shí)，我們無法直接得出答案，而需要在大腦中列出算式，進(jìn)行乘法求解，得出答案后再填在紙上，這里面其實(shí)隱藏了100個(gè)token左右的思考推理，這是系統(tǒng)2的慢思考。

絕大部分存在經(jīng)濟(jì)價(jià)值的思維活動(dòng)，都來源于人類的慢思考，因此如何給大模型加上慢思考的能力，是大家一直以來的追求。

深度解讀：OpenAI o1技術(shù)原理分析及產(chǎn)業(yè)影響

慢思考有好幾種框架，有單純的CoT，有CoT+SC，也有ToT思維樹，其中ToT這種方式的普適性更強(qiáng)，可以和樹搜索算法相結(jié)合。

深度解讀：OpenAI o1技術(shù)原理分析及產(chǎn)業(yè)影響

ToT這篇文章中，作者將慢思考能力用在了24點(diǎn)游戲上，給出4個(gè)數(shù)字，讓大模型找到一種加減乘除的方式，讓結(jié)果等于24。

通過ToT，大模型的成功率從7.3%直接提升10倍，到了74%，取得了非常顯著的效果。

深度解讀：OpenAI o1技術(shù)原理分析及產(chǎn)業(yè)影響

當(dāng)時(shí)就有朋友質(zhì)疑說，ToT這個(gè)方法對(duì)于卡牌類游戲可能有用，但是對(duì)現(xiàn)實(shí)生活中的復(fù)雜任務(wù)而言，可能是沒用的。

但是別忘了，這次o1背后的核心作者之一Noam Brown之前就是專門研究撲克AI的專家，有時(shí)候智力游戲背后的AI經(jīng)驗(yàn)是有著普適價(jià)值的。

深度解讀：OpenAI o1技術(shù)原理分析及產(chǎn)業(yè)影響

去年另一篇關(guān)鍵的論文是OpenAI在5月發(fā)布的《Let's verify step by step》，這篇文章提出了“過程監(jiān)督”的訓(xùn)練方法，大幅提升了大模型的數(shù)學(xué)推理能力。

由于這是OpenAI自己發(fā)布的文章，而且數(shù)學(xué)推理能力也是這次o1體現(xiàn)出來的核心能力之一，所以過程監(jiān)督（PRM）大概率被用到了o1模型的訓(xùn)練中。

深度解讀：OpenAI o1技術(shù)原理分析及產(chǎn)業(yè)影響

其實(shí)PRM的原理并不難理解。如果把人類標(biāo)注員類比為數(shù)學(xué)老師的話，那就是從只給結(jié)果分，變成給過程分了。

首先讓大模型對(duì)問題進(jìn)行分步解答，然后標(biāo)注員對(duì)回答結(jié)果按步驟給分。就算最后答案錯(cuò)了，只要過程對(duì)了，還是能得到過程分的。

深度解讀：OpenAI o1技術(shù)原理分析及產(chǎn)業(yè)影響

OpenAI發(fā)現(xiàn)，通過這種“給過程分”的訓(xùn)練方式能夠顯著提升大模型對(duì)數(shù)學(xué)問題的推理能力。

深度解讀：OpenAI o1技術(shù)原理分析及產(chǎn)業(yè)影響

綜合以上分析，我們判斷Q*（也就是現(xiàn)在的o1）其本質(zhì)是通過自博弈強(qiáng)化學(xué)習(xí)，以及蒙特卡洛樹搜索等技術(shù)，將思維樹的推理能力，通過合成數(shù)據(jù)的形式訓(xùn)練給大模型，從而大幅增加大模型邏輯推理能力。

（5）24年以來的幾篇重要論文

以上是23年底的判斷，時(shí)間轉(zhuǎn)眼來到了24年9月。

今年以來，有幾篇關(guān)鍵論文，對(duì)于我們理解o1很有幫助。

第一篇是今年5月OpenAI發(fā)表的《LLM Critics Help Catch LLM Bugs》。OpenAI基于GPT-4，訓(xùn)練出了CriticGPT，一個(gè)專門給大模型找茬的模型。

人類用戶讓GPT-4寫一段python代碼，GPT-4寫出來后，讓CriticGPT對(duì)這段代碼進(jìn)行反思、查錯(cuò)，從而讓生成結(jié)果更加準(zhǔn)確。

深度解讀：OpenAI o1技術(shù)原理分析及產(chǎn)業(yè)影響

這里面的核心思想，有點(diǎn)類似AlphaGo引入的自博弈強(qiáng)化學(xué)習(xí)。

眾所周知，AlphaGo的訓(xùn)練分為兩個(gè)階段。第一階段是模仿學(xué)習(xí)，即模仿海量頂尖人類棋手的棋譜。通過這個(gè)階段的訓(xùn)練，AlphaGo成長(zhǎng)得很快，但依然無法超過人類最強(qiáng)者。

隨后DeepMind團(tuán)隊(duì)引入了第二階段的訓(xùn)練，即自博弈強(qiáng)化學(xué)習(xí)。在AlphaGo基礎(chǔ)模型之上，分化出兩個(gè)孿生模型互相博弈。

深度解讀：OpenAI o1技術(shù)原理分析及產(chǎn)業(yè)影響

通過引入自博弈強(qiáng)化學(xué)習(xí)，AlphaGo只通過短短40天的訓(xùn)練，就超過了人類最強(qiáng)棋手，進(jìn)入無人能夠企及的領(lǐng)域。

深度解讀：OpenAI o1技術(shù)原理分析及產(chǎn)業(yè)影響

第二篇重要論文是由Google團(tuán)隊(duì)于今年6月發(fā)表的，題為《Chain of Thought Empowers Transformers to Solve Inherently Serial Problems》。

這篇文章從理論角度，說明了Transformer擅長(zhǎng)并行計(jì)算，但并不擅長(zhǎng)串行推理。而通過把CoT能力加入到模型中，能夠有效增加Transformer模型處理串行復(fù)雜任務(wù)的能力。

進(jìn)一步來看，通過Circuit Complexity Theory，作者證明只要CoT的步驟足夠多，GPT模型就能夠模擬任意大小的布爾電路。

布爾電路，就是由與或非門構(gòu)成的邏輯電路。如果一個(gè)模型能夠模擬任意大小的布爾電路，那么就能在多項(xiàng)式復(fù)雜度內(nèi)解決所有決策類問題。這對(duì)把CoT能力內(nèi)化到LLM中來說，是一個(gè)很強(qiáng)的理論支撐。

第三篇重要論文，是由Google DeepMind團(tuán)隊(duì)于今年8月發(fā)表的，題為《Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters》。

這篇文章通過實(shí)驗(yàn)證明，為了增加大模型的性能，與其去scaling up訓(xùn)練算力，不如scaling up推理算力。通過增加推理算力，能夠讓小模型勝過比它大14倍體量的大模型。

深度解讀：OpenAI o1技術(shù)原理分析及產(chǎn)業(yè)影響

今年的這些重要研究，本質(zhì)上和OpenAI o1模型的技術(shù)路徑是高度吻合的。

在OpenAI官方披露的材料中，提到有兩種方式能有效提升o1模型的推理性能，一種是增加強(qiáng)化學(xué)習(xí)時(shí)的訓(xùn)練算力，另一種則是增加推理時(shí)用的測(cè)試算力。

o1模型的主創(chuàng)之一Jason Wei（他也是CoT的發(fā)明人）就提出，在歷史上人們只聚焦于scaling up訓(xùn)練算力，現(xiàn)在通過把CoT能力內(nèi)化進(jìn)大模型，我們可以有抓手來scaling up推理算力了。這意味著存在一個(gè)全新的維度，能夠有效提升大模型的推理能力。

深度解讀：OpenAI o1技術(shù)原理分析及產(chǎn)業(yè)影響

（6）o1模型的不足之處

o1模型的推出，帶來的是兩極分化的口碑。

一種聲音認(rèn)為o1的出現(xiàn)意味著人類距離AGI只有咫尺之遙，多見于自媒體。

另一種聲音認(rèn)為o1又貴又不好使，其能力表現(xiàn)甚至不如GPT-4。

這里給出我們的判斷：o1代表著一個(gè)新的提升大模型推理能力的維度，有著較高的價(jià)值，但目前距離AGI依然有較大距離。

首先來看這個(gè)例子，Jifan Zhang構(gòu)建了一個(gè)數(shù)據(jù)集叫做《Funny Caption Ranking》，就是從紐約時(shí)報(bào)中把漫畫圖拿出來，讓AI來取搞笑標(biāo)題，交由人類進(jìn)行評(píng)分。

深度解讀：OpenAI o1技術(shù)原理分析及產(chǎn)業(yè)影響

結(jié)果顯示，o1取出的標(biāo)題，往往沒那么有趣，評(píng)分甚至不如GPT-4，因此作者認(rèn)為o1的性能并沒有大家說得這么好。

我認(rèn)為這個(gè)論斷有失偏頗。就像我們?nèi)祟愐灿胁煌男愿裉卣�，考察一個(gè)數(shù)學(xué)博士的幽默感，未必合理。

OpenAI在官方文檔中也提到了這點(diǎn)。o1模型在“reasoning-heavy”類問題中，表現(xiàn)得更加出色，比如數(shù)據(jù)分析、寫代碼、做數(shù)學(xué)題。

但是如果在普通的文本類問題中，o1的表現(xiàn)結(jié)果在人類看來，和GPT-4差不多。因此，這個(gè)案例中o1表現(xiàn)不佳，是可以理解的。

但是下一個(gè)案例中o1的表現(xiàn)，就值得我們重視了。

ARC-AGI是由Google的AI學(xué)者Franois Chollet構(gòu)建的，他認(rèn)為目前市面上對(duì)AGI的定義是模糊不清的，而真正的AGI應(yīng)該是：一個(gè)能夠有效掌握新技能，并解決開放域問題的系統(tǒng)。

根據(jù)這一定義，他創(chuàng)造了ARC-AGI測(cè)試集，專門測(cè)試各種AI模型是否真正意義上達(dá)到了AGI。

其測(cè)試題如下，給出幾個(gè)圖例，讓AI從中尋找規(guī)則，然后在右邊的圖中給出答案。對(duì)于我們?nèi)祟惗裕瑥闹袑ふ页鲆?guī)則并不困難。比如在左邊的圖中，應(yīng)該在紅色的色塊邊上長(zhǎng)出4個(gè)黃色色塊，在藍(lán)色色塊的上下左右長(zhǎng)出4個(gè)橙色色塊，而對(duì)于淺藍(lán)色和紫色色塊而言，不做變化；再比如右邊的圖中，應(yīng)該對(duì)輸入色塊施加向下的重力，得到輸出結(jié)果。

深度解讀：OpenAI o1技術(shù)原理分析及產(chǎn)業(yè)影響

但是對(duì)AI來說，要總結(jié)出這樣的規(guī)則，并且推理出準(zhǔn)確的答案，并非易事。

根據(jù)測(cè)評(píng)結(jié)果，o1模型的一次通過率為21%，相比GPT-4的9%確實(shí)有了明顯的提升，但是只和Claude Sonnet 3.5打平，并且距離AGI 85%的門檻，還有不短的距離。

這也說明，o1目前雖然在邏輯推理能力上前進(jìn)了一大步，但是人類還需要經(jīng)過更加深入的探索，才能不斷逼近AGI的目標(biāo)。

深度解讀：OpenAI o1技術(shù)原理分析及產(chǎn)業(yè)影響

（7）o1帶來的影響與啟示

最后來探討一下OpenAI o1模型給整個(gè)行業(yè)帶來的影響與啟示。

首先，邏輯推理能力一直以來都是AI的皇冠，也是目前制約Agent落地的核心障礙。

經(jīng)過一年多時(shí)間的發(fā)展，AI Agent一直處于叫好不叫座的狀態(tài)，因?yàn)槁涞匦Ч粔蚝谩?/p>

一個(gè)Agent往往涉及多個(gè)大模型推理的串并聯(lián)，如果每次推理的準(zhǔn)確率是90%，那么連續(xù)10次推理后，成功率是0.9^10 = 34.8%，慘不忍睹。

因此，Agent要想落地，關(guān)鍵在于把每次推理的準(zhǔn)確率從90%提升到99%以上，這就涉及到大模型的邏輯推理能力。

o1模型最大的價(jià)值在于，它證明了通過RL+MCTS，是可以有效增加LLM邏輯推理能力的。OpenAI就像是一站行業(yè)明燈，為產(chǎn)業(yè)指明了一條新的方向，這條方向的潛力尚未被充分挖掘，值得投入資源探索。

與此同時(shí)，o1本質(zhì)上是算法及數(shù)據(jù)的創(chuàng)新，對(duì)訓(xùn)練算力的依賴度較低，因此對(duì)國內(nèi)AI公司而言是一個(gè)利好。

深度解讀：OpenAI o1技術(shù)原理分析及產(chǎn)業(yè)影響

o1帶來的第二個(gè)影響在于，提示詞工程的重要性在未來可能會(huì)快速下降。

在過去一年中，涌現(xiàn)出了大量提示詞工程技巧，比如讓大模型進(jìn)行角色扮演，或者對(duì)大模型說“你如果回答得好，就給你小費(fèi)，回答得不好，就給你懲罰”。

通過這些提示詞技巧，能夠有效增加大模型回答的效果。

但是在未來，我們只需要給大模型提出“準(zhǔn)確、清晰、簡(jiǎn)短有力”的問題，讓大模型進(jìn)行慢思考即可。

過去一年中，不少國內(nèi)的企業(yè)在提示詞工程方面下了不少功夫，建設(shè)系統(tǒng)，這方面的投入在未來可能是沒有太大意義的。

隨著提示詞工程變得越來越不重要，未來智能體會(huì)發(fā)揮越來越大的價(jià)值，值得重視。

深度解讀：OpenAI o1技術(shù)原理分析及產(chǎn)業(yè)影響

o1帶來的第三個(gè)影響，也是目前市場(chǎng)并未形成共識(shí)的一點(diǎn)，就是：o1模型的背后存在真正意義上的數(shù)據(jù)飛輪。

OpenAI目前公開的o1模型，在使用的時(shí)候，把原始的CoT思維過程隱藏起來了。

根據(jù)官方的說法，這么做的原因是為了提升用戶體驗(yàn)。但我們認(rèn)為更主要的原因，是為了保護(hù)o1模型產(chǎn)生的數(shù)據(jù)飛輪。

說到數(shù)據(jù)飛輪，上一代以ChatGPT為代表的GPT系列模型其實(shí)并沒有產(chǎn)生數(shù)據(jù)飛輪效應(yīng)。

海量用戶的使用，并沒有讓OpenAI積累到足以訓(xùn)練出下一代模型的優(yōu)質(zhì)數(shù)據(jù)，從而擴(kuò)大競(jìng)爭(zhēng)優(yōu)勢(shì)。相反，一年之后Anthropic、Cohere、Mistral都已經(jīng)開始接近甚至追平了OpenAI的模型性能。

但是o1模型不太一樣。假設(shè)一個(gè)用戶使用o1模型來編寫代碼或者做數(shù)學(xué)題。無論代碼還是數(shù)學(xué)，都有一個(gè)共性特點(diǎn)，那就是“對(duì)就是對(duì)，錯(cuò)就是錯(cuò)”，是一個(gè)0-1問題。

如果o1模型回答的結(jié)果是正確的，那么其推理過程大概率也是正確的。

而一個(gè)能夠推導(dǎo)出正確結(jié)果的推理過程數(shù)據(jù)，恰恰是目前AI行業(yè)最稀缺的優(yōu)質(zhì)資源。

如果OpenAI能夠善用o1所帶來的數(shù)據(jù)飛輪，將會(huì)對(duì)其訓(xùn)練下一代o2、o3模型帶來巨大幫助。

最后，給出OpenAI o1模型的主創(chuàng)團(tuán)隊(duì)清單，除了大名鼎鼎的Ilya之外，還有不少新面孔。

深度解讀：OpenAI o1技術(shù)原理分析及產(chǎn)業(yè)影響

上一篇：AI產(chǎn)業(yè)規(guī)模將指數(shù)級(jí)擴(kuò)張？貝恩預(yù)計(jì)3年內(nèi)有望造就一個(gè)萬億美元市場(chǎng)

下一篇：“稚暉君”創(chuàng)業(yè)項(xiàng)目，智元自主研發(fā)的機(jī)器人中間件 AimRT 開源

深度解讀：OpenAI o1技術(shù)原理分析及產(chǎn)業(yè)影響
來源：互聯(lián)網(wǎng) 發(fā)布日期：2024-09-25 20:06:13 瀏覽：3218次

相關(guān)內(nèi)容

AiLab云推薦

最新資訊

本月熱點(diǎn)

熱門排行

推薦內(nèi)容

在線客服

熱門欄目HotCates

關(guān)于我們

版權(quán)聲明

深度解讀：OpenAI o1技術(shù)原理分析及產(chǎn)業(yè)影響 來源：互聯(lián)網(wǎng) 發(fā)布日期：2024-09-25 20:06:13 瀏覽：3218次

相關(guān)內(nèi)容

AiLab云推薦

最新資訊

本月熱點(diǎn)

熱門排行

推薦內(nèi)容

在線客服

熱門欄目HotCates

關(guān)于我們

版權(quán)聲明

深度解讀：OpenAI o1技術(shù)原理分析及產(chǎn)業(yè)影響
來源：互聯(lián)網(wǎng) 發(fā)布日期：2024-09-25 20:06:13 瀏覽：3218次