展會信息港展會大全

OpenAI o1:大進步?小技巧?新思路?
來源:互聯(lián)網(wǎng)   發(fā)布日期:2024-09-19 18:59:05   瀏覽:2695次  

導讀:王鵬 騰訊研究院資深專家 經(jīng)過漫長的等待,OpenAI終于在9月12日發(fā)布了新模型O1,用戶可以直接訪問預覽版o1-preview,或者小尺寸版o1-mini。其醞釀了快一年的大招,一會兒Q*、一會兒草莓、一會兒AGI、一會兒GPT5,耗得核心技術團隊都快走光了,才終于拿出來讓...

OpenAI o1:大進步?小技巧?新思路?

王鵬騰訊研究院資深專家

經(jīng)過漫長的等待,OpenAI終于在9月12日發(fā)布了新模型O1,用戶可以直接訪問預覽版o1-preview,或者小尺寸版o1-mini。其醞釀了快一年的大招,一會兒Q*、一會兒草莓、一會兒AGI、一會兒GPT5,耗得核心技術團隊都快走光了,才終于拿出來讓所有人檢驗和評論。這樣一個備受矚目的產(chǎn)品,勢必對行業(yè)甚至社會產(chǎn)生深遠的影響。而且它不像平時那些版本更新一樣,只是簡單的技術能力提升,而需要從多個視角和維度去觀察和預測其影響。

一、大進步OpenAI o1:大進步?小技巧?新思路?

與GPT-4o相比,o1-preview在解決數(shù)學和編程問題上的能力提升了5倍以上,而還未放出的o1則超過8倍!在解決博士級別科學題目的時的成功率,都已經(jīng)超過了人類專家的水平。理化競賽能力都超過了人類博士的水平;在國際數(shù)學奧林匹克(IMO)資格考試中,GPT-4o 只正確解決了 13% 的問題,而推理模型的得分為 83%;編程能力在Codeforces 競賽中超過了 89%的人類選手 。o1看起來在包括科學在內(nèi)的各個領域都超過人類的最強能力,不難理解奧特曼之前對實現(xiàn)AGI的滿滿自信。

在實際操作中,可以看出新模型的推理過程與之前有很大區(qū)別。我們可以看到多了一個可以打開和關閉的Show chain of thought(顯示思路)框,顯示了整個思維過程。類似于人類在回答難題之前的長時間思考,o1 在嘗試解決問題時會通過思考將問題分解,并步步為營,反復思考每個小任務,認識并糾正錯誤。當一個方法不起作用時,它會嘗試另一種方法,從而極大提高了模型的推理能力。

OpenAI o1:大進步?小技巧?新思路?

在這些激動人心的能力進展背后,一系列被大家長期猜測的技術進展也一一被驗證。

1、思維鏈

CoT(Chain of thought,思維鏈),是學者們發(fā)現(xiàn)的能夠激發(fā)大模型通過“思考”來回答困難問題的技術,可以顯著提高其在推理等任務上的正確率。這個思路在兩年前的幾篇經(jīng)典論文中已經(jīng)得到不斷完善。

《Chain-of-Thought Prompting Elicits Reasoning in Large Language Models,NeurIPS2022》這篇文章提出,在問LLM問題前,手工在prompt里面加入一些包含思維過程(Chain of thought)的問答示例(Manual CoT),就可以讓LLM在推理任務上大幅提升。

OpenAI o1:大進步?小技巧?新思路?

《Large language models are zero-shot reasoners. NeurIPS2022》提出先使用 “Let's think step by step.” 讓模型自己給出推理過程(Zero-shot CoT ),也衍生出諸如“一步一步慢慢來“這些著名的咒語。

OpenAI o1:大進步?小技巧?新思路?

《Automatic Chain of Thought Prompting in Large Language Models,ICLR2023》這篇文章可以理解為二者的結(jié)合,先用 “Let's think step by step.” 咒語產(chǎn)生推理過程,再把這些過程加到prompt里面去引導大模型推理。這樣不需要自己寫,又能相對靠譜。

OpenAI o1:大進步?小技巧?新思路?

在這些之后,CoT還經(jīng)歷了千變?nèi)f化的演進,但大都還是通過prompt來誘導大模型分步思維,人們就在想,能不能讓大模型自己學會這種方法呢?

2、強化學習和自學推理

類似當年的Alpha-Zero,強化學習是讓機器自己通過與環(huán)境交互并觀察結(jié)果的方式調(diào)整行為策略的機器學習方法,但之前很難用于語言模型。直到斯坦福大學 2022 年提出一種「自學推理」(Self-Taught Reasoner,STaR)方法:先給模型一些例題詳細解法,再讓模型學著去解更多的題,如果做對就把方法再補充到例題里,形成數(shù)據(jù)集,對原模型微調(diào),讓模型學會這些方法,這也是一種經(jīng)典的自動生成數(shù)據(jù)的方法。

OpenAI o1:大進步?小技巧?新思路?

后來基于此又演進出了名為"Quiet-STaR"的新技術,也就是傳說中的Q*,翻譯過來大概為"安靜的自學推理"。核心為在每個輸入 token 之后插入一個"思考"步驟,讓大模型生成內(nèi)部推理。然后,系統(tǒng)會評估這些推理是否有助于預測后續(xù)文本,并相應地調(diào)整模型參數(shù)。這種方法允許模型在處理各種文本時都能進行隱含的推理,而不僅僅是在回答問題時。

OpenAI o1:大進步?小技巧?新思路?

用人話說呢,加入強化學習就是在大模型訓練時就教他一些套路(當然應該也是模型自己生成并優(yōu)選的),思考時直接就按題型選套路分解問題、按步驟執(zhí)行、反復審核,不行就換個套路,跟通常教小學生普奧的套路類似。但這種自學習機制,由于獎勵模型的復雜,所以通常僅在數(shù)學和代碼領域表現(xiàn)較好。

3、Scaling Law的延伸

以上技術手段結(jié)合的后果就是,預訓練階段并沒有什么變化,但在推理階段的計算量大大增加,原來追求的快思考變成了故意放慢速度,以追求更加準確的結(jié)果。

OpenAI o1:大進步?小技巧?新思路?

OpenAI 提及了自己訓練中發(fā)現(xiàn)的一個現(xiàn)象:隨著更多的強化學習(訓練時計算)和更多的思考時間(推理時計算),o1 的性能能持續(xù)提高。

OpenAI o1:大進步?小技巧?新思路?

英偉達AI領導者 Jim Fan 在 X 上點評了這一事件的歷史意義模型不僅僅擁有訓練時的 scaling law,還擁有推理層面的 scaling law,雙曲線的共同增長,將突破之前大模型能力的提升瓶頸。“之前,沒人能將 AlphaGo 的成功復制到大模型上,使用更多的計算讓模型走向超人的能力。目前,我們已經(jīng)翻過這一頁了。”

可以預見,在預訓練邊際成本遞減的背景下,基于強化學習的推理增強會越來越受到重視并發(fā)揮作用,也會有更多的算力被投入到推理階段,全球人工智能芯片和算力的需求也還會繼續(xù)增加。

二、小技巧不可否認,o1代表了人工智能領域的一次重要進步。但細細回顧過去一年奧特曼的言行,以及OpenAI的組織架構(gòu)和核心團隊的變化,不免讓人產(chǎn)生一些疑慮:這個故事會不會有些許夸大其詞之處?會不會是借助一系列小技巧,來維持公司估值的增長和資源的獲取呢?

1、技術壁壘

無論是Sora還是o1,其實都是基于已有科研成果的工程創(chuàng)新,并沒有多高的技術壁壘。OpenAI最大的貢獻還是堅定而不計成本地率先實踐。跟Sora一樣,一旦OAI明確了技術方向,工程復現(xiàn)大概率只是時間問題,而OAI在所有方向上卷贏全球簡直是不可能完成的任務。況且以這幾天全網(wǎng)的測試情況,模型效果只能說差強人意,很多場景下還不如其他工程手段下思維鏈方法的結(jié)果(如Claude3.5),甚至可以說經(jīng)常只是概率稍大的抽卡,實用價值還很難確定。另外,也許是為了避免友商的窺探和抄襲,或者是因為開放的思維過程存在安全性問題,OpenAI并未向用戶開放整個思維鏈細節(jié),但仍有研究者在很短時間內(nèi)宣稱復現(xiàn)了與之類似的推理能力。

可以想象,后面各大廠商都會開始卷推理,陸續(xù)推出“深思熟慮”版的模型,快速拉齊水平,而如果OpenAI后面再沒有拿得出手的底牌,仍然難以扭轉(zhuǎn)本輪模型競賽到頂?shù)睦Ь场?/strong>

2、成本

去年已經(jīng)基本完成的模型拖延了這么久才面世,除了眾所周知的安全原因外,可能是因為o1和Sora一樣,算力消耗過于巨大而并不具備大規(guī)模商用的可行性。面對這一挑戰(zhàn),奧特曼團隊一直在嘗試尋找解決方案。他們等待了很長時間,希望算力成本能夠隨著技術進步而下降。同時,他們也在全球范圍內(nèi)四處融資,籌集資金來購買或租賃更多的計算資源。然而,即使經(jīng)過了這些努力,推出的產(chǎn)品仍然單次推理動輒需要數(shù)分鐘甚至數(shù)十分鐘,單價高出4o數(shù)倍,token消耗也經(jīng)常會提升數(shù)倍。

這些因素導致了一個尷尬的局面:科研貢獻暫時遠大于商業(yè)價值。在這樣的背景下,OpenAI的行業(yè)地位和估值能否維持,變得相當不確定。高昂的研發(fā)和運營成本,加上商業(yè)化受阻,可能會影響投資者的信心和市場預期。

3、方法論

如果說前面兩點商業(yè)視角的質(zhì)疑對一路引領的OAI有一些不公平,那么這個方法論是不是真的如其所說,能達到甚至超過各STEM領域的“博士水平”,其實也是值得進一步討論和驗證的。從原理上說,這種思路還是在“大力出奇跡”的Scaling Law基礎上繼續(xù)疊加buff,引入類似蒙特卡洛樹搜索等暴力方法多路徑嘗試推理,某種意義上是在用文科方法解決理科問題。類似之前的AutoGPT類應用,面向復雜問題,如果不對思維鏈的搜索空間進行嚴格限制和引導,可能會陷入漫無邊際的發(fā)散,消耗大量算力仍然無法得到需要的結(jié)果。

如前文提到,這種方法有些類似面向普通學生的“普奧”中常用的套路式教學,更多依賴記憶和模式匹配,而并非對問題本質(zhì)的深刻理解和創(chuàng)造性思維。就連9.11和9.8誰大都還要琢磨半天,還有相當大概率答錯。這種方法培養(yǎng)出的AI,恐怕更像是一個只會刷題刷分的"小鎮(zhèn)做題家",而非真正具有洞見和創(chuàng)新能力的"博士",畢竟只有“做題”過程的訓練數(shù)據(jù)好找。

誠然,在現(xiàn)實中,大量的科研工作確實涉及重復性、機械性的任務,這部分工作如果能夠由AI來承擔,無疑會極大地提高科研效率。但科研的核心仍然在于創(chuàng)新,在于對未知問題的探索和對新知識的發(fā)現(xiàn)。這需要的是靈感、創(chuàng)造力和邏輯推理能力,而非單純的計算能力。

正如《Large Language Monkeys: Scaling Inference Compute》一文所指出的,僅僅通過增加生成樣本的數(shù)量來擴展推理計算,本質(zhì)上并沒有改變大型語言模型的基本屬性,它仍然是一個基于統(tǒng)計概率進行"打字"的"猴子"。要真正實現(xiàn)通用人工智能,實現(xiàn)在科學領域的突破性進展,我們可能需要在算法和架構(gòu)上尋求更加本質(zhì)的創(chuàng)新,而不是簡單地堆砌算力。

OpenAI o1:大進步?小技巧?新思路?

三、新思路前面是夸也夸了,踩也踩了,但歸根到底,筆者認為這些都并非o1的最重要價值。雖然看起來并非OAI眼中的重點,但在材料中多次提到了一個很重要的點,就是o1更適用于科學、編碼、數(shù)學和類似領域的復雜問題,或者更確切說,是復雜問題中的繁瑣工作,尤其是多步歸納或者演繹推理。例如,“醫(yī)療保健研究人員可以使用 o1 來注釋細胞測序數(shù)據(jù),物理學家可以使用 o1 生成量子光學所需的復雜數(shù)學公式,所有領域的開發(fā)人員可以使用 o1 來構(gòu)建和執(zhí)行多步驟工作流程。”

以前我們對人工智能的期待,往往是一個模型既有知識,又有智力,甚至還要有情感和創(chuàng)意,以至于模型的參數(shù)量和算力消耗不斷攀升。但也許這些目標是要用各種不同的方法去解決,有些還可能是非技術方法。o1的未來也許確實會以某種方式提升原來多模態(tài)模型的世界理解能力,但其本身的核心價值,恰恰是一個與世界知識大幅解耦的推理模型。這一點在o1-mini上體現(xiàn)得更加徹底,作為一個低成本的小模型,尤其擅長編程這種不需要太多世界知識的多步嚴謹推理場景。

人類學習的過程,是先大量學習知識,通過神經(jīng)元的大量激活和連接形成智力,而具體的知識則往往會被忘記,類似張無忌學太極拳的過程。在解決不同問題過程中,除了以語言理解和邏輯推理能力為基礎,還要靠可信知識的查閱和引用,靠靈感創(chuàng)意的涌現(xiàn),靠情感的人際連接和感應……人工智能也不會僅僅是一個深度學習大模型,而會成為一個越來越“稀疏“而靈活的能力組合,甚至是一套人機協(xié)同的新機制。“做題”能力肯定是必要的,但學會了做題,離解決實際問題,還有相當長的距離。

o1的出現(xiàn),或許預示著這樣一個"能力稀疏化"的趨勢。未來的人工智能,會從單一的大模型,逐漸演化為知識、推理、創(chuàng)意、情感等不同能力模塊的靈活組合,并與人類形成更加緊密和高效的協(xié)作。o1只是一個開始,期待百花齊放的未來。


贊助本站

相關內(nèi)容
AiLab云推薦
Copyright © 2010-2024 AiLab Team. 人工智能實驗室 版權所有    關于我們 | 聯(lián)系我們 | 廣告服務 | 公司動態(tài) | 免責聲明 | 隱私條款 | 工作機會 | 展會港