北京時間凌晨一點左右,OpenAI o1 橫空出世,即是之前宣傳已久的草莓模型。
“突來的消息,那個模是你,這么多天你杳無音訊...”
特工們也第一時間被推送到了新模型,這下直接不困了。
不就是發(fā)了兩個模型,十幾個演示視頻,43 頁的論文嘛,起來肝就完了!
沒睡的特工,出列!拉群開整!
o1 核心特點是能夠在給出回復前用更多時間進行思考,模仿人類解決復雜問題的思考方式,并且思考越久,推理任務的表現就越好。
這一機制是 o1 對無限推理模型的邁進,同時也將 AI 在復雜推理任務上的能力提升到一個全新高度。
所以 OpenAI 將計數器重置為 1,并將這個系列命名為“OpenAI o1”。不同于之前的各個期貨,直接上線,毫不拖拉。
記得堅持看完!因為每段內容都不太一樣,都有新收獲+
簡介與評估
簡單的來說,OpenAI o1 系列模型,在復雜推理上的性能提升模式與傳統(tǒng) LLM 預訓練式的性能提升不同,主要通過強化學習的方式,讓模型不斷完善思考過程,包括對不同策略進行嘗試,認識到錯誤等。
而正是這一新訓練模式,讓 o1 模型擁有了同博士生般推理能力。同時根據報告顯示,這一模式是可能存在 Scale up 的。下面具體介紹在這一新訓練模式下,o1 展示出的令人驚訝的性能!
觀察下圖我們可以發(fā)現,o1 在各類機器學習基準測試中,遠勝于 GPT-4o 模型(注:pass@1的意思是一次通過)
而在 GPQA Diamond* 上,o1 甚至成為第一個能擊敗人類專家的模型,雖不能直接說明 o1 能力超過人類專家,但足以表現出其“博士級”的推理思考能力。
GPQA Diamond :一個困難的智力基準,用于測試化學、物理和生物學方面的專業(yè)知識。
實線條顯示一次通過的準確率,陰影區(qū)域顯示 64 個樣本的平均性能
文科向評估中 o1 相比于 4o 提升不算太大,而在邏輯推理方面,o1 遠勝 4o
其中值得關注的是,為了展示 o1 的邏輯推理能力,OpenAI 選擇了 AIME 作為測試。這屬于美國數學競賽中僅次于奧林匹克數學競賽的項目,難度極大,非常靈活。
而 o1 在這一基準的表現,相比于 GPT-4o 僅拿下 12% ,在 1 樣本提示的前提下,平均拿下 74%!而在 64 個樣本的共識中,更是達到 83%,最為夸張的是,如果使用 1000 樣本,則可以直接拿下 93%,足以進入美國前 500 名。
至于編程能力方面,OpenAI 以 o1 為基礎,經過不斷訓練改進后的模型,最終能在模擬 cf 編程競賽中得分 1807,超過 93% 的人類選手,而 GPT-4o 僅得到 808 分。
而在人類偏好評估方面,除復雜推理外,o1-preview 對比 4o 也是占據主要優(yōu)勢,不過在推理要求不高的場景下,人們還是更偏向于 4o 模型。
安全方面,總體相比于 4o 保持改進或相當(好像大家對安全都不那么感冒)。
CoT(思維鏈)
除去推理能力的提升,思維鏈的嵌入讓 o1 相比于 4o 產生了能力的飛躍,o1 可以在嘗試解決問題時,先進行一系列的思維鏈推導,而這其中包括了意識并糾正錯誤,問題拆解與規(guī)劃,不同策略的嘗試...(這不就是我們人類解決復雜問題的過程嗎)
官方為了展示整個過程,給出了在 Code,Math,Science 等場景下的真實案例,并且展示了 CoT 的過程。
其中我們比較關注了數學方面的 case,因為對于以往的大語言模型來說,數學方面的回答總是存在大量論斷,過程不嚴謹,在不調用外部計算器的情況下,計算也經常出現問題。
團隊數學專業(yè)的小特工進行了測試(雖然算不上特別特別難的題,但對于修讀大學數學專業(yè)的大一同學已是不小挑戰(zhàn)的難度)。
原理
https://platform.openai.com/docs/guides/reasoning?reasoning-prompt-examples=coding-planning
特工們在挖掘 o1 時,發(fā)現在 OpenAI 的官網上有這樣一張圖,簡單解釋是如下:
用戶輸入問題后,o1 相比之前 GPT 系列模型多使用一個叫做“推理標記”的東西,你可以理解為它學會了像人一樣選擇在什么時候進行思考,并輸出當前的想法,而這些“推理標記”中的“思考”的內容,并不會展示出來。這也是為什么有體驗者提到,模型的等待時間比較久,正是因為思考的過程并不會顯式地展示;
在新一輪的對話中(用戶第二次輸入),上一輪“思考”的內容全部被刪除,開始全新的“思考”;
依此類推,當對話到達128k Tokens的上限時,模型會給出一個“刪減版”答案,也避免了我們白白等待卻碰到了上下文上限。
這個做法,不禁讓特工想到當年它的名字還叫 Q*,而 Star 的來由正是 StaR 系列的論文。
其中這篇《Quiet-STaR: Language Models Can Teach Themselves to Think Before Speaking》的方法與 OpenAI 在 o1 中的做法有很多相似之處,感興趣的小伙伴可以閱讀這篇以及這個系列的文章。
(想在其它博主那里看到又干貨又及時的整理可不容易哦,只此一家)
Life can only be understood backward, but it must be lived forward - Sren Kierkegaard
(Quiet-STaR 在論文的 Abstract 引用了這句話,當時覺得挺有意境的)
官方演示視頻
OpenAI 直接怒發(fā)十幾條演示視頻,我和我的小伙伴都驚呆了。
1. 數 strawberry 中 r 個數。
1:2
8
2. 制作在 HTML 上可以玩的貪吃蛇小游戲。
08
3. 將存在錯誤不通順的韓語,正確翻譯為了英文。
3:
1317
總結(o1 很強,但不要尬吹)
在 OpenAI 的文章中,我們能注意到,無論從用戶反饋還是實際測評,o1 更多是作為彌補先前大模型缺失的推理能力,而非在全方位碾壓所有模型,可謂術業(yè)有專攻,選擇自己合適的才是最好的。
OpenAI 只做了簡單的 self-play,思維模式仍然難以琢磨,很難說 o1 是好的思維模式(引用自 MetaGPT 作者吳承霖)。
按照評分,o1-preview 的幻覺頻率低于 GPT-4o,而 o1-mini 的幻覺頻率低于 GPT-4o-mini。
但也有一些反饋表明 o1-preview 和o1-mini 似乎比 GPT-4o 和 GPT-4o-mini 更容易產生幻覺。全面理解幻覺現象還很遠,特別是在我們的評估未涉及的領域(例如化學)。
According to these evaluations, o1-preview hallucinates less frequently than GPT-4o, and o1-mini hallucinates less frequently than GPT-4o-mini. However, we have received anecdotal feedback that o1-preview and o1-mini tend to hallucinate more than GPT-4o and GPT-4o-mini. More work is needed to understand hallucinations holistically, particularly in domains not covered by our evaluations (e.g., chemistry). Additionally, red teamers have noted that o1-preview is more convincing in certain domains than GPT-4o given that it generates more detailed answers. This potentially increases the risk of people trusting and relying more on hallucinated generation.
o1 作為 Agent 的底層 LLM,效果略遜于之前的模型。經過一定調整后能力可以與目前 Claude-3.5-Sonnet 持平,達到最高水準。
除了能力之外,特工們更多的對 OpenAI 做了些探索和思考,或許不一定對,簡單聊聊的話就是
1 OpenAI 大道至簡
為了提高模型性能,行業(yè)的通用路徑是通過 Agnetic 的 Workflow,在基座模型基礎上通過顯式的符號邏輯完成 CoT.
但是 OpenAI 這一次直接把所有能力都隱式地訓練到模型中,最大程度利用自回歸模型的特點完成了端到端的 CoT.
某種程度上講,OpenAI 通過模型層的巨大提升,將許多依賴復雜工程框架的工作簡化成只需要一個 API.
2 OpenAI 在背后做了大量工作
雖然 OpenAI 最終沒有對外交付工程框架,但是在 OpenAI 內部一定有非常完整的數據管線,大通量地形成高質量和低錯誤率的 CoT 數據。
最終實現的效果是,用一個復雜的工程框架訓練出一個不依賴工程框架即可有好的效果的模型。
可預見的是,在 o1 之后,構建數據管線將成為每個模型和應用公司的必備工作。
3 通用的提升領域能力的方法即將出現
自 AlphaGo 開始,用機器超越人的速度就在大幅加快。
但是不管是下圍棋還是打游戲,強化學習都被認為是不可擴展的。
OpenAI 沒有披露 o1 的訓練細節(jié),但最近,我們很快能夠總結出泛化性強的模型能力提升之路。
可預見的是,只要給出明確的任務主題(不管是寫代碼、角色扮演還是做設計),都能快速完成 SOTA 的迭代。
4 o1 很強,但目前和大部分人無關
人們總是高估眼下的新進展,客觀來講,o1 的科研價值(展現和證明可能性)遠大于當下的使用價值。
也許我們會更受益于借助 OpenAI o1 開發(fā)的新軟件、研發(fā)的新藥物、研發(fā)的新機械結構,而不是 OpenAI o1 本身。
也許當我們回顧人類的科技進化史的時候,會發(fā)現 o1 是一次巨大的拐點,因為它提供了更行之有效的做出好模型、讓特定領域的智能可以無限擴展的最優(yōu)范式。
BTW,有粗心的網友細心地發(fā)現,Contributor 名單中有個名為 Jie Tang 的大佬,便認為是清華智譜的唐杰老師。
虎軀一震的特工們也 Think step by step 了一下,并調用 Web Search 求證,發(fā)現只是撞名的烏龍而已。
后記與鳴謝
此時我們的群聊名稱已經改為...(本來定的三點發(fā)結果肝到了七點)
Anyway,特別感謝特工鯨魚、特工 Alpha、特工小鵬、涂津豪、特工路卡、特工嘻嘻、特工流兒,以及某位不愿透露姓名的朋友的深夜共同努力!
不知不覺已經熬到了凌晨,但心中情緒遲遲無法平息。
久久不能忘懷的,是與你們一起并肩戰(zhàn)斗的,那種歸屬感與幸福
參考鏈接:
[1] https://cdn.openai.com/o1-system-card.pdf
[2] https://openai.com/index/openai-o1-system-card
[3] https://openai.com/index/introducing-openai-o1-preview/
[4] https://openai.com/index/learning-to-reason-with-llms/
[5] Quiet-STaR:https://arxiv.org/abs/2403.09629
[6] STaR: https://arxiv.org/abs/2203.14465
[7] V-STaR: https://arxiv.org/abs/2402.06457