展會信息港展會大全

OpenAI發(fā)布首款具有推理能力的模型o1,可“思考”后自我核實答案正確性
來源:互聯(lián)網(wǎng)   發(fā)布日期:2024-09-13 13:28:02   瀏覽:2864次  

導讀:OpenAI旗下首款具有推理能力的AI大語言模型加速襲來。 兩天前,尚有消息稱代號為草莓的推理功能模型預計在兩周內(nèi)發(fā)布,9月12日周四,這款模型已經(jīng)以O(shè)penAI o1(英文字母O+阿拉伯數(shù)字1)的正式名稱發(fā)布了。 不過,作為o1系列模型的首批版本,OpenAI僅推出了o1...

OpenAI旗下首款具有推理能力的AI大語言模型加速襲來。

兩天前,尚有消息稱代號為“草莓”的推理功能模型預計在兩周內(nèi)發(fā)布,9月12日周四,這款模型已經(jīng)以“OpenAI o1”(英文字母O+阿拉伯數(shù)字1)的正式名稱發(fā)布了。

不過,作為o1系列模型的首批版本,OpenAI僅推出了o1-preview預覽版和o1-mini迷你版,而且是分階段向付費用戶、免費用戶和開發(fā)者推出,且開發(fā)者的使用價格頗為昂貴。

OpenAI在社交媒體官宣發(fā)布o1模型o1模型使用成本至少是GPT-4o的3倍,初始發(fā)送信息數(shù)有限,采用全新方法訓練

據(jù)介紹,o1新模型通過背后嶄新的訓練方式,變得可以回答更復雜的編程、數(shù)學與科學難題,在給出答案前會先“思考”,而且速度比人類更快。更孝更便宜的迷你版聚焦在編程用例。

ChatGPT Plus和Team付費用戶即刻起便能訪問這兩種模型,從用戶界面AI模型選擇器的下拉菜單中手動選擇。ChatGPT Enterprise和Edu用戶下周能使用這兩種模式,未來某個未知時刻還將向所有免費用戶提供o1-mini的訪問權(quán)限。OpenAI希望以后能根據(jù)提示語自動選擇正確的模型。

目前僅能在下拉菜單中手動選擇模型,沒有取代GPT系列模型

不過,開發(fā)人員訪問o1非常昂貴,在API(應用程序編程接口)中,o1-preview每100萬個輸入token收費15美元,是GPT-4o成本的三倍,每100萬個輸出token收費60美元,是GPT-4o成本的四倍。100萬個token即模型解析文字塊的規(guī)模大小,相當于大約75萬個單詞。

OpenAI的研究負責人Jerry Tworek對媒體稱,o1背后的訓練方式與之前的模型有著根本不同。

首先,o1“使用了一種全新的優(yōu)化算法和專門為其量身定制的新訓練數(shù)據(jù)集進行訓練”,這個數(shù)據(jù)集中包含“推理數(shù)據(jù)”和專門為其量身定制的科學文獻。

其次,之前的GPT模型訓練方法是模仿數(shù)據(jù)集的規(guī)律/范式(pattern),而o1采用“強化學習”的方式,通過獎勵和懲罰來教導模型自行解決問題,再通過“思路鏈”(chain of thoughts)來處理用戶查詢的問題,給出思路鏈的總結(jié)摘要版,類似于人類一步步來處理問題的方式。

右圖可以點開思路鏈看o1模型如何“思考”對于一個復雜數(shù)學問題的思路鏈展示圖

OpenAI認為,這種全新的訓練方法會讓o1模型更加準確,會減少瞎編回答的“幻覺”問題,但也無法完全杜絕出現(xiàn)“幻覺”。新模型與GPT-4o的主要區(qū)別在于能夠更好地解決編程和數(shù)學等復雜問題,同時還能完善其推理過程、嘗試不同策略,并識別和修正自身答案中的錯誤。

優(yōu)勢:對復雜的推理任務是重大進步,思考越久質(zhì)量越高,安全性提升,展現(xiàn)思考步驟

在優(yōu)勢方面,OpenAI稱o1模型對于復雜的推理任務來說是個重大進步,代表了人工智能能力的新水平,而且模型“思考”的時間越長,在推理任務上的表現(xiàn)就越好,因為o1可以花更多時間來考慮一個復雜問題的所有部分,從而有效地進行事實核查。

具體來說,o1模型的推理能力大幅提升,在物理、化學和生物等學科的Challenging基準測試中表現(xiàn)與博士生(即專家型人才)相當。而且其數(shù)學和編程能力爆表,在一項國際奧數(shù)競賽(IMO)的資格考試中正確率高達83%,GPT-4o的正確率只有13%,在Codeforces在線編程競賽中的成績也高達89百分位,即前頭只有11%的人類選手比o1模型出色。

同時,o1模型的安全性得以提升,比之前模型更能遵守安全準則,并且更能抵抗產(chǎn)生有害內(nèi)容。在用戶試圖繞過安全規(guī)則的“越獄測試”中,在最嚴格的標準下GPT-4o在百分之中僅得22分,o1預覽版的分數(shù)卻高達84。公司稱其“沒有促進超過現(xiàn)有資源已經(jīng)可能實現(xiàn)的評估風險。”

公司稱,適用人群包括“正在解決科學、編程、數(shù)學和類似領(lǐng)域復雜問題的人士”,這些增強的推理能力可能特別有用。o1模型擅長準確生成和調(diào)試復雜代碼,迷你版是款速度更快、比預覽版便宜80%的推理模型,在編程方面尤其高效,適用于需要推理但不需要廣泛世界知識的應用程序:

“例如,醫(yī)療研究人員可以使用o1來注釋細胞測序數(shù)據(jù),物理學家可以使用o1來生成量子光學所需的復雜數(shù)學公式,各領(lǐng)域的開發(fā)人員可以使用o1來構(gòu)建和執(zhí)行多步驟工作流程。”

測試過該模型的湯森路透副總裁Pablo Arredondo還發(fā)現(xiàn),在分析法律摘要和解決LSAT(法學院入學考試)的邏輯題等方面,o1模型比OpenAI之前的模型更好:“我們發(fā)現(xiàn)它可以處理更實質(zhì)性、更多方面的分析,我們的自動化測試還表明,它在處理一系列簡單任務時都有所進步。”

公司高管稱,OpenAI 并不認為人工智能模型思維等同于人類思維,這種更具人性化的表達旨在展示模型如何花費了更多時間處理問題并全面、深入地解決問題。

可看到思路鏈中充斥著一些人類口語化的表達缺點:無法瀏覽實時網(wǎng)頁、無法上傳文件和圖片、缺乏廣泛世界知識、或更易產(chǎn)生幻覺

但作為o1模型的最初始版本,今日發(fā)布的o1-預覽版也有明顯缺點。例如,只是一款“純文字版”,暫時無法瀏覽網(wǎng)頁信息以及上傳文件和圖片,也就是說不具備ChatGPT的許多使用功能,在許多常見用例中不如GPT-4o那么強大,而且還有用量限制,o1預覽版每周上限為30條消息,迷你版每周上限為50條。

其他被提及的局限性包括:o1模型在很多領(lǐng)域的能力不如GPT-4o,在關(guān)于世界的事實知識方面表現(xiàn)不佳;有的用例下推理能力較慢,可能需要更長的時間來回答問題;目前o1只是一個純文本模型,缺乏針對特定文檔進行推理,或者從網(wǎng)絡(luò)收集實時信息的能力。

此外,讓AI模型玩井字棋(Tic-Tac-Toe)一直被認為是個業(yè)界難題,擁有推理能力的o1新模型也還是會在這個游戲中出錯,即無法完全攻克技術(shù)難關(guān)。

OpenAI還在一篇技術(shù)論文中承認,其收到了一些“軼事反饋”,稱o1預覽版和迷你版比GPT-4o及其迷你版更容易產(chǎn)生“幻覺”,也就是AI仍在很自信地編造答案,而且o1很少會承認它不知道問題的答案。

知名科技媒體Techcrunch指出,OpenAI在o1模型相關(guān)的博文中點明,其決定不向用戶展示這一新模型的原始“思維鏈”,而是選擇在答案中給出思維鏈的總結(jié)摘要,目的是為了維持“競爭優(yōu)勢”,為了彌補可能的缺點,“我們努力教導模型在答案中重現(xiàn)思路鏈中的任何有用想法。”

OpenAI也承認在訓練AI模型推理能力方面的競爭壓力很大:

“OpenAI可能率先推出了o1。但假設(shè)競爭對手很快也會效仿并推出類似的模型,那么公司真正的考驗將是讓o1得到廣泛應用。

OpenAI未來將不斷推出o1模型的更新版本,目標是對推理時間長達數(shù)小時、數(shù)天甚至數(shù)周的o1模型進行實驗,以進一步提高其推理能力。

除了模型更新之外,我們還希望給o1模型添加瀏覽網(wǎng)頁、文件和圖片上傳等功能,讓它對每個人都更有用。在o1系列之外,我們還計劃繼續(xù)開發(fā)和發(fā)布GPT系列中的模型。”

在o1正式發(fā)布前,曾有媒體稱其最早可能在本周向有限數(shù)量的用戶開放。而且OpenAI并不是唯一致力于開發(fā)具有推理能力AI模型的公司,Anthropic和谷歌也都宣稱其先進的人工智能模型具有“推理”能力:

“o1模型的發(fā)布,正值OpenAI尋求(以1500億美元的超高估值)籌集數(shù)十億美元資金,并且在開發(fā)越來越復雜的人工智能系統(tǒng)方面遭遇更激烈的競爭之際。”

贊助本站

相關(guān)內(nèi)容
AiLab云推薦
展開

熱門欄目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能實驗室 版權(quán)所有    關(guān)于我們 | 聯(lián)系我們 | 廣告服務 | 公司動態(tài) | 免責聲明 | 隱私條款 | 工作機會 | 展會港