當(dāng)前位置：人工智能實(shí)驗(yàn)室> 人工智能動(dòng)態(tài) > OpenAI新模型達(dá)到博士水平？我找清北博士品鑒了一下

OpenAI新模型達(dá)到博士水平？我找清北博士品鑒了一下
來(lái)源：互聯(lián)網(wǎng) 發(fā)布日期：2024-09-14 10:37:40 瀏覽：2501次

導(dǎo)讀：說(shuō)實(shí)話，有點(diǎn)受不了這些公司，老是半夜丟個(gè)大的了。。。尤其點(diǎn)名 OpenAI ，這回又毫無(wú)預(yù)告地發(fā)布了那個(gè)大家惦記了很久的新模型。之前說(shuō)什么草莓不草莓的，一張草莓的照片遛了大家好幾天結(jié)果，這回新模型根本跟草莓毛關(guān)系沒(méi)有，而是起了一個(gè)全新的名字 Oep...

說(shuō)實(shí)話，有點(diǎn)受不了這些公司，老是半夜丟個(gè)大的了。。。

尤其點(diǎn)名 OpenAI ，這回又毫無(wú)預(yù)告地發(fā)布了那個(gè)大家惦記了很久的新模型。

OpenAI新模型達(dá)到博士水平？我找清北博士品鑒了一下

之前說(shuō)什么草莓不草莓的，一張草莓的照片遛了大家好幾天

結(jié)果，這回新模型根本跟草莓毛關(guān)系沒(méi)有，而是起了一個(gè)全新的名字Oepn AI o1 模型。

OpenAI新模型達(dá)到博士水平？我找清北博士品鑒了一下

而且這玩意已經(jīng)號(hào)稱 openAI 的天頂星科技，奧特曼直接發(fā)帖明說(shuō)了，這就是他們到現(xiàn)在為止最強(qiáng)、最一致的模型。

OpenAI新模型達(dá)到博士水平？我找清北博士品鑒了一下

跟往次不同的是，這玩意到底多牛 OpenAI 實(shí)際也沒(méi)多吹，但是輕飄飄甩出了幾張圖，就有點(diǎn)讓人頭皮微麻。

像下面的圖里，三個(gè)測(cè)試項(xiàng)目的結(jié)果就能說(shuō)明了，分別是國(guó)際數(shù)學(xué)奧林匹克競(jìng)賽、編程競(jìng)賽還有博士級(jí)別的科學(xué)問(wèn)題。

這里面最左邊為 GPT-4o ，中間是目前已經(jīng)開放了的預(yù)覽版 o1 ，最右邊高高的紅色柱子為滿血 o1 。你瞅瞅，基本每一項(xiàng)， o1 比起自己的前輩來(lái)說(shuō)，都是接近 8 倍的提升。。。

OpenAI新模型達(dá)到博士水平？我找清北博士品鑒了一下

要是把這些測(cè)試結(jié)果拆開來(lái)，這新 o1 也幾乎是在各種學(xué)科、各種領(lǐng)域，都全量、全面、全方位地超越 4o 。

OpenAI新模型達(dá)到博士水平？我找清北博士品鑒了一下

而真正讓差評(píng)君覺(jué)得可怕的是， OpenAI 說(shuō)自己專門請(qǐng)了博士專家一起答題。

結(jié)果在博士級(jí)別的測(cè)試結(jié)果上，我們看到 o1 答題分?jǐn)?shù)均超過(guò)了博士專家。o1 得分 78 ，人類得分 69.7 。。。

連博士都輸了，那我和它比算什么？

OpenAI新模型達(dá)到博士水平？我找清北博士品鑒了一下

敏感的網(wǎng)友們，直接就炸了呀。又開始喊著，新的神已經(jīng)出現(xiàn)。

OpenAI新模型達(dá)到博士水平？我找清北博士品鑒了一下

隨便一翻，都是帶著【最】字的超高評(píng)價(jià)，什么“ 簡(jiǎn)直太棒了！ ” 、 “ 最接近人類推理的東西 ” 。

OpenAI新模型達(dá)到博士水平？我找清北博士品鑒了一下

甚至有不少差友跑到咱們后臺(tái)，感慨 o1 你小子確實(shí)有點(diǎn)東西埃

OpenAI新模型達(dá)到博士水平？我找清北博士品鑒了一下

聽起來(lái)是不是很牛逼？OpenAI 他們自己很顯然也是這么覺(jué)著的。

具體 OpenAI 在它上面花了多少錢還沒(méi)公布，但從用戶使用上，就能明顯看到這玩意多耗錢了。

o1 預(yù)覽版每百萬(wàn)輸入 15 美元，每百萬(wàn)輸出 60 美元

OpenAI新模型達(dá)到博士水平？我找清北博士品鑒了一下

這次對(duì)用戶開放的甚至不是滿血版本，就是一個(gè)早期的預(yù)覽版和一個(gè)小型閹割版。

哪怕只是搶先嘗鮮，不僅不免費(fèi)，哪怕你掏錢開了會(huì)員，也卡你問(wèn)答次數(shù)。預(yù)覽版每周只有 30 條， mini 每周只有 50 條。。。

OpenAI新模型達(dá)到博士水平？我找清北博士品鑒了一下

雖然有點(diǎn)貴，但我們肯定不可能讓 OpenAI 吹什么就是什么。

他們不是說(shuō)超過(guò)博士了嗎？差評(píng)君就沖了幾個(gè)賬號(hào)，去找了幾個(gè)博士來(lái)親測(cè)了一下。

為了保證專業(yè)性和客觀性，我們專門邀請(qǐng)了理綜三科的博士參與測(cè)評(píng)，有生物學(xué)、固體物理學(xué)、材料化學(xué)等等。

其中，南京大學(xué)在讀的固體物理學(xué)崔博士給出的評(píng)價(jià)，算是幾個(gè)人里最高的。他覺(jué)得 o1 已經(jīng)達(dá)到了 60 - 80 分（滿分 100 ）的水平。

甚至，部分回答也可以給到 90 分。

OpenAI新模型達(dá)到博士水平？我找清北博士品鑒了一下

崔博士給的第一個(gè)問(wèn)題：遠(yuǎn)距離糾纏光子分發(fā)，有什么克服白噪聲的辦法？

大概 9 秒鐘左右， o1 就給出了 10 點(diǎn)可行的措施。

當(dāng)然了，沒(méi)一個(gè)點(diǎn)是我看得明白的。不過(guò)，崔博士的評(píng)價(jià)還可以：答案列舉全面，符合現(xiàn)有的最新研究進(jìn)展，屬于科普級(jí)別的答案。

其中，提到的自適應(yīng)光學(xué)的方向甚至是今年最新的 science 成果。

OpenAI新模型達(dá)到博士水平？我找清北博士品鑒了一下

和老版 4o 一比，馬上高下立判了。

就別說(shuō)新方向提沒(méi)提到，光是給出的措施數(shù)量上，就差了不少。

OpenAI新模型達(dá)到博士水平？我找清北博士品鑒了一下

于是后面，我們就專門對(duì)自適應(yīng)光學(xué)這個(gè)船新方向進(jìn)行了追問(wèn)：利用了量子糾纏的什么原理來(lái)提高信噪比？能否拓展到量子自適應(yīng)光學(xué)？

幾輪答案之后，崔博士給出了 80 - 90 分的高分，還大方地和我承認(rèn)，部分思考是他的薄弱點(diǎn)，對(duì)他的方向有提示作用。

OpenAI新模型達(dá)到博士水平？我找清北博士品鑒了一下

不過(guò)，后續(xù)我們?cè)偕钊胱穯?wèn)之后，它問(wèn)題就暴露出來(lái)了。當(dāng)追問(wèn)到更難的實(shí)驗(yàn)細(xì)節(jié)部分， o1 的回答效果就會(huì)降低。

OpenAI新模型達(dá)到博士水平？我找清北博士品鑒了一下

但總體來(lái)說(shuō)，在物理方面， o1 的表現(xiàn)算是不錯(cuò)的。和老版比下來(lái)，提升基本在 20 分左右。

不過(guò)，在 OpenAI 的測(cè)試?yán)�，物理本�?lái)就是分?jǐn)?shù)最高的。所以我們又拉來(lái)一位北大在讀材料化學(xué)的 K 博士，想對(duì)它評(píng)分最低的化學(xué)，來(lái)幾個(gè)狠問(wèn)題。

K 博士圍繞Fe-N4 問(wèn)了一系列的問(wèn)題， o1 給了很長(zhǎng)的一串回答，為了精簡(jiǎn)篇幅我們這里只展示了部分問(wèn)題和結(jié)果。

OpenAI新模型達(dá)到博士水平？我找清北博士品鑒了一下

整體測(cè)試之后， K 博士給出的評(píng)價(jià)也差不多：可能有研究生水平，但是深入的認(rèn)知和給方案的能力，比較虛，主要還是針對(duì)已知內(nèi)容作答。

比如問(wèn)到如何調(diào)節(jié) Fe-N4 ， o1 可以說(shuō)出基于電子態(tài)調(diào)節(jié)，但你要是問(wèn)它那該咋調(diào)節(jié)，它就有點(diǎn)卡殼了。

雖然相比 gpt4o 沒(méi)那么胡說(shuō)八道，但具體的問(wèn)題上他倆都給不了太多建議，老版是喪失細(xì)節(jié)亂說(shuō)，新版能力有限就會(huì)詞窮。

OpenAI新模型達(dá)到博士水平？我找清北博士品鑒了一下

除了這倆，理綜三科那肯定也少不了生物。

我們還咨詢了來(lái)自清華，在讀生物學(xué)的信博士，他的問(wèn)題是： “ 如何從質(zhì)譜數(shù)據(jù)集中區(qū)分賴氨酸殘基的乳�；汪纫一揎棧�”

雖然我聽不懂，但是 o1 也給了一段非常長(zhǎng)的回答，跟論文綜述似的，后面還貼了參考文獻(xiàn)。

OpenAI新模型達(dá)到博士水平？我找清北博士品鑒了一下

但出乎意料的是，當(dāng)我們把這個(gè)回答交給信博士，人家看完就發(fā)現(xiàn)不對(duì)路了，而且是一眼丁真的問(wèn)題。

倒不是這 AI 回答的全錯(cuò)，而是 AI 在參考文獻(xiàn)里亂編，這論文壓根不存在！

雖然編了，但也沒(méi)完全編，總體來(lái)說(shuō)人家清華博士還是覺(jué)得比之前的 AI 能強(qiáng)不少，起碼理解能力是肉眼可見了，編也編的很像。。。

OpenAI新模型達(dá)到博士水平？我找清北博士品鑒了一下

不過(guò)，不同方向的博士評(píng)價(jià)有所區(qū)別，這或許也跟 o1 自己擅長(zhǎng)的領(lǐng)域有關(guān)。

拿官方給出的理綜分?jǐn)?shù)來(lái)看，雖然 gpt4o 在生物學(xué)上的評(píng)分要比化學(xué)和物理高，但這回的 o1 就完全不一樣。

o1 在物理上的分?jǐn)?shù)達(dá)到了 92.8 ，已經(jīng)遠(yuǎn)超其他兩門學(xué)科，這或許就是崔博士對(duì)它比較看好的原因。

OpenAI新模型達(dá)到博士水平？我找清北博士品鑒了一下

總體而言，真要說(shuō)到超越專業(yè)博士水平，博士們認(rèn)為還得緩緩。

崔博士直言，在現(xiàn)實(shí)科研工作中，多數(shù)情況學(xué)者們都還得自己動(dòng)手， AI 只能提供大致方向，因此花錢要這樣的細(xì)致 AI 意義不大。

他更推薦本科生選擇這個(gè) AI ，要是碩博階段，那這個(gè) AI 的回答其實(shí)并不符合導(dǎo)師標(biāo)準(zhǔn)，組會(huì)上肯定要挨批。

清華的信博士也同樣持這種看法，且不說(shuō) AI 的幻覺(jué)編造文獻(xiàn)問(wèn)題，就專業(yè)程度而言， AI 的回答也只能糊弄大同行，也就是同一大學(xué)科里面方向不同的人群；而在小同行，專業(yè)研究這個(gè)方向的人眼里， AI 的毛病還是非常明顯的。

北大 K 博士則談的更深入，他認(rèn)為這個(gè) AI 只能說(shuō)在認(rèn)知上有了碩士生的水平，但也只是作為一個(gè)縫補(bǔ)匠，談不上說(shuō)出什么創(chuàng)造性的成果。就創(chuàng)造性這一點(diǎn)來(lái)說(shuō)， AI 是遠(yuǎn)遠(yuǎn)比不上碩博的水平的，這也是 AI 需要解決的重要問(wèn)題。

OpenAI新模型達(dá)到博士水平？我找清北博士品鑒了一下

在博士們的評(píng)價(jià)里，我們似乎能抓到一個(gè)重點(diǎn)：o1 模型之所以相對(duì)更強(qiáng)，是因?yàn)樗辛烁呔S的認(rèn)知和思考模式。

這，也是 o1 本次更新的要點(diǎn)。我們?cè)?OpenAI 官網(wǎng)找到了 Learning to Reason with LLMs 這篇文章，他們?cè)谖闹斜硎�，主要是他們用上了長(zhǎng)思維鏈 ( CoT ， Chain of thought ) ，而不是傳統(tǒng)的提示鏈（ Prompt chain ）。

第一眼看上去有點(diǎn)懵，說(shuō)人話就是，這個(gè)大模型改變了以往那種你問(wèn)我答的思考方式。

在以前的模式下，大模型的問(wèn)答就跟下意識(shí)出答案一樣，比如你問(wèn)我天是啥顏色，這問(wèn)題我想都不想，秒答藍(lán)色。這實(shí)際上需要我本來(lái)就知道這個(gè)知識(shí)點(diǎn)，然后給你直接反應(yīng)就完了。

但這個(gè)長(zhǎng)思維鏈就相當(dāng)于，我不僅要知道藍(lán)色是個(gè)啥，還能自己推一遍為啥是藍(lán)色，什么大氣散射，光譜波長(zhǎng)都要考慮進(jìn)去。

OpenAI新模型達(dá)到博士水平？我找清北博士品鑒了一下

這就需要 AI 得有實(shí)打?qū)嵉臉?gòu)建邏輯，推理論證的能力，換句話說(shuō)，他不僅要長(zhǎng)腦子，還要?jiǎng)幽X子。

盡管思維鏈這個(gè)概念是 2022 年谷歌提出來(lái)的，但 OpenAI 這次是第一個(gè)實(shí)現(xiàn)的。

實(shí)操過(guò)程中，現(xiàn)在你與 o1 模型對(duì)話，除了收獲答案，還可以看選擇展開看他解答問(wèn)題時(shí)的思維邏輯，他的思考是具象化的而不是黑盒。

比如我們拿崔博士提問(wèn)的 “ 遠(yuǎn)距離糾纏光子分發(fā)，有什么克服白噪聲的辦法？ ” 這一問(wèn)題為例， o1 模型的思考過(guò)程如下：

OpenAI新模型達(dá)到博士水平？我找清北博士品鑒了一下

不過(guò)，就像專業(yè)領(lǐng)域的問(wèn)題它也會(huì)翻車一樣，有些日常場(chǎng)景的簡(jiǎn)單題似乎也有可能難住它。

拿之前那個(gè)經(jīng)典 9.11 和 9.8 比大小例子來(lái)說(shuō)，小紅書網(wǎng)友 @ 小水剛醒就發(fā)現(xiàn)這玩意 “ 一上難度就崩潰……無(wú)限循環(huán)發(fā)瘋般推思維鏈（ CoT ） ”

OpenAI新模型達(dá)到博士水平？我找清北博士品鑒了一下

我們編輯部自己評(píng)測(cè)時(shí)也發(fā)現(xiàn)了這個(gè)問(wèn)題，不過(guò)當(dāng)詢問(wèn)它為什么的時(shí)候，它也會(huì)馬上反應(yīng)過(guò)來(lái)自己推理出現(xiàn)了錯(cuò)誤，然后再重新推導(dǎo)一番。

好好好，不愧是博士，善于發(fā)現(xiàn)錯(cuò)誤是吧。

OpenAI新模型達(dá)到博士水平？我找清北博士品鑒了一下

整輪測(cè)試下來(lái)，差評(píng)君不得不承認(rèn)，它確實(shí)是大大提升了。士別三日，也的確應(yīng)當(dāng)刮目相看。

在效果上，也確實(shí)相比前代確實(shí)更好，而且長(zhǎng)思維的應(yīng)用，對(duì)未來(lái) AI 發(fā)展都是好事。

但在幾位博士輪番鞭打完以后，它的問(wèn)題也暴露得挺明顯的，在創(chuàng)造力等某些方面，還替代不了人類博士專家。

OpenAI新模型達(dá)到博士水平？我找清北博士品鑒了一下

不過(guò) OpenAI 的研究人員 Noam Brown 透露，未來(lái)版本的 o1 將會(huì)思考幾個(gè)小時(shí)、幾天甚至幾周，雖然這樣燒錢會(huì)更多，但像在研發(fā)抗癌藥這些任務(wù)上，這種花費(fèi)也是值得的。

另外，差評(píng)君覺(jué)得 GPT o1 實(shí)現(xiàn)的思維鏈模式，也很有可能會(huì)像之前的 Transformer 架構(gòu)、 DiT 架構(gòu)那樣，又會(huì)引領(lǐng)全世界的大模型的方向。

所以說(shuō)，通往 AGI 之路說(shuō)近不近，但說(shuō)遠(yuǎn)也不遠(yuǎn)，期待接下來(lái)各家的選手輪番登場(chǎng)了。

OpenAI新模型達(dá)到博士水平？我找清北博士品鑒了一下

相關(guān)熱詞： OpenAI 新模型模型達(dá)到博士水平我找清北品

上一篇：OpenAI 再次給大模型 “泡沫” 續(xù)命

下一篇：人工智能普及下的全球制造中心轉(zhuǎn)移

OpenAI新模型達(dá)到博士水平？我找清北博士品鑒了一下
來(lái)源：互聯(lián)網(wǎng) 發(fā)布日期：2024-09-14 10:37:40 瀏覽：2501次

相關(guān)內(nèi)容

AiLab云推薦

最新資訊

本月熱點(diǎn)

熱門排行

推薦內(nèi)容

在線客服

熱門欄目HotCates

關(guān)于我們

版權(quán)聲明

OpenAI新模型達(dá)到博士水平？我找清北博士品鑒了一下 來(lái)源：互聯(lián)網(wǎng) 發(fā)布日期：2024-09-14 10:37:40 瀏覽：2501次

相關(guān)內(nèi)容

AiLab云推薦

最新資訊

本月熱點(diǎn)

熱門排行

推薦內(nèi)容

在線客服

熱門欄目HotCates

關(guān)于我們

版權(quán)聲明

OpenAI新模型達(dá)到博士水平？我找清北博士品鑒了一下
來(lái)源：互聯(lián)網(wǎng) 發(fā)布日期：2024-09-14 10:37:40 瀏覽：2501次