展會(huì)信息港展會(huì)大全

實(shí)測(cè)OpenAI的o1:真沒(méi)吹牛,奧數(shù)題高考題都能信手拈來(lái)了?
來(lái)源:互聯(lián)網(wǎng)   發(fā)布日期:2024-09-15 14:20:40   瀏覽:3704次  

導(dǎo)讀:頭圖由豆包生成,提示詞 :太陽(yáng)系、八大行星,宇宙星空+區(qū)域重繪 好家伙,OpenAI 終于上新了!9月13日凌晨,OpenAI 發(fā)布了最新系列模型 OpenAI o1 ,也就是吹了很久的Strawberry 模型,OpenAI 的 o1 是一系列新的 AI 模型,專(zhuān)門(mén)為解決復(fù)雜問(wèn)題而生。在多種平...

實(shí)測(cè)OpenAI的o1:真沒(méi)吹牛,奧數(shù)題高考題都能信手拈來(lái)了?

頭圖由豆包生成,提示詞 :太陽(yáng)系、八大行星,宇宙星空+區(qū)域重繪

好家伙,OpenAI 終于上新了!9月13日凌晨,OpenAI 發(fā)布了最新系列模型 OpenAI o1,也就是吹了很久的“Strawberry 模型”,OpenAI 的 o1 是一系列新的 AI 模型,專(zhuān)門(mén)為解決復(fù)雜問(wèn)題而生。在多種平臺(tái)上超越了所有之前的版本,甚至超過(guò)了許多人類(lèi),比如美國(guó)數(shù)學(xué)奧林匹克(AIME)、GPQA 評(píng)估和 Codeforces,目前已上線 o1-Preview、o1-mini。實(shí)測(cè)OpenAI的o1:真沒(méi)吹牛,奧數(shù)題高考題都能信手拈來(lái)了?

首個(gè)版本是預(yù)覽版,不僅推理、科學(xué)、編程和數(shù)學(xué)能力強(qiáng)了一大截;更重要的它不是直接回答,而是主動(dòng)先思考后再回答。就相當(dāng)于在生成回應(yīng)之前,投入更多時(shí)間進(jìn)行思考,再做答。實(shí)測(cè)OpenAI的o1:真沒(méi)吹牛,奧數(shù)題高考題都能信手拈來(lái)了?

目前,ChatGPT Plus 和 Team 用戶(hù)已經(jīng)可以在 ChatGPT 網(wǎng)頁(yè)版中訪問(wèn) o1 模型,Enterprise 和 Edu 用戶(hù)下周也能用上。沒(méi)有會(huì)員的朋友們可以期待一下,OpenAI 官方會(huì)繼續(xù)研發(fā)計(jì)劃向所有 ChatGPT 免費(fèi)用戶(hù)提供 o1-mini 訪問(wèn)權(quán)限。收到消息后,第一時(shí)間就打開(kāi) ChatGPT, 能直接使用 o1-Preview、o1-mini,還不錯(cuò)。要知道一直以來(lái),大模型都是文科生,在數(shù)學(xué)問(wèn)題上都顯得很智障。除非有非常非常清晰的提示,否則很難答對(duì)。很多模型都栽在了最簡(jiǎn)單的比大小問(wèn)題上,看官方介紹 o1 更新著重在推理(科學(xué)、數(shù)學(xué)、編碼)上下了不少功夫,那咱們拭目以待。1

先做道 AIME 2024年競(jìng)賽題

根據(jù)官方報(bào)告,在許多需要推理的測(cè)試中,o1 的表現(xiàn)已經(jīng)達(dá)到了人類(lèi)專(zhuān)家的水平,推理準(zhǔn)確性超過(guò)博士生。由于目前處于模型訓(xùn)練的早期階段,常見(jiàn)功能基本都還沒(méi)上,也沒(méi)有多模態(tài)能力,無(wú)法上傳圖片,暫時(shí)就選擇文字題目進(jìn)行提問(wèn)。實(shí)測(cè)OpenAI的o1:真沒(méi)吹牛,奧數(shù)題高考題都能信手拈來(lái)了?

下面是一道 AIME 2024年競(jìng)賽的題目,一項(xiàng)專(zhuān)門(mén)為美國(guó)頂尖高中數(shù)學(xué)學(xué)生設(shè)立的挑戰(zhàn)性考試,看看 o1 怎么答。實(shí)測(cè)OpenAI的o1:真沒(méi)吹牛,奧數(shù)題高考題都能信手拈來(lái)了?

這么高難度的題,o1 思考了15秒,就解出來(lái)了。對(duì)照答案,完全正確,分別是0.4h 和 204min。要知道之前除了 Deepmind 的專(zhuān)業(yè)大模型有可能答對(duì)以外,其他的基本全軍覆沒(méi)。實(shí)測(cè)OpenAI的o1:真沒(méi)吹牛,奧數(shù)題高考題都能信手拈來(lái)了?

o1 思考到生成

實(shí)測(cè)OpenAI的o1:真沒(méi)吹牛,奧數(shù)題高考題都能信手拈來(lái)了?

這道題有兩種解法,感興趣的朋友可參考詳細(xì)解題步驟及視頻:

實(shí)測(cè)OpenAI的o1:真沒(méi)吹牛,奧數(shù)題高考題都能信手拈來(lái)了?

既然 o1 能做頂尖數(shù)學(xué)競(jìng)賽,也能做高考理科真題。以前每每做高考真題,答案往往只有孤零零的數(shù)字一個(gè),想研究吧,沒(méi)參考。實(shí)測(cè)OpenAI的o1:真沒(méi)吹牛,奧數(shù)題高考題都能信手拈來(lái)了?

那我們不如讓 o1 解高考真題,給廣大學(xué)子提供下新的解題思路。實(shí)測(cè)OpenAI的o1:真沒(méi)吹牛,奧數(shù)題高考題都能信手拈來(lái)了?

o1-preview 用了26秒得出答案,而且整個(gè)過(guò)程非常詳細(xì),推理也很到位。實(shí)測(cè)OpenAI的o1:真沒(méi)吹牛,奧數(shù)題高考題都能信手拈來(lái)了?

詳細(xì)解答:

實(shí)測(cè)OpenAI的o1:真沒(méi)吹牛,奧數(shù)題高考題都能信手拈來(lái)了?

再來(lái)看一道化學(xué)題實(shí)測(cè)OpenAI的o1:真沒(méi)吹牛,奧數(shù)題高考題都能信手拈來(lái)了?

o1-preview 9秒就答出來(lái)了,而且有詳細(xì)的分析思路,不太友好的時(shí)候發(fā)現(xiàn)是英文。在提問(wèn)的時(shí)候,發(fā)現(xiàn)它的輸出不太穩(wěn)定,有時(shí)英文,有時(shí)中文,如果真用的話還是要謹(jǐn)慎參考。實(shí)測(cè)OpenAI的o1:真沒(méi)吹牛,奧數(shù)題高考題都能信手拈來(lái)了?

o1-preview

反觀 GPT-4o,回答則錯(cuò)誤,對(duì)于這道化學(xué)題,一本正經(jīng)地胡說(shuō)八道。實(shí)測(cè)OpenAI的o1:真沒(méi)吹牛,奧數(shù)題高考題都能信手拈來(lái)了?

GPT-4o1

退休年齡計(jì)算

最近關(guān)于漸進(jìn)式延遲法定退休年齡的辦法引起大家廣泛討論,退休規(guī)則比較復(fù)雜。實(shí)測(cè)OpenAI的o1:真沒(méi)吹牛,奧數(shù)題高考題都能信手拈來(lái)了?

咱用 o1 試試,算一下具體的退休時(shí)間。假設(shè)阿琴是1978年6月出生的,她將會(huì)在哪年哪月退休?實(shí)測(cè)OpenAI的o1:真沒(méi)吹牛,奧數(shù)題高考題都能信手拈來(lái)了?

o1 在一分鐘內(nèi)計(jì)算出了,阿琴將在2030年6月,也就是51周歲10個(gè)月時(shí)正式退休。對(duì)比退休年齡對(duì)照表,確實(shí)準(zhǔn)確無(wú)誤!實(shí)測(cè)OpenAI的o1:真沒(méi)吹牛,奧數(shù)題高考題都能信手拈來(lái)了?

其他更有趣的例子放在了視頻里:1

三個(gè)其實(shí) o1-preview 的可玩性還是很高的

很多人不喜歡理科是因?yàn)榭菰锏母拍睿砂桶偷臄?shù)字,做實(shí)驗(yàn)有難度,根本學(xué)也學(xué)不明白,F(xiàn)在的通過(guò)引導(dǎo)AI一步步把實(shí)驗(yàn)可視化,想要實(shí)現(xiàn)需要邏輯推理、數(shù)學(xué)計(jì)算和大量編碼。在 o1 出來(lái)之前,很多大模型同時(shí)不具備這些能力。今天我們來(lái)嘗試一下。實(shí)驗(yàn)一:蛋白質(zhì)構(gòu)建模擬器記得以前上學(xué),生物學(xué)里生命的核心是蛋白質(zhì),它能進(jìn)行多種組合,但想要每個(gè)蛋白質(zhì)不太現(xiàn)實(shí),這時(shí)候AI可就能發(fā)揮大作用,我們做一個(gè)蛋白質(zhì)構(gòu)建模擬器。(提示詞放在文末,可自。﹐1 整個(gè)思考只用了6秒,理解了生物和編程結(jié)合的需求之后,開(kāi)始梳理步驟,整個(gè)思路非常的清晰明了。實(shí)測(cè)OpenAI的o1:真沒(méi)吹牛,奧數(shù)題高考題都能信手拈來(lái)了?

第一次提問(wèn)后,我讓它幫我輸出完整完整可運(yùn)行的代碼,方便省事。實(shí)測(cè)OpenAI的o1:真沒(méi)吹牛,奧數(shù)題高考題都能信手拈來(lái)了?

o1思考9秒后,直接生成了完整的代碼,我挺驚訝的,很難想象這是2次對(duì)話,幾分鐘就實(shí)現(xiàn)的效果。實(shí)測(cè)OpenAI的o1:真沒(méi)吹牛,奧數(shù)題高考題都能信手拈來(lái)了?

要知道,這個(gè)效果涉及到編程的前端和后端,對(duì)于編程小白可真的太友好了!實(shí)測(cè)OpenAI的o1:真沒(méi)吹牛,奧數(shù)題高考題都能信手拈來(lái)了?

在模擬器中,我們可以把不同的氨基酸添加組合形成新的氨基酸,效果初見(jiàn)雛形。可見(jiàn),它一次性生成的代碼還是有點(diǎn)東西的,瞬間減輕不少蛋白質(zhì)名字記憶的難度,對(duì)于識(shí)別蛋白質(zhì)和創(chuàng)造新的蛋白質(zhì)真的很有用。實(shí)驗(yàn)二:太陽(yáng)系運(yùn)轉(zhuǎn)先快速?gòu)?fù)習(xí)一下我們的太陽(yáng)系:由 8 顆行星組成:水星、金星、地球、火星、木星、天王星、土星和海王星。太陽(yáng)位于我們太陽(yáng)系的中心,行星圍繞它旋轉(zhuǎn)。如果想要實(shí)現(xiàn)一個(gè)動(dòng)畫(huà),通過(guò)改變行星的半徑或太陽(yáng)的質(zhì)量,來(lái)可視化行星速度的變化。(提示詞放在文末,可自。┧伎蓟26秒,意識(shí)到需要使用與物理、數(shù)學(xué)和編碼相關(guān)的概念來(lái)生成輸出。實(shí)測(cè)OpenAI的o1:真沒(méi)吹牛,奧數(shù)題高考題都能信手拈來(lái)了?

在幾輪對(duì)話明確想法后,o1 結(jié)合了提示詞每一步背后的邏輯,將物理和數(shù)學(xué)合并,把幾個(gè)視覺(jué)元素翻譯成合適的代碼。初步看來(lái),運(yùn)行代碼后效果還不錯(cuò),八大行星和和恒星都有,行星軌跡若隱若現(xiàn)。實(shí)測(cè)OpenAI的o1:真沒(méi)吹牛,奧數(shù)題高考題都能信手拈來(lái)了?

撥動(dòng)不同的滑塊,能看到不同的效果,對(duì)于做實(shí)驗(yàn)來(lái)說(shuō),妥妥夠用了。實(shí)測(cè)OpenAI的o1:真沒(méi)吹牛,奧數(shù)題高考題都能信手拈來(lái)了?

乍一看以為是靜態(tài)的,過(guò)了幾分鐘后發(fā)現(xiàn)是動(dòng)態(tài)的,下面是幾分鐘運(yùn)行加速后的效果,可以看到八大行星都在正常運(yùn)轉(zhuǎn),每個(gè)的速度也不同,并且大小也不同。略顯不足的是,離太陽(yáng)比較近的幾顆行星,運(yùn)行范圍太小了,以至于都太陽(yáng)擋住看不清。實(shí)測(cè)OpenAI的o1:真沒(méi)吹牛,奧數(shù)題高考題都能信手拈來(lái)了?

本想再優(yōu)化一下上面兩個(gè)實(shí)驗(yàn),看來(lái)只能能到一周后了。30分鐘得到這樣的效果,已經(jīng)非常滿(mǎn)意了。實(shí)測(cè)OpenAI的o1:真沒(méi)吹牛,奧數(shù)題高考題都能信手拈來(lái)了?

1

最后

可能你也發(fā)現(xiàn)了,之前我們要一步步把一個(gè)問(wèn)題拆分成很多步驟,精確到一步步引導(dǎo),GPT才能理解并精準(zhǔn)回答,F(xiàn)在不用,o1 出生自己就會(huì)。在編程、數(shù)學(xué)等領(lǐng)域,開(kāi)始展現(xiàn)出接近人類(lèi)的思維過(guò)程。實(shí)測(cè)OpenAI的o1:真沒(méi)吹牛,奧數(shù)題高考題都能信手拈來(lái)了?

要我看,o1 學(xué)會(huì)思考后,越來(lái)越像人了,說(shuō)不定,明年這個(gè)時(shí)候,我就被它完全打敗了,畢竟誰(shuí)還不想有個(gè)會(huì)說(shuō)能寫(xiě)、思路清晰的 AI 腦子呢?在這些測(cè)試中,o1 展現(xiàn)出了強(qiáng)大的推理能力,但仍然存在輸出不穩(wěn)定的問(wèn)題。盡管不穩(wěn)定、功能尚未全面上線,但o1 系列模型已經(jīng)為我們提供了強(qiáng)大的工具來(lái)解決復(fù)雜問(wèn)題。未來(lái),隨著進(jìn)一步的模型訓(xùn)練和功能完善,我們可以期待 AI 在更多領(lǐng)域?qū)崿F(xiàn)突破。提示詞參考實(shí)驗(yàn)一 蛋白質(zhì)構(gòu)建模擬器Create an interactive Protein Builder Simulation with the following features:User Interaction:

Provide a dropdown menu containing the 20 standard amino acids, displaying their full names, three-letter codes, and one-letter symbols.

Include buttons to Add Amino Acid to the chain, Remove Last Amino Acid, and Reset Chain.

Visual Representation:

Start with the most basic amino acid, Glycine, displayed by default.

Represent each amino acid as a uniquely colored helix and display their one-letter symbols below.

Visually connect amino acids with lines or bonds to represent peptide bonds as the chain grows horizontally.

Information Display:

As amino acids are added, display their names and basic information (properties, uses) below the simulation.

If the amino acid sequence matches a known protein or peptide, display detailed information including its name, description, and popular uses.

For sequences not matching known proteins, display the amino acid sequence and general information about peptides, indicating it may represent a novel or synthetic peptide.

實(shí)驗(yàn)二 太陽(yáng)系運(yùn)轉(zhuǎn)I want to create a scientifically accurate simulation of our solar system with all 8 planets revolving around the Sun at their unique speeds. The simulation should include the following features:Adjustable Parameters:

Include sliders (drag bars) below the simulation to adjust the following for each planet and the Sun:

Mass

Radius

Adjusting the mass of the Sun should affect the orbital speeds of the planets.

Adjusting a planet’s mass and radius should change its representation in the simulation (size and possibly color), but its own mass doesn’t significantly affect its orbit due to the Sun’s dominant mass.

Visual Enhancements:

All planets and the Sun must be clearly labeled in the simulation with white text for visibility against the space background.

The orbits of the planets should be displayed as paths around the Sun.

When a parameter is adjusted, the corresponding planet (or Sun) should be highlighted in the simulation for a brief period (e.g., with a red rectangle) to indicate which celestial body was changed.

User Interface:

The text in front of each slider should be in black for readability.

The controls should be organized in clear rows in a table, following the order of the planets in the solar system

For each celestial body, the format should be:

Name of the planet or Sun

Mass slider

Radius slider

實(shí)測(cè)OpenAI的o1:真沒(méi)吹牛,奧數(shù)題高考題都能信手拈來(lái)了?

實(shí)測(cè)OpenAI的o1:真沒(méi)吹牛,奧數(shù)題高考題都能信手拈來(lái)了?


贊助本站

相關(guān)內(nèi)容
AiLab云推薦
展開(kāi)

熱門(mén)欄目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能實(shí)驗(yàn)室 版權(quán)所有    關(guān)于我們 | 聯(lián)系我們 | 廣告服務(wù) | 公司動(dòng)態(tài) | 免責(zé)聲明 | 隱私條款 | 工作機(jī)會(huì) | 展會(huì)港