地表最強(qiáng)大模型,來了!
新模型o1有多強(qiáng)?!
沒有任何預(yù)兆,OpenAI扔出了王炸新模型OpenAI o1!
目前,o1開放了兩個(gè)版本:預(yù)覽版o1-preview和迷你版o1-mini。
o1-preview官方介紹:
o1-mini官方介紹:
新模型最大的兩個(gè)特點(diǎn),一是會(huì)花更多的時(shí)間思考,二是在數(shù)學(xué)、編程、科學(xué)等復(fù)雜推理問題上的效果強(qiáng)的逆天!
在一段演示視頻中,用戶輸入問題后,o1模型進(jìn)行了長(zhǎng)達(dá)39秒的思考,隨后給出了高質(zhì)量的正確答案。
在數(shù)學(xué)競(jìng)賽中,gpt4o的準(zhǔn)確率僅為13.4,o1-preview達(dá)到了56.7,而尚未公開的o1模型正式版取得了83.3的水準(zhǔn)!是gpt4o效果的6倍!(AIME為美國(guó)高中數(shù)學(xué)競(jìng)賽,旨在選拔最聰明的學(xué)生,o1模型的水平可躋身全國(guó)前500名學(xué)生的水平,成績(jī)超過了美國(guó)數(shù)學(xué)奧林匹克的分?jǐn)?shù)線。)
在編程競(jìng)賽中,gpt4o的采納率僅為11%,o1-preview為62%,o1正式版為89%!是gpt-4o效果的8倍!
在博士水平的科學(xué)問題上,o1-preview與o1正式版的準(zhǔn)確率均為78左右,超越了人類專家的水平(69.7),更是大幅超越了gpt4o(56.1)。
在其他大模型常規(guī)測(cè)試中,o1模型的水平,也均大幅超越gpt4o。
如此強(qiáng)大的新模型,勢(shì)必會(huì)造成公眾對(duì)于其被濫用與犯罪等危險(xiǎn)行為上的恐慌。對(duì)此,OpenAI表示:在安全性上,當(dāng)用戶企圖繞過安全規(guī)則“越獄”時(shí),gpt4o的阻攔得分僅為22,而o1-preview的得分高達(dá)84。
在價(jià)格上,o1-preview的輸入價(jià)格為$15/百萬tokens,輸出價(jià)格為$60/百萬tokens,o1-mini在價(jià)格上比o1-preview優(yōu)惠了80%,甚至比gpt4o還便宜一些。
人類在通往AGI的道路上,更近了一步!
在過去的6個(gè)月中,各家主流模型的能力愈加趨同,讓人不禁懷疑,這是否就是生成式AI的極限?懷疑的聲音、資本對(duì)泡沫的擔(dān)憂,此起彼伏。
o1的出現(xiàn),給了AI界一劑強(qiáng)心針!我已經(jīng)預(yù)感到了新一輪AI軍備競(jìng)賽的狂熱程度!
過去一年多的時(shí)間里,中國(guó)對(duì)AI新技術(shù)的追趕速度驚人。當(dāng)時(shí)Sora發(fā)布,國(guó)內(nèi)悲觀的聲音彌漫一時(shí),而國(guó)內(nèi)只用了4個(gè)月,就推出了快手可靈、智譜清影等一系列足以媲美Sora的AI視頻模型。
我很期待國(guó)內(nèi)大模型能力追平OpenAI o1的時(shí)刻!
智譜、阿里、百度、MiniMax……加油!