展會(huì)信息港展會(huì)大全

開源大模型的新王誕生了?號(hào)稱超越GPT-4o,模型還能自動(dòng)糾錯(cuò)
來源:互聯(lián)網(wǎng)   發(fā)布日期:2024-09-06 18:27:56   瀏覽:1124次  

導(dǎo)讀:機(jī)器之心報(bào)道 編輯:佳琪、蛋醬 快速更迭的開源大模型領(lǐng)域,又出現(xiàn)了新王:Reflection 70B。 橫掃 MMLU、MATH、IFEval、GSM8K,在每項(xiàng)基準(zhǔn)測試上都超過了 GPT-4o,還擊敗了 405B 的 Llama 3.1。 這個(gè)新模型 Reflection 70B,來自 AI 寫作初創(chuàng)公司 HyperWrite...

機(jī)器之心報(bào)道

編輯:佳琪、蛋醬

快速更迭的開源大模型領(lǐng)域,又出現(xiàn)了新王:Reflection 70B。

橫掃 MMLU、MATH、IFEval、GSM8K,在每項(xiàng)基準(zhǔn)測試上都超過了 GPT-4o,還擊敗了 405B 的 Llama 3.1。

這個(gè)新模型 Reflection 70B,來自 AI 寫作初創(chuàng)公司 HyperWrite。

開源大模型的新王誕生了?號(hào)稱超越GPT-4o,模型還能自動(dòng)糾錯(cuò)

HyperWrite 公司的 CEO Matt Shumer 表示,Reflection-70B 現(xiàn)在是「世界上最頂級(jí)的開源 AI 模型」。

Reflection 70B 的底層模型建立在 Meta 的 Llama 3.1 70B Instruct 上,并使用原始的 Llama chat 格式,確保了與現(xiàn)有工具和 pipeline 的兼容性。

Reflection 70B 已在多個(gè)基準(zhǔn)測試中經(jīng)過嚴(yán)格測試,包括 MMLU 和 HumanEval。測試結(jié)果表明, Reflection 的表現(xiàn)始終優(yōu)于 Meta 的 Llama 系列,并與 GPT-4o 等全球頂尖的商用模型展開了激烈競爭。

開源大模型的新王誕生了?號(hào)稱超越GPT-4o,模型還能自動(dòng)糾錯(cuò)

其中,它在 GSM8K 的得分甚至達(dá)到了 99.2%。要知道,GSM8k 中可能有有超過 1% 的被標(biāo)為正確的答案實(shí)際上有錯(cuò),也就是說,Reflection 70B 的得分幾乎與滿分無異。

值得注意的還有 Reflection 70B 的零樣本推理能力。面對(duì)從未接觸過的內(nèi)容,Reflection 70B 的表現(xiàn)超越了 Claude 3.5、Gemini 1.5 以及 Llama 405 在五次樣本測試中的得分。

開源大模型的新王誕生了?號(hào)稱超越GPT-4o,模型還能自動(dòng)糾錯(cuò)

Reflection 70B 特別適用于需要高精度的任務(wù),它將推理分為不同的步驟以提高精度。該模型可通過 Hugging Face 下載,API 訪問將于今天晚些時(shí)候通過 GPU 服務(wù)提供商 Hyperbolic Labs 提供。

Hugging Face:https://huggingface.co/mattshumer/Reflection-70B

試用網(wǎng)址:https://reflection-playground-production.up.railway.app/

假設(shè)訓(xùn)練有素

模型自動(dòng)糾錯(cuò)

在通用能力之外,Reflection 70B 的亮點(diǎn)還包括「錯(cuò)誤識(shí)別」和「錯(cuò)誤糾正」。

一種名為「Reflection-Tuning」的技術(shù),使得模型能夠在最終確定回復(fù)之前,先檢測自身推理的錯(cuò)誤并糾正。

Reflection 70B 引入了幾個(gè)用于推理和糾錯(cuò)的特殊 token,使用戶能夠以更結(jié)構(gòu)化的方式與模型交互。在推理過程中,模型會(huì)在特殊標(biāo)簽內(nèi)輸出其推理,以便在檢測到錯(cuò)誤時(shí)進(jìn)行實(shí)時(shí)糾正。

開源大模型的新王誕生了?號(hào)稱超越GPT-4o,模型還能自動(dòng)糾錯(cuò)

Playground 演示網(wǎng)站包含供用戶使用的建議提示詞,比如那些很經(jīng)典的例子:詢問 Reflection 70B 單詞「Strawberry」中有多少個(gè)「r」,以及哪個(gè)數(shù)字更大(9.11 還是 9.9),這兩個(gè)簡單的問題曾經(jīng)難倒過很多大模型。

Reflection 70B 在測試中顯得有些遲緩,但最終 60 多秒后給出了正確的答案。

開源大模型的新王誕生了?號(hào)稱超越GPT-4o,模型還能自動(dòng)糾錯(cuò)

Reflection 70B 的發(fā)布只是 Reflection 系列的開端。與此同時(shí),Reflection 405B 也在推出的路上了,預(yù)計(jì)下周上市。Shumer 表示,它的性能將遠(yuǎn)遠(yuǎn)超過目前的專有或閉源 LLM,例如目前全球領(lǐng)先的 OpenAI 的 GPT-4o。

Shumer 宣布,HyperWrite 正致力于將 Reflection 70B 模型集成到其主要的 AI 寫作助手產(chǎn)品中。

Reflection 405B 有望超越當(dāng)今市場上最頂尖的閉源模型。HyperWrite 將發(fā)布一份報(bào)告,詳細(xì)介紹訓(xùn)練過程和基準(zhǔn),以及 Reflection 模型背后的創(chuàng)新之處。

兩個(gè)人在幾周內(nèi)完成

歸功于 Glaive 的合成數(shù)據(jù)

Shumer 表示完成 Reflection 70B 只花了三周,團(tuán)隊(duì)只有他和另一位 AI 創(chuàng)業(yè)公司的創(chuàng)始人 Sahil Chaudhary 兩個(gè)人。

開源大模型的新王誕生了?號(hào)稱超越GPT-4o,模型還能自動(dòng)糾錯(cuò)

在這么短的時(shí)間內(nèi)做出效果如此好的模型,Shumer 稱,都要拜 Sahil 的公司 Glaive 所賜。Glaive 是一家專門為特定需求構(gòu)建數(shù)據(jù)集的初創(chuàng)公司。Shumer 在 X 平臺(tái)上反復(fù) que 這一點(diǎn):「聯(lián)系了 Sahil 之后,訓(xùn)練數(shù)據(jù)幾小時(shí)內(nèi)就生成好了!顾親自站臺(tái)安利:「如果你在訓(xùn)練 AI 模型,一定要試試 Glaive 提供的服務(wù)!

開源大模型的新王誕生了?號(hào)稱超越GPT-4o,模型還能自動(dòng)糾錯(cuò)

Glaive 專注于解決 AI 開發(fā)中最大的瓶頸之一:高質(zhì)量、任務(wù)特定數(shù)據(jù)的可用性。在去年獲得了一輪 350 萬美元的種子輪融資。

開源大模型的新王誕生了?號(hào)稱超越GPT-4o,模型還能自動(dòng)糾錯(cuò)

Sahil Chaudhary

小型、更專業(yè)化的語言模型在使用 Glaive 提供的服務(wù)后,能夠更快地完成訓(xùn)練。已經(jīng)有一些小模型使用該公司已經(jīng)證明了 Glaive 的能力,例如一個(gè) 3B 參數(shù)模型在 HumanEval 等任務(wù)上的表現(xiàn)超過了許多參數(shù)規(guī)模更大的開源模型。

火得措手不及

GPU 不夠用了

Reflection 70B 一經(jīng)發(fā)布,就火了,跑去試用的人太多,模型已經(jīng)反應(yīng)不過來了。

開源大模型的新王誕生了?號(hào)稱超越GPT-4o,模型還能自動(dòng)糾錯(cuò)

開源大模型的新王誕生了?號(hào)稱超越GPT-4o,模型還能自動(dòng)糾錯(cuò)

本來可以在線試用 Reflection 70B,但現(xiàn)在和它聊天反應(yīng)很慢。

開源大模型的新王誕生了?號(hào)稱超越GPT-4o,模型還能自動(dòng)糾錯(cuò)

但是根據(jù)手快的網(wǎng)友發(fā)來的測評(píng),Reflection 70B 也確實(shí)沒辜負(fù)六個(gè)基礎(chǔ)測試集里有四個(gè)都打敗了 Claude 3.5 Sonnet 的戰(zhàn)績。

比如,它是首個(gè)能想明白這道纏繞不清的邏輯題的大模型。

開源大模型的新王誕生了?號(hào)稱超越GPT-4o,模型還能自動(dòng)糾錯(cuò)

提示詞:有人在某地殺了 Agatha。Agatha、管家和 Charles 住在 此地,并且是那里唯一的居民。殺手恨他的目標(biāo),并且比受害者窮。Charles 不恨 Agatha 恨的任何人。Agatha 除了管家之外恨所有人。管家恨所有不如 Aunt Agatha 富有的人。管家恨所有 Agatha 恨的人。沒有人恨所有人。誰殺了 Agatha?

向它提問:「柏林的魏森湖地區(qū)當(dāng)?shù)厝送ǔT谀睦锞蹠?huì)?當(dāng)?shù)赜心男┚包c(diǎn)?」。對(duì)于這些本地人才知道的答案,其他模型雖然也能給出一些正確的回復(fù),但是總會(huì)冒出一些在柏林之外的地點(diǎn)。Reflection 70B 是第一個(gè)能正確地說出主要地點(diǎn),并且沒有幻覺的模型。

開源大模型的新王誕生了?號(hào)稱超越GPT-4o,模型還能自動(dòng)糾錯(cuò)

Reflection-70B 的編碼能力也得到了認(rèn)證。有網(wǎng)友在 ProLLM 的編碼輔助任務(wù)中對(duì) Reflection-70B 進(jìn)行了基準(zhǔn)測試。它確實(shí)是最好的開源模型之一,擊敗了 Llama-3.1 405B。

開源大模型的新王誕生了?號(hào)稱超越GPT-4o,模型還能自動(dòng)糾錯(cuò)

不過,爆火的同時(shí),由于 Reflection 70B 的底層模型采用了 Meta 的 Llama 3.1 70B Instruct,這也引發(fā)了一些爭議。

有網(wǎng)友認(rèn)為:「Reflection 70B 只是一種元提示(Meta-Prompting)的進(jìn)步,似乎不能算是一種創(chuàng)新。」

開源大模型的新王誕生了?號(hào)稱超越GPT-4o,模型還能自動(dòng)糾錯(cuò)

但也有人對(duì)此提出反對(duì),認(rèn)為「利用思維鏈和讓大模型說出自己的工作流程」這種方法能讓大模型更好地模擬人類思考的過程。

「萬一 Shumer 的方法 Reflection-tuning,就是 OpenAI 的 Strawberry 的方法呢?」

開源大模型的新王誕生了?號(hào)稱超越GPT-4o,模型還能自動(dòng)糾錯(cuò)

團(tuán)隊(duì)介紹

乍一看,Reflection 70B 似乎是橫空出世,HyperWrite 的知名度并不高。但其實(shí) Shumer 已是 AI 領(lǐng)域的創(chuàng)業(yè)老將了:2020 年,他與就 Jason Kuperberg 共同創(chuàng)立了 Otherside AI。

開源大模型的新王誕生了?號(hào)稱超越GPT-4o,模型還能自動(dòng)糾錯(cuò)

從左至右分別為 Otherside AI 的聯(lián)合創(chuàng)始人:Matt Shumer, Miles Feldstein 與 Jason Kuperberg。

Otherside AI 憑借其當(dāng)家產(chǎn)品 HyperWrite 收獲了一波流量。HyperWrite 最初是一款根據(jù)要點(diǎn)撰寫郵件和消息的 Chrome 插件。后來,它的功能越來越強(qiáng)大,拓展出了起草文章、總結(jié)文本等功能。截至 2023 年 11 月,HyperWrite 擁有兩百萬用戶。隨著兩位聯(lián)合創(chuàng)始人登上了福布斯年度「30 歲以下精英」榜單,Otherside AI 也正式更名為 HyperWrite。

在最新一輪融資中, HyperWrite 獲得了 280 萬美元的投資。在這筆資金的加持下,HyperWrite 引入了 AI 驅(qū)動(dòng)功能,升級(jí)成了可以從網(wǎng)頁瀏覽器自動(dòng)完成預(yù)定航班、在 LinkedIn 上篩簡歷的智能管家。

開源大模型的新王誕生了?號(hào)稱超越GPT-4o,模型還能自動(dòng)糾錯(cuò)

HyperWrite 在線幫你訂達(dá)美樂披薩的外賣。

參考鏈接:https://venturebeat.com/ai/meet-the-new-most-powerful-open-source-ai-model-in-the-world-hyperwrites-reflection-70b/

贊助本站

相關(guān)內(nèi)容
AiLab云推薦
展開

熱門欄目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能實(shí)驗(yàn)室 版權(quán)所有    關(guān)于我們 | 聯(lián)系我們 | 廣告服務(wù) | 公司動(dòng)態(tài) | 免責(zé)聲明 | 隱私條款 | 工作機(jī)會(huì) | 展會(huì)港