當(dāng)前位置：人工智能實(shí)驗(yàn)室> 人工智能應(yīng)用 > 開源大模型的新王誕生了？號(hào)稱超越GPT-4o，模型還能自動(dòng)糾錯(cuò)

開源大模型的新王誕生了？號(hào)稱超越GPT-4o，模型還能自動(dòng)糾錯(cuò)
來源：互聯(lián)網(wǎng) 發(fā)布日期：2024-09-06 18:27:56 瀏覽：1124次

導(dǎo)讀：機(jī)器之心報(bào)道編輯：佳琪、蛋醬快速更迭的開源大模型領(lǐng)域，又出現(xiàn)了新王：Reflection 70B。橫掃 MMLU、MATH、IFEval、GSM8K，在每項(xiàng)基準(zhǔn)測試上都超過了 GPT-4o，還擊敗了 405B 的 Llama 3.1。這個(gè)新模型 Reflection 70B，來自 AI 寫作初創(chuàng)公司 HyperWrite...

機(jī)器之心報(bào)道

編輯：佳琪、蛋醬

快速更迭的開源大模型領(lǐng)域，又出現(xiàn)了新王：Reflection 70B。

橫掃 MMLU、MATH、IFEval、GSM8K，在每項(xiàng)基準(zhǔn)測試上都超過了 GPT-4o，還擊敗了 405B 的 Llama 3.1。

這個(gè)新模型 Reflection 70B，來自 AI 寫作初創(chuàng)公司 HyperWrite。

開源大模型的新王誕生了？號(hào)稱超越GPT-4o，模型還能自動(dòng)糾錯(cuò)

HyperWrite 公司的 CEO Matt Shumer 表示，Reflection-70B 現(xiàn)在是「世界上最頂級(jí)的開源 AI 模型」。

Reflection 70B 的底層模型建立在 Meta 的 Llama 3.1 70B Instruct 上，并使用原始的 Llama chat 格式，確保了與現(xiàn)有工具和 pipeline 的兼容性。

Reflection 70B 已在多個(gè)基準(zhǔn)測試中經(jīng)過嚴(yán)格測試，包括 MMLU 和 HumanEval。測試結(jié)果表明， Reflection 的表現(xiàn)始終優(yōu)于 Meta 的 Llama 系列，并與 GPT-4o 等全球頂尖的商用模型展開了激烈競爭。

開源大模型的新王誕生了？號(hào)稱超越GPT-4o，模型還能自動(dòng)糾錯(cuò)

其中，它在 GSM8K 的得分甚至達(dá)到了 99.2%。要知道，GSM8k 中可能有有超過 1% 的被標(biāo)為正確的答案實(shí)際上有錯(cuò)，也就是說，Reflection 70B 的得分幾乎與滿分無異。

值得注意的還有 Reflection 70B 的零樣本推理能力。面對(duì)從未接觸過的內(nèi)容，Reflection 70B 的表現(xiàn)超越了 Claude 3.5、Gemini 1.5 以及 Llama 405 在五次樣本測試中的得分。

開源大模型的新王誕生了？號(hào)稱超越GPT-4o，模型還能自動(dòng)糾錯(cuò)

Reflection 70B 特別適用于需要高精度的任務(wù)，它將推理分為不同的步驟以提高精度。該模型可通過 Hugging Face 下載，API 訪問將于今天晚些時(shí)候通過 GPU 服務(wù)提供商 Hyperbolic Labs 提供。

Hugging Face：https://huggingface.co/mattshumer/Reflection-70B

試用網(wǎng)址：https://reflection-playground-production.up.railway.app/

假設(shè)訓(xùn)練有素

模型自動(dòng)糾錯(cuò)

在通用能力之外，Reflection 70B 的亮點(diǎn)還包括「錯(cuò)誤識(shí)別」和「錯(cuò)誤糾正」。

一種名為「Reflection-Tuning」的技術(shù)，使得模型能夠在最終確定回復(fù)之前，先檢測自身推理的錯(cuò)誤并糾正。

Reflection 70B 引入了幾個(gè)用于推理和糾錯(cuò)的特殊 token，使用戶能夠以更結(jié)構(gòu)化的方式與模型交互。在推理過程中，模型會(huì)在特殊標(biāo)簽內(nèi)輸出其推理，以便在檢測到錯(cuò)誤時(shí)進(jìn)行實(shí)時(shí)糾正。

開源大模型的新王誕生了？號(hào)稱超越GPT-4o，模型還能自動(dòng)糾錯(cuò)

Playground 演示網(wǎng)站包含供用戶使用的建議提示詞，比如那些很經(jīng)典的例子：詢問 Reflection 70B 單詞「Strawberry」中有多少個(gè)「r」，以及哪個(gè)數(shù)字更大（9.11 還是 9.9），這兩個(gè)簡單的問題曾經(jīng)難倒過很多大模型。

Reflection 70B 在測試中顯得有些遲緩，但最終 60 多秒后給出了正確的答案。

開源大模型的新王誕生了？號(hào)稱超越GPT-4o，模型還能自動(dòng)糾錯(cuò)

Reflection 70B 的發(fā)布只是 Reflection 系列的開端。與此同時(shí)，Reflection 405B 也在推出的路上了，預(yù)計(jì)下周上市。Shumer 表示，它的性能將遠(yuǎn)遠(yuǎn)超過目前的專有或閉源 LLM，例如目前全球領(lǐng)先的 OpenAI 的 GPT-4o。

Shumer 宣布，HyperWrite 正致力于將 Reflection 70B 模型集成到其主要的 AI 寫作助手產(chǎn)品中。

Reflection 405B 有望超越當(dāng)今市場上最頂尖的閉源模型。HyperWrite 將發(fā)布一份報(bào)告，詳細(xì)介紹訓(xùn)練過程和基準(zhǔn)，以及 Reflection 模型背后的創(chuàng)新之處。

兩個(gè)人在幾周內(nèi)完成

歸功于 Glaive 的合成數(shù)據(jù)

Shumer 表示完成 Reflection 70B 只花了三周，團(tuán)隊(duì)只有他和另一位 AI 創(chuàng)業(yè)公司的創(chuàng)始人 Sahil Chaudhary 兩個(gè)人。

開源大模型的新王誕生了？號(hào)稱超越GPT-4o，模型還能自動(dòng)糾錯(cuò)

在這么短的時(shí)間內(nèi)做出效果如此好的模型，Shumer 稱，都要拜 Sahil 的公司 Glaive 所賜。Glaive 是一家專門為特定需求構(gòu)建數(shù)據(jù)集的初創(chuàng)公司。Shumer 在 X 平臺(tái)上反復(fù) que 這一點(diǎn)：「聯(lián)系了 Sahil 之后，訓(xùn)練數(shù)據(jù)幾小時(shí)內(nèi)就生成好了�！顾€親自站臺(tái)安利：「如果你在訓(xùn)練 AI 模型，一定要試試 Glaive 提供的服務(wù)�！�

開源大模型的新王誕生了？號(hào)稱超越GPT-4o，模型還能自動(dòng)糾錯(cuò)

Glaive 專注于解決 AI 開發(fā)中最大的瓶頸之一：高質(zhì)量、任務(wù)特定數(shù)據(jù)的可用性。在去年獲得了一輪 350 萬美元的種子輪融資。

開源大模型的新王誕生了？號(hào)稱超越GPT-4o，模型還能自動(dòng)糾錯(cuò)

Sahil Chaudhary

小型、更專業(yè)化的語言模型在使用 Glaive 提供的服務(wù)后，能夠更快地完成訓(xùn)練。已經(jīng)有一些小模型使用該公司已經(jīng)證明了 Glaive 的能力，例如一個(gè) 3B 參數(shù)模型在 HumanEval 等任務(wù)上的表現(xiàn)超過了許多參數(shù)規(guī)模更大的開源模型。

火得措手不及

GPU 不夠用了

Reflection 70B 一經(jīng)發(fā)布，就火了，跑去試用的人太多，模型已經(jīng)反應(yīng)不過來了。

開源大模型的新王誕生了？號(hào)稱超越GPT-4o，模型還能自動(dòng)糾錯(cuò)

本來可以在線試用 Reflection 70B，但現(xiàn)在和它聊天反應(yīng)很慢。

開源大模型的新王誕生了？號(hào)稱超越GPT-4o，模型還能自動(dòng)糾錯(cuò)

但是根據(jù)手快的網(wǎng)友發(fā)來的測評(píng)，Reflection 70B 也確實(shí)沒辜負(fù)六個(gè)基礎(chǔ)測試集里有四個(gè)都打敗了 Claude 3.5 Sonnet 的戰(zhàn)績。

比如，它是首個(gè)能想明白這道纏繞不清的邏輯題的大模型。

開源大模型的新王誕生了？號(hào)稱超越GPT-4o，模型還能自動(dòng)糾錯(cuò)

提示詞：有人在某地殺了 Agatha。Agatha、管家和 Charles 住在此地，并且是那里唯一的居民。殺手恨他的目標(biāo)，并且比受害者窮。Charles 不恨 Agatha 恨的任何人。Agatha 除了管家之外恨所有人。管家恨所有不如 Aunt Agatha 富有的人。管家恨所有 Agatha 恨的人。沒有人恨所有人。誰殺了 Agatha？

向它提問：「柏林的魏森湖地區(qū)當(dāng)?shù)厝送ǔＴ谀睦锞蹠?huì)？當(dāng)?shù)赜心男┚包c(diǎn)？」。對(duì)于這些本地人才知道的答案，其他模型雖然也能給出一些正確的回復(fù)，但是總會(huì)冒出一些在柏林之外的地點(diǎn)。Reflection 70B 是第一個(gè)能正確地說出主要地點(diǎn)，并且沒有幻覺的模型。

開源大模型的新王誕生了？號(hào)稱超越GPT-4o，模型還能自動(dòng)糾錯(cuò)

Reflection-70B 的編碼能力也得到了認(rèn)證。有網(wǎng)友在 ProLLM 的編碼輔助任務(wù)中對(duì) Reflection-70B 進(jìn)行了基準(zhǔn)測試。它確實(shí)是最好的開源模型之一，擊敗了 Llama-3.1 405B。

開源大模型的新王誕生了？號(hào)稱超越GPT-4o，模型還能自動(dòng)糾錯(cuò)

不過，爆火的同時(shí)，由于 Reflection 70B 的底層模型采用了 Meta 的 Llama 3.1 70B Instruct，這也引發(fā)了一些爭議。

有網(wǎng)友認(rèn)為：「Reflection 70B 只是一種元提示（Meta-Prompting）的進(jìn)步，似乎不能算是一種創(chuàng)新。」

開源大模型的新王誕生了？號(hào)稱超越GPT-4o，模型還能自動(dòng)糾錯(cuò)

但也有人對(duì)此提出反對(duì)，認(rèn)為「利用思維鏈和讓大模型說出自己的工作流程」這種方法能讓大模型更好地模擬人類思考的過程。

「萬一 Shumer 的方法 Reflection-tuning，就是 OpenAI 的 Strawberry 的方法呢？」

開源大模型的新王誕生了？號(hào)稱超越GPT-4o，模型還能自動(dòng)糾錯(cuò)

團(tuán)隊(duì)介紹

乍一看，Reflection 70B 似乎是橫空出世，HyperWrite 的知名度并不高。但其實(shí) Shumer 已是 AI 領(lǐng)域的創(chuàng)業(yè)老將了：2020 年，他與就 Jason Kuperberg 共同創(chuàng)立了 Otherside AI。

開源大模型的新王誕生了？號(hào)稱超越GPT-4o，模型還能自動(dòng)糾錯(cuò)

從左至右分別為 Otherside AI 的聯(lián)合創(chuàng)始人：Matt Shumer, Miles Feldstein 與 Jason Kuperberg。

Otherside AI 憑借其當(dāng)家產(chǎn)品 HyperWrite 收獲了一波流量。HyperWrite 最初是一款根據(jù)要點(diǎn)撰寫郵件和消息的 Chrome 插件。后來，它的功能越來越強(qiáng)大，拓展出了起草文章、總結(jié)文本等功能。截至 2023 年 11 月，HyperWrite 擁有兩百萬用戶。隨著兩位聯(lián)合創(chuàng)始人登上了福布斯年度「30 歲以下精英」榜單，Otherside AI 也正式更名為 HyperWrite。

在最新一輪融資中， HyperWrite 獲得了 280 萬美元的投資。在這筆資金的加持下，HyperWrite 引入了 AI 驅(qū)動(dòng)功能，升級(jí)成了可以從網(wǎng)頁瀏覽器自動(dòng)完成預(yù)定航班、在 LinkedIn 上篩簡歷的智能管家。

開源大模型的新王誕生了？號(hào)稱超越GPT-4o，模型還能自動(dòng)糾錯(cuò)

HyperWrite 在線幫你訂達(dá)美樂披薩的外賣。

參考鏈接：https://venturebeat.com/ai/meet-the-new-most-powerful-open-source-ai-model-in-the-world-hyperwrites-reflection-70b/

相關(guān)熱詞： 開源大模型新王誕生了號(hào)稱超越 GPT-4o 模型

上一篇：開源大模型新王干翻GPT4o，新技術(shù)可自我糾錯(cuò)，數(shù)學(xué)99.2刷爆測試集

下一篇：外灘大會(huì)3.0：AI+的新故事

開源大模型的新王誕生了？號(hào)稱超越GPT-4o，模型還能自動(dòng)糾錯(cuò)
來源：互聯(lián)網(wǎng) 發(fā)布日期：2024-09-06 18:27:56 瀏覽：1124次

相關(guān)內(nèi)容

AiLab云推薦

最新資訊

本月熱點(diǎn)

熱門排行

推薦內(nèi)容

在線客服

熱門欄目HotCates

關(guān)于我們

版權(quán)聲明

開源大模型的新王誕生了？號(hào)稱超越GPT-4o，模型還能自動(dòng)糾錯(cuò) 來源：互聯(lián)網(wǎng) 發(fā)布日期：2024-09-06 18:27:56 瀏覽：1124次

相關(guān)內(nèi)容

AiLab云推薦

最新資訊

本月熱點(diǎn)

熱門排行

推薦內(nèi)容

在線客服

熱門欄目HotCates

關(guān)于我們

版權(quán)聲明

開源大模型的新王誕生了？號(hào)稱超越GPT-4o，模型還能自動(dòng)糾錯(cuò)
來源：互聯(lián)網(wǎng) 發(fā)布日期：2024-09-06 18:27:56 瀏覽：1124次