機(jī)器之心報(bào)道
編輯:佳琪、蛋醬
快速更迭的開源大模型領(lǐng)域,又出現(xiàn)了新王:Reflection 70B。
橫掃 MMLU、MATH、IFEval、GSM8K,在每項(xiàng)基準(zhǔn)測試上都超過了 GPT-4o,還擊敗了 405B 的 Llama 3.1。
這個(gè)新模型 Reflection 70B,來自 AI 寫作初創(chuàng)公司 HyperWrite。
HyperWrite 公司的 CEO Matt Shumer 表示,Reflection-70B 現(xiàn)在是「世界上最頂級(jí)的開源 AI 模型」。
Reflection 70B 的底層模型建立在 Meta 的 Llama 3.1 70B Instruct 上,并使用原始的 Llama chat 格式,確保了與現(xiàn)有工具和 pipeline 的兼容性。
Reflection 70B 已在多個(gè)基準(zhǔn)測試中經(jīng)過嚴(yán)格測試,包括 MMLU 和 HumanEval。測試結(jié)果表明, Reflection 的表現(xiàn)始終優(yōu)于 Meta 的 Llama 系列,并與 GPT-4o 等全球頂尖的商用模型展開了激烈競爭。
其中,它在 GSM8K 的得分甚至達(dá)到了 99.2%。要知道,GSM8k 中可能有有超過 1% 的被標(biāo)為正確的答案實(shí)際上有錯(cuò),也就是說,Reflection 70B 的得分幾乎與滿分無異。
值得注意的還有 Reflection 70B 的零樣本推理能力。面對(duì)從未接觸過的內(nèi)容,Reflection 70B 的表現(xiàn)超越了 Claude 3.5、Gemini 1.5 以及 Llama 405 在五次樣本測試中的得分。
Reflection 70B 特別適用于需要高精度的任務(wù),它將推理分為不同的步驟以提高精度。該模型可通過 Hugging Face 下載,API 訪問將于今天晚些時(shí)候通過 GPU 服務(wù)提供商 Hyperbolic Labs 提供。
Hugging Face:https://huggingface.co/mattshumer/Reflection-70B
試用網(wǎng)址:https://reflection-playground-production.up.railway.app/
假設(shè)訓(xùn)練有素
模型自動(dòng)糾錯(cuò)
在通用能力之外,Reflection 70B 的亮點(diǎn)還包括「錯(cuò)誤識(shí)別」和「錯(cuò)誤糾正」。
一種名為「Reflection-Tuning」的技術(shù),使得模型能夠在最終確定回復(fù)之前,先檢測自身推理的錯(cuò)誤并糾正。
Reflection 70B 引入了幾個(gè)用于推理和糾錯(cuò)的特殊 token,使用戶能夠以更結(jié)構(gòu)化的方式與模型交互。在推理過程中,模型會(huì)在特殊標(biāo)簽內(nèi)輸出其推理,以便在檢測到錯(cuò)誤時(shí)進(jìn)行實(shí)時(shí)糾正。
Playground 演示網(wǎng)站包含供用戶使用的建議提示詞,比如那些很經(jīng)典的例子:詢問 Reflection 70B 單詞「Strawberry」中有多少個(gè)「r」,以及哪個(gè)數(shù)字更大(9.11 還是 9.9),這兩個(gè)簡單的問題曾經(jīng)難倒過很多大模型。
Reflection 70B 在測試中顯得有些遲緩,但最終 60 多秒后給出了正確的答案。
Reflection 70B 的發(fā)布只是 Reflection 系列的開端。與此同時(shí),Reflection 405B 也在推出的路上了,預(yù)計(jì)下周上市。Shumer 表示,它的性能將遠(yuǎn)遠(yuǎn)超過目前的專有或閉源 LLM,例如目前全球領(lǐng)先的 OpenAI 的 GPT-4o。
Shumer 宣布,HyperWrite 正致力于將 Reflection 70B 模型集成到其主要的 AI 寫作助手產(chǎn)品中。
Reflection 405B 有望超越當(dāng)今市場上最頂尖的閉源模型。HyperWrite 將發(fā)布一份報(bào)告,詳細(xì)介紹訓(xùn)練過程和基準(zhǔn),以及 Reflection 模型背后的創(chuàng)新之處。
兩個(gè)人在幾周內(nèi)完成
歸功于 Glaive 的合成數(shù)據(jù)
Shumer 表示完成 Reflection 70B 只花了三周,團(tuán)隊(duì)只有他和另一位 AI 創(chuàng)業(yè)公司的創(chuàng)始人 Sahil Chaudhary 兩個(gè)人。
在這么短的時(shí)間內(nèi)做出效果如此好的模型,Shumer 稱,都要拜 Sahil 的公司 Glaive 所賜。Glaive 是一家專門為特定需求構(gòu)建數(shù)據(jù)集的初創(chuàng)公司。Shumer 在 X 平臺(tái)上反復(fù) que 這一點(diǎn):「聯(lián)系了 Sahil 之后,訓(xùn)練數(shù)據(jù)幾小時(shí)內(nèi)就生成好了!顾親自站臺(tái)安利:「如果你在訓(xùn)練 AI 模型,一定要試試 Glaive 提供的服務(wù)!
Glaive 專注于解決 AI 開發(fā)中最大的瓶頸之一:高質(zhì)量、任務(wù)特定數(shù)據(jù)的可用性。在去年獲得了一輪 350 萬美元的種子輪融資。
Sahil Chaudhary
小型、更專業(yè)化的語言模型在使用 Glaive 提供的服務(wù)后,能夠更快地完成訓(xùn)練。已經(jīng)有一些小模型使用該公司已經(jīng)證明了 Glaive 的能力,例如一個(gè) 3B 參數(shù)模型在 HumanEval 等任務(wù)上的表現(xiàn)超過了許多參數(shù)規(guī)模更大的開源模型。
火得措手不及
GPU 不夠用了
Reflection 70B 一經(jīng)發(fā)布,就火了,跑去試用的人太多,模型已經(jīng)反應(yīng)不過來了。
本來可以在線試用 Reflection 70B,但現(xiàn)在和它聊天反應(yīng)很慢。
但是根據(jù)手快的網(wǎng)友發(fā)來的測評(píng),Reflection 70B 也確實(shí)沒辜負(fù)六個(gè)基礎(chǔ)測試集里有四個(gè)都打敗了 Claude 3.5 Sonnet 的戰(zhàn)績。
比如,它是首個(gè)能想明白這道纏繞不清的邏輯題的大模型。
提示詞:有人在某地殺了 Agatha。Agatha、管家和 Charles 住在 此地,并且是那里唯一的居民。殺手恨他的目標(biāo),并且比受害者窮。Charles 不恨 Agatha 恨的任何人。Agatha 除了管家之外恨所有人。管家恨所有不如 Aunt Agatha 富有的人。管家恨所有 Agatha 恨的人。沒有人恨所有人。誰殺了 Agatha?
向它提問:「柏林的魏森湖地區(qū)當(dāng)?shù)厝送ǔT谀睦锞蹠?huì)?當(dāng)?shù)赜心男┚包c(diǎn)?」。對(duì)于這些本地人才知道的答案,其他模型雖然也能給出一些正確的回復(fù),但是總會(huì)冒出一些在柏林之外的地點(diǎn)。Reflection 70B 是第一個(gè)能正確地說出主要地點(diǎn),并且沒有幻覺的模型。
Reflection-70B 的編碼能力也得到了認(rèn)證。有網(wǎng)友在 ProLLM 的編碼輔助任務(wù)中對(duì) Reflection-70B 進(jìn)行了基準(zhǔn)測試。它確實(shí)是最好的開源模型之一,擊敗了 Llama-3.1 405B。
不過,爆火的同時(shí),由于 Reflection 70B 的底層模型采用了 Meta 的 Llama 3.1 70B Instruct,這也引發(fā)了一些爭議。
有網(wǎng)友認(rèn)為:「Reflection 70B 只是一種元提示(Meta-Prompting)的進(jìn)步,似乎不能算是一種創(chuàng)新。」
但也有人對(duì)此提出反對(duì),認(rèn)為「利用思維鏈和讓大模型說出自己的工作流程」這種方法能讓大模型更好地模擬人類思考的過程。
「萬一 Shumer 的方法 Reflection-tuning,就是 OpenAI 的 Strawberry 的方法呢?」
團(tuán)隊(duì)介紹
乍一看,Reflection 70B 似乎是橫空出世,HyperWrite 的知名度并不高。但其實(shí) Shumer 已是 AI 領(lǐng)域的創(chuàng)業(yè)老將了:2020 年,他與就 Jason Kuperberg 共同創(chuàng)立了 Otherside AI。
從左至右分別為 Otherside AI 的聯(lián)合創(chuàng)始人:Matt Shumer, Miles Feldstein 與 Jason Kuperberg。
Otherside AI 憑借其當(dāng)家產(chǎn)品 HyperWrite 收獲了一波流量。HyperWrite 最初是一款根據(jù)要點(diǎn)撰寫郵件和消息的 Chrome 插件。后來,它的功能越來越強(qiáng)大,拓展出了起草文章、總結(jié)文本等功能。截至 2023 年 11 月,HyperWrite 擁有兩百萬用戶。隨著兩位聯(lián)合創(chuàng)始人登上了福布斯年度「30 歲以下精英」榜單,Otherside AI 也正式更名為 HyperWrite。
在最新一輪融資中, HyperWrite 獲得了 280 萬美元的投資。在這筆資金的加持下,HyperWrite 引入了 AI 驅(qū)動(dòng)功能,升級(jí)成了可以從網(wǎng)頁瀏覽器自動(dòng)完成預(yù)定航班、在 LinkedIn 上篩簡歷的智能管家。
HyperWrite 在線幫你訂達(dá)美樂披薩的外賣。
參考鏈接:https://venturebeat.com/ai/meet-the-new-most-powerful-open-source-ai-model-in-the-world-hyperwrites-reflection-70b/