在OpenAI發(fā)布具有突破性推理能力的模型后,人工智能的推理能力競賽已然打響,阿里、幻方相繼發(fā)布重磅新品,不僅性能比肩o1模型而且是開源!
周四,阿里通義千問推出QwQ-32B-Preview開源模型,包含325億個參數(shù),能夠處理最長32000 個 tokens的提示詞。在 AIME和MATH基準測試中,表現(xiàn)優(yōu)于OpenAI推理模型o1-preview 和 o1-mini。
QwQ是少數(shù)能與o1匹敵的模型之一,其在數(shù)學和編程領(lǐng)域,尤其在需要深度推理的復(fù)雜問題上表現(xiàn)出色,而且它可以用于商業(yè)應(yīng)用。
上周,量化巨頭幻方DeepSeek-R1-Lite模型,Preview版在難度較高數(shù)學和代碼任務(wù)上超越o1-preview,大幅領(lǐng)先GPT-4o等。在AIME測試基準中,隨著計算時間增加,其得分穩(wěn)步提升。
值得一提的是,官方還表示,目前模型仍在開發(fā)階段,經(jīng)持續(xù)迭代,正式版DeepSeek-R1模型將完全開源。
阿里、幻方模型嶄露頭角,預(yù)示著業(yè)內(nèi)推理AI正在興起,這可能為小型AI開發(fā)商提供趕超機會,打破目前由少數(shù)幾家科技巨頭主導(dǎo)的局面。
于今年第二季度開始研究推理模型的初創(chuàng)公司Fireworks,其聯(lián)合創(chuàng)始人兼首席執(zhí)行官Lin Qiao表示:
整個開源社區(qū)……將會以超快的速度推出推理模型。
此外,科技巨頭們也加大了推理模型研發(fā)力度,谷歌已將其推理模型團隊規(guī)模從 o1-preview 發(fā)布前的幾十人擴大到 200 人左右,谷歌還為該團隊提供了更多算力資源。
后進者更具成本優(yōu)勢,思維鏈成大模型關(guān)鍵
后進者在構(gòu)建大模型方面更具成本優(yōu)勢。
后進者在開發(fā)OpenAI替代品時,似乎受益于斯坦福大學、谷歌、Meta Platforms和OpenAI自身研究人員近年來發(fā)布的關(guān)于推理的論文。推理模型的開發(fā)成本低于傳統(tǒng)的LLMs,如GPT-4o,傳統(tǒng)模型需要花費數(shù)億美元在計算資源和訓(xùn)練數(shù)據(jù)上,并需要合法獲取這些數(shù)據(jù)。
新模型可以幫助 OpenAI 及其競爭對手開發(fā)能夠完成困難項目的編碼助手。例如,微軟和 Salesforce 等企業(yè)軟件公司可以利用它們來改進代表客戶采取行動的代理,例如安排預(yù)約。
值得一提的是,研究人員可以通過讓其他模型生成解決問題的思維過程,然后將這些過程用于訓(xùn)練LLM,從而將推理能力融入現(xiàn)有的LLMs中。
一些研究人員還免費向其他開發(fā)人員開放了以推理為重點的數(shù)據(jù)集。例如,阿里巴巴表示,它使用了Open o1其中一個研究小組的數(shù)據(jù)來構(gòu)建推理模型。
人工智能初創(chuàng)公司Anyscale和Databricks的聯(lián)合創(chuàng)始人 Ion Stoica 表示:
在開發(fā)推理模型方面,OpenAI的競爭對手并沒有明顯的劣勢。
本文來自華爾街見聞,歡迎下載APP查看更多