展會(huì)信息港展會(huì)大全

中國(guó)AI創(chuàng)業(yè)公司通過(guò)創(chuàng)新降低模型成本
來(lái)源:互聯(lián)網(wǎng)   發(fā)布日期:2024-10-21 08:22:57   瀏覽:1425次  

導(dǎo)讀:與西方同行相比,中國(guó)大模型公司面臨著尖端芯片獲...

與西方同行相比,中國(guó)大模型公司面臨著尖端芯片獲娶資金投入等方面的窒礙,但是他們正在通過(guò)降低成本來(lái)打造具有國(guó)際競(jìng)爭(zhēng)力的模型。

在頭部的初創(chuàng)企業(yè)中,如零一萬(wàn)物(01.ai)和DeepSeek選擇使用優(yōu)質(zhì)但較小數(shù)據(jù)集來(lái)訓(xùn)練AI模型、招聘一批二十多歲的技術(shù)狂人,不但能做獨(dú)樹一幟的科研,而且成本也較低。

科技巨頭中,如阿里巴巴、百度和字節(jié)跳動(dòng),也燃起了大模型價(jià)格戰(zhàn),將調(diào)用大語(yǔ)言模型生成回答這段技術(shù)所需的“推理”成本降低了 90% 以上,僅為美國(guó)同行的價(jià)格的極小一部分。

位于北京的零一萬(wàn)物是由前谷歌中國(guó)總裁李開(kāi)復(fù)領(lǐng)導(dǎo)。他表示,零一萬(wàn)物在較小的數(shù)據(jù)集上訓(xùn)練出了對(duì)算力要求較低的模型,并且創(chuàng)造了模基共建的方法,結(jié)合了硬件、芯片、內(nèi)存、AI基礎(chǔ)軟件的垂直整合和優(yōu)化,打造了Yi-Lightning(閃電模型)。該模型比OpenAI GPT4o便宜31倍的推理成本。

本周,在由加州大學(xué)伯克利分校 SkyLab 和 LMSYS 的研究人員所發(fā)布的大模型排名中,零一萬(wàn)物憑借 Yi-Lightning 模型與發(fā)布Grok-2、與馬斯克創(chuàng)辦的xAI并列為全球排名第三的大模型公司,僅次于 OpenAI 和谷歌的最新模型。

LMSYS是基于用戶提出真實(shí)問(wèn)題,然后針對(duì)不同模型的回答給出盲測(cè)投票,最終匯總成為對(duì)各個(gè)模型的評(píng)分。OpenAI、谷歌都在這里發(fā)布所有的模型,并接受LMSYS的排名。包括字節(jié)跳動(dòng)、阿里巴巴和 DeepSeek 等其他中國(guó)大模型玩家,也悄悄爬上了 LLM 排名榜。

李開(kāi)復(fù)告訴《金融時(shí)報(bào)》:“中國(guó)的優(yōu)勢(shì)在于制造真正實(shí)惠的推理引擎,這是AI應(yīng)用蓬勃發(fā)展最重要的一件事。”

零一萬(wàn)物 Yi-Lightning 的推理成本是每百萬(wàn)個(gè) token 收取 14 美分(0.99 元人民幣),而 OpenAI 的較小模型 o1-mini 每百萬(wàn)個(gè) token 則需要 26 美分。與此同時(shí),OpenAI 的更大尺寸的模型 GPT-4o 的推理成本為每百萬(wàn)個(gè) token 4.40美元。AI 大模型生成回答所用的 token 數(shù)量取決于查詢的復(fù)雜度。

李開(kāi)復(fù)還表示,Yi-Lightning 模型的“預(yù)訓(xùn)練”成本為 300 萬(wàn)美元,這指的是模型關(guān)鍵訓(xùn)練階段的成本,之后可以根據(jù)不同的應(yīng)用場(chǎng)景進(jìn)行微調(diào)或定制。這預(yù)訓(xùn)練成本僅為 OpenAI 訓(xùn)練GPT-4的3%,而且Yi-Lightning性能還超越了GPT-4。他補(bǔ)充說(shuō),零一萬(wàn)物的科研北極星不是“無(wú)論多貴多大,打造世界第一模型”,而是要打造一個(gè)世界第一梯隊(duì)的模型、但是成本超低,能打造出高性價(jià)比模型,讓開(kāi)發(fā)者構(gòu)建應(yīng)用而不被推理成本壓垮。

包括零一萬(wàn)物、DeepSeek、MiniMax 和階躍星辰在內(nèi)的許多中國(guó)大模型公司,都采用了所謂的“混合專家”模型架構(gòu),一種被美國(guó)研究人員率先提出的模型架構(gòu)。

與 “從互聯(lián)網(wǎng)和其他來(lái)源抓取數(shù)據(jù)構(gòu)建起龐大數(shù)據(jù)庫(kù)上,并一次性地訓(xùn)練一個(gè)龐大的‘稠密模型’”不同,“混合專家”模型選擇將多個(gè)對(duì)不同領(lǐng)域可稱為“專家”的神經(jīng)網(wǎng)絡(luò)集合到一起。

研究人員認(rèn)為,混合專家模型架構(gòu)是以較少的算力,達(dá)到與稠密模型相同智能水平的關(guān)鍵技術(shù)。但這種方法訓(xùn)練失敗的可能性更大,因?yàn)樵谀P陀?xùn)練過(guò)程中需要同時(shí)協(xié)調(diào)多個(gè)“專家”模型,而非集中關(guān)注單個(gè)模型的訓(xùn)練。因此不少美國(guó)公司(如Meta的Llama)就沒(méi)有開(kāi)發(fā)出來(lái),而中國(guó)公司似乎掌握了“混合專家”模型架構(gòu)。尤其是零一萬(wàn)物和Deepseek,做出了世界最快的混合專家模型。

鑒于獲取尖端AI 芯片供給的禁令和難度,中國(guó) AI 領(lǐng)域的玩家在過(guò)去一年中一直在競(jìng)相開(kāi)發(fā)高質(zhì)量數(shù)據(jù)集來(lái)訓(xùn)練這些“專家”,使得自家模型具備與競(jìng)爭(zhēng)對(duì)手不同的特色。李開(kāi)復(fù)表示,零一萬(wàn)物采用了遠(yuǎn)遠(yuǎn)優(yōu)于傳統(tǒng)網(wǎng)絡(luò)抓取方法的數(shù)據(jù)收集方法,包括掃描書籍,爬取深網(wǎng)區(qū)的數(shù)據(jù),使用新穎的合成數(shù)據(jù)技術(shù)等。

“工程師在數(shù)據(jù)標(biāo)注和排序方面需要做很多不為人知的艱苦工作,”但他補(bǔ)充說(shuō),中國(guó)擁有大量技術(shù)厲害且刻苦耐勞的工程人才,在這方面比美國(guó)更有優(yōu)勢(shì)。

“中國(guó)的優(yōu)勢(shì)不一定能在預(yù)算不封頂?shù)那闆r下做出前所未有的突破性研究,但肯定能更好、更快、更可靠和更低成本地實(shí)現(xiàn)落地”,李開(kāi)復(fù)說(shuō)。

贊助本站

相關(guān)內(nèi)容
AiLab云推薦
推薦內(nèi)容
展開(kāi)

熱門欄目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能實(shí)驗(yàn)室 版權(quán)所有    關(guān)于我們 | 聯(lián)系我們 | 廣告服務(wù) | 公司動(dòng)態(tài) | 免責(zé)聲明 | 隱私條款 | 工作機(jī)會(huì) | 展會(huì)港