文|林煒鑫
編輯|鄧詠儀
本月初新發(fā)布的大模型「Yi」這兩天卷入一場爭議?萍夹侣勆鐓^(qū)Hacker News的一篇帖子指出,Yi-34B模型完全使用了LLaMa的架構(gòu),只是重新命名了兩個張量(Tensor,通常用來表示模型的輸入、輸出和參數(shù)),卻未提及LLaMa。
帖子引起業(yè)內(nèi)關(guān)注
「Yi」是由李開復創(chuàng)辦的AI公司「零一萬物」打造的國產(chǎn)開源大模型,擁有200K上下文窗口,可處理約40萬字文本。自推出后,零一萬物表示,Yi模型在Hugging Face英文開源社區(qū)平臺和C-Eval中文評測榜單中,取得多項SOTA國際最佳性能指標認可,成為第一家登頂Hugging Face全球開源模型排行榜的國產(chǎn)模型。
零一萬物昨日回應表示,Yi模型的研發(fā)借鑒了行業(yè)頂尖水平的公開成果;之所以改名是為了滿足訓練實驗的需求;團隊將更新代碼。
這場爭議的源頭是零一萬物Hugging Face社區(qū)的一條留言。一位ID名為「ehartford」的工程師數(shù)天前便發(fā)現(xiàn)了這個問題,并指出這一行為沒有符合LLaMa規(guī)定的許可協(xié)議。
ehartford朝Yi團隊喊話
有開發(fā)者跟帖道:“如果他們確實用了Meta LLaMa結(jié)構(gòu)、代碼庫和所有相關(guān)資源,需要遵守LLaMa規(guī)定的許可協(xié)議。”
因此,另一位開發(fā)者動手把張量名字改了回去,重新放到Hugging Face上。
很快,有人翻出了前阿里首席AI科學家、AI創(chuàng)業(yè)者賈揚清的朋友圈:
賈揚清朋友圈
需要區(qū)別的是,Yi引發(fā)的爭議在于其模型架構(gòu)的命名,與抄襲、簡單套殼有本質(zhì)區(qū)別。LLaMa本就是開源的模型,使用LLaMa的架構(gòu)是正常的大模型訓練步驟,即使是選擇同一種架構(gòu),用不同數(shù)據(jù)集訓練出來的模型也會截然不同。
一位開發(fā)者則向36氪表示,外界苛責的是使用開源LLaMa-2模型架構(gòu),卻改了名字,“好比造了跟奔馳一樣的車,把牌子換了名字,把方向盤改為動力控制轉(zhuǎn)向器”。在他看來,用了LLaMa架構(gòu),“大方承認就好”。
有開發(fā)者曬出Yi和LLaMa的代碼對比
昨天下午,「Yi」團隊開源總監(jiān)在Hugging Face社區(qū)回復,命名問題是團隊的疏忽,“在大量的訓練實驗中,我們對代碼進行了多次重命名以滿足實驗要求,但在發(fā)布前沒有將它們切換回來”。他表示,團隊將把張量名字從Yi改回LLaMa,并且重新發(fā)布。
Yi團隊在社區(qū)上的回應
附零一萬物給機器之心的回應:
GPT 是一個業(yè)內(nèi)公認的成熟架構(gòu),LLaMa 在 GPT 上做了總結(jié)。零一萬物研發(fā)大模型的結(jié)構(gòu)設計基于 GPT 成熟結(jié)構(gòu),借鑒了行業(yè)頂尖水平的公開成果,同時基于零一萬物團隊對模型和訓練的理解做了大量工作,這是我們首次發(fā)布獲得優(yōu)秀結(jié)果的地基之一。與此同時,零一萬物也在持續(xù)探索模型結(jié)構(gòu)層面本質(zhì)上的突破。
模型結(jié)構(gòu)僅是模型訓練其中一部分。Yi 開源模型在其他方面的精力,比如數(shù)據(jù)工程、訓練方法、baby sitting(訓練過程監(jiān)測)的技巧、hyperparameter 設置、評估方法以及對評估指標的本質(zhì)理解深度、對模型泛化能力的原理的研究深度、行業(yè)頂尖的 AI Infra 能力等,投入了大量研發(fā)和打底工作,這些工作往往比起基本結(jié)構(gòu)能起到更大的作用跟價值,這些也是零一萬物在大模型預訓練階段的核心技術(shù)護城河。
在大量訓練實驗過程中,由于實驗執(zhí)行需求對代碼做了更名,我們尊重開源社區(qū)的反饋,將代碼進行更新,也更好的融入 Transformer 生態(tài)。
我們非常感謝社區(qū)的反饋,我們在開源社區(qū)剛剛起步,希望和大家攜手共創(chuàng)社區(qū)繁榮,Yi Open-source 會盡最大努力持續(xù)進步。
歡迎交流