《AI未來(lái)指北》欄目由科技新聞推出,邀約全球業(yè)內(nèi)專(zhuān)家、創(chuàng)業(yè)者、投資人,探討AI領(lǐng)域的技術(shù)發(fā)展、商業(yè)模式、應(yīng)用場(chǎng)景、及治理挑戰(zhàn)。
科技新聞 文 / 李海丹
2023年已走完了大半,各大科技公司在大模型上的比拼還在繼續(xù)。
在上半年,大語(yǔ)言模型給入局者們提供了前所未有的機(jī)會(huì),開(kāi)啟了一場(chǎng)“百模大戰(zhàn)”。不論是科技巨頭還是創(chuàng)業(yè)公司都紛紛投身進(jìn)常而時(shí)隔數(shù)月,經(jīng)過(guò)新一輪的淘汰賽,中國(guó)大模型賽道的競(jìng)備賽已進(jìn)入到“高手競(jìng)逐”階段。
在這場(chǎng)對(duì)決中,主要分為兩大陣營(yíng):
一邊是憑借大模型,崛起的AI獨(dú)角獸。以O(shè)penAI為首,一直保持著驚人的產(chǎn)品發(fā)布速度,在這個(gè)領(lǐng)域中一家獨(dú)大,并且已經(jīng)逐步走入下一個(gè)大模型的階段多模態(tài)大模型的爭(zhēng)奪賽。OpenAI近期更新了多模態(tài)進(jìn)展,發(fā)布了DALL-E3并解禁了GPT的多模態(tài)能力,將與谷歌等科技巨頭們開(kāi)啟一場(chǎng)多模態(tài)較量。
另一邊是以科技巨頭為主。國(guó)外的巨頭爭(zhēng)霸可謂是愈加猛烈,近期Meta發(fā)布了多模態(tài)AI大模型AnyMAL,谷歌也公布了大語(yǔ)言模型Gemini,計(jì)劃于今年秋季和用戶見(jiàn)面。在國(guó)內(nèi),各自的產(chǎn)品已悉數(shù)紛紛亮相百度的“文心一言”、百川智能的“百川大模型”、華為盤(pán)古大模型等陸續(xù)開(kāi)放上線。雖然大模型已經(jīng)百花齊放,但是國(guó)內(nèi)的這波入場(chǎng)者仍在追趕的路上。
面對(duì)如此之多的大模型,市場(chǎng)如何判斷大模型的含金量?國(guó)內(nèi)的大模型和OpenAI的技術(shù)差距還有多遠(yuǎn)?即將展開(kāi)的多模態(tài)大戰(zhàn)中,誰(shuí)將勝負(fù)?本期《AI未來(lái)指北》科技新聞專(zhuān)訪了創(chuàng)新工場(chǎng)CTO兼人工智能工程院執(zhí)行院長(zhǎng)王詠剛,有以下核心觀點(diǎn):
① 目前國(guó)內(nèi)還沒(méi)有模型可以比肩GPT-4的水平,想要超越OpenAI和谷歌是很難的,最難以追趕的是整個(gè)模型訓(xùn)練架構(gòu)中,對(duì)工程技巧的理解,主要體現(xiàn)在訓(xùn)練數(shù)據(jù)、模型架構(gòu)和訓(xùn)練優(yōu)化三個(gè)方面。
② 目前多模態(tài)領(lǐng)域非;馃岬纳墒饺蝿(wù),暫時(shí)還比較難納入到大語(yǔ)言模型的核心架構(gòu)里。統(tǒng)一的多模態(tài)大模型如GPT-4,主要還在努力完成多模態(tài)理解和跨模態(tài)信息遷移這兩方面的工作。
③ 未來(lái)超級(jí)AI的競(jìng)爭(zhēng)大概還是會(huì)在OpenAI、Google、微軟、Meta這些巨頭間展開(kāi)。谷歌和OpenAI的多模態(tài)大戰(zhàn)中,其決戰(zhàn)勝負(fù)取決于一年內(nèi)的產(chǎn)品化速度。
④ 對(duì)于大模型,有一個(gè)新的研究方向叫“AI for Science"希望AI可以幫助科學(xué)家更好的認(rèn)知這個(gè)世界,AI能夠最終可以實(shí)現(xiàn)自我改進(jìn)、自我設(shè)計(jì)和自我演化。
| 以下為文字精華版,在不改變?cè)獾那疤嵯掠袆h減調(diào)整:
01 大模型不同的工程技巧帶來(lái)差距,市場(chǎng)打榜評(píng)分目前并不靠譜
科技新聞:國(guó)內(nèi)各大語(yǔ)言模型的都在陸續(xù)推出,您認(rèn)為目前整體的技術(shù)水平是如何的?我們和Open AI、谷歌等公司的技術(shù)差距還有多大?
王詠剛:目前國(guó)內(nèi)開(kāi)發(fā)的大型模型,很多通過(guò)可用的接口,展現(xiàn)了各個(gè)不同方向的應(yīng)用能力。但整體來(lái)看,目前還沒(méi)有模型可以比肩GPT-4的水平,今年國(guó)內(nèi)達(dá)到這個(gè)水平可能有一定的難度。
不過(guò),要達(dá)到GPT-4的標(biāo)準(zhǔn)能力并不需要很長(zhǎng)時(shí)間,可能一年到一年半的周期,大多數(shù)技術(shù)含量較高的團(tuán)隊(duì)都可以達(dá)到GPT-4的水平。個(gè)人判斷GPT-4中不存在一些非常難以逾越的技術(shù)障礙,它更多是資金和工程實(shí)踐中反復(fù)迭代,核心是需要一些時(shí)間和數(shù)據(jù)規(guī)模的積累。
但如果我們要超越OpenAI是很難的,其中最難以追趕的是整個(gè)模型訓(xùn)練架構(gòu)中,對(duì)工程技巧的理解。這些工程技巧是OpenAI團(tuán)隊(duì)通過(guò)大量的反復(fù)迭代和實(shí)驗(yàn)積累所得到的經(jīng)驗(yàn)。即使是GPT的核心算法的發(fā)明者Google團(tuán)隊(duì)也沒(méi)有完全掌握所有這些經(jīng)驗(yàn),因此在產(chǎn)品方面,Google的表現(xiàn)可能相對(duì)較弱?偟膩(lái)說(shuō),這些工程經(jīng)驗(yàn)并不存在一個(gè)科研上完全不可逾越的鴻溝,但它們需要時(shí)間的積累和打磨。
另外我們也需要關(guān)注的是,雖然行業(yè)中大家都在強(qiáng)調(diào)模型的數(shù)據(jù)之“大”,但人工智能的模型和規(guī)模已經(jīng)開(kāi)始達(dá)到不容易控制的階段,那么現(xiàn)在我們?cè)偃U(kuò)展數(shù)據(jù)的規(guī)模,比如從百億參數(shù)擴(kuò)展到萬(wàn)億參數(shù),這種路徑是否還可以達(dá)到理想的結(jié)果,我們訓(xùn)練AI的這條路徑是否還可行或者可以得到正向提高,這是一個(gè)特別大的挑戰(zhàn)。在未來(lái),可能會(huì)分化出3-4種不同的技術(shù)路徑來(lái)競(jìng)爭(zhēng),我們才能得出哪種路徑可以訓(xùn)練出人類(lèi)想要的AI。
科技新聞:您剛提到關(guān)于工程技巧方面的差距可以詳細(xì)說(shuō)一下嗎,有哪些核心的影響因素?
王詠剛:具體來(lái)說(shuō),主要體現(xiàn)在訓(xùn)練數(shù)據(jù)、模型架構(gòu)和訓(xùn)練優(yōu)化三個(gè)方面:
訓(xùn)練數(shù)據(jù)方面:比如Llama 2的開(kāi)源,大家在這個(gè)基礎(chǔ)架構(gòu)上的改進(jìn)嘗試越來(lái)越多。我們發(fā)現(xiàn),訓(xùn)練數(shù)據(jù)的質(zhì)量對(duì)模型輸出的質(zhì)量影響非常大。如何選擇、清洗、準(zhǔn)備訓(xùn)練數(shù)據(jù)集,實(shí)際上已經(jīng)成為同類(lèi)大語(yǔ)言模型之間,能力差異的一個(gè)核心因素。例如很多團(tuán)隊(duì)已經(jīng)發(fā)現(xiàn),如果能在版權(quán)許可的范圍內(nèi)使用大量圖書(shū)內(nèi)容做訓(xùn)練,由此得到的大語(yǔ)言模型的推理能力,會(huì)比僅用網(wǎng)頁(yè)文本做訓(xùn)練的模型強(qiáng)。
模型架構(gòu)方面:如果有人在互聯(lián)網(wǎng)上公開(kāi)了有關(guān)GPT-4模型架構(gòu)設(shè)計(jì)的一些信息(即GPT4的架構(gòu)是混合專(zhuān)家模型MoE),雖然很難證實(shí)這些描述的真?zhèn),但從行?nèi)人看來(lái),這些信息里的不少關(guān)鍵點(diǎn)是符合技術(shù)邏輯的。當(dāng)我們?yōu)榱瞬粩嗤七M(jìn)模型的推理能力,試著建立一個(gè)數(shù)萬(wàn)億參數(shù)的復(fù)雜結(jié)構(gòu)時(shí),類(lèi)似MoE的模型架構(gòu)肯定是一個(gè)優(yōu)先選項(xiàng)。但是如何順利設(shè)計(jì)和運(yùn)行一個(gè)MoE架構(gòu),這里面有大量復(fù)雜的工程問(wèn)題。超參數(shù)的數(shù)量非常多,很多影響模型架構(gòu)的超參數(shù)選擇,并沒(méi)有理論上非常直截了當(dāng)?shù)挠?jì)算或優(yōu)化算法,不得不依賴(lài)于反復(fù)的工程實(shí)驗(yàn)。
訓(xùn)練優(yōu)化方面:目前的大語(yǔ)言模型已經(jīng)把顯卡集群的使用推到了一個(gè)前所未有的水平,未來(lái)的多模態(tài)單一模型會(huì)需要更多的顯卡。而如何管理一個(gè)復(fù)雜架構(gòu)模型在許多塊顯卡上的整個(gè)訓(xùn)練過(guò)程,這是一個(gè)非常深的專(zhuān)業(yè)話題。把一個(gè)復(fù)雜的Transformer模型拆解開(kāi),靜態(tài)或動(dòng)態(tài)部署在多塊顯卡上,并追求最高的運(yùn)行效率,這可能是過(guò)去數(shù)十年計(jì)算機(jī)領(lǐng)域處理過(guò)的最復(fù)雜的并行計(jì)算問(wèn)題之一。像微軟的DeepSpeed和創(chuàng)業(yè)項(xiàng)目ColossalAI這樣的訓(xùn)練優(yōu)化工具,它們自身就是龐大的工程項(xiàng)目,有大量復(fù)雜的代碼邏輯。
科技新聞:目前,很多大模型都標(biāo)榜在得分上有數(shù)項(xiàng)超越了GPT-3.5乃至GPT-4,這是否能說(shuō)明這些大模型的水平?
王詠剛:雖然科研界已經(jīng)制定了一些稱(chēng)為基準(zhǔn)的評(píng)估標(biāo)準(zhǔn),但這些標(biāo)準(zhǔn)通常只能評(píng)估特定任務(wù)子集上的表現(xiàn)。科研界對(duì)模型智能程度和幫助程度的評(píng)判與普通人的感知可能不一致科研界更注重技術(shù)指標(biāo),而普通人更關(guān)注模型在實(shí)際工作中的幫助程度。
因此,有些模型可能在排行榜上位列前茅,但在實(shí)際使用中表現(xiàn)笨拙、不理想;而有些模型可能在某些方面的涌現(xiàn)能力做得不錯(cuò),使用體驗(yàn)非常好卻排在靠后的位置。對(duì)于大型模型的評(píng)估目前還沒(méi)有一個(gè)嚴(yán)格且公認(rèn)的標(biāo)準(zhǔn)。如果非要進(jìn)行比較的話,我們可以參考GPT-3.5的水平進(jìn)行對(duì)比,其實(shí)仍存在差異。
02 多模態(tài)面對(duì)兩方面挑戰(zhàn),理想的AI能夠?qū)崿F(xiàn)自我演進(jìn)
科技新聞:技術(shù)積累差距既然短時(shí)間內(nèi)很難突破,我們?nèi)绻熠s超可能需要靠創(chuàng)新,您認(rèn)為大語(yǔ)言模型的下個(gè)突破會(huì)在哪些方向?
王詠剛:從發(fā)展形式來(lái)看,未來(lái)的通用智能一定是多模態(tài)智能。未來(lái)的技術(shù)方向?qū)膯我坏奈谋竞驼Z(yǔ)言文字發(fā)展到聲音、光學(xué)、電子、三維視頻、圖形動(dòng)畫(huà)等多模態(tài)世界,這是一個(gè)基本的判斷。在這個(gè)發(fā)展路徑上,AI將不斷進(jìn)步,以更好地理解和應(yīng)用多模態(tài)信息。
目前有一個(gè)新的研究方向,我們叫“AI for Science"(為打造科學(xué)界的AI,或者說(shuō)打造輔助科研的AI),就是當(dāng)有邏輯的AI被訓(xùn)練出來(lái)后,希望AI可以幫助科學(xué)家更好地認(rèn)知這個(gè)世界,這是一個(gè)非常有趣的探索方向,這也與多模態(tài)的發(fā)展緊密相關(guān),AI需要了解、學(xué)習(xí)和感受捕捉到的信息,再幫助科學(xué)家們發(fā)現(xiàn)問(wèn)題。據(jù)了解,這個(gè)方向OpenAI和谷歌應(yīng)該都在研究中,但目前還在較為初級(jí)的發(fā)展階段。
能夠不斷進(jìn)步的AI必然是在真實(shí)的世界環(huán)境中獲得知識(shí)、吸收人類(lèi)反饋的,并且一個(gè)自我演化的AI肯定會(huì)需要多模態(tài)能力的支撐。我們身邊的真實(shí)世界是一個(gè)多模態(tài)的世界。比如如果想讓一個(gè)超級(jí)AI學(xué)會(huì)自動(dòng)駕駛,那光讓AI去學(xué)習(xí)交通規(guī)則的文字信息肯定是不夠的,只有讓這個(gè)AI親自在虛擬路面環(huán)境中學(xué)習(xí)駕駛,從虛擬環(huán)境的2D、3D世界里得到圖像、視頻、3D方位、物理碰撞事件等反饋信息,這個(gè)AI才有可能在駕駛技能上不斷提高。
總的來(lái)說(shuō),我們希望能夠最終可以真正做出一個(gè)可以自我改進(jìn)、自我設(shè)計(jì)和自我演化的AI,這可能是很多科研工作者,夢(mèng)寐以求的一個(gè)局面。如果一旦這方面有進(jìn)展,會(huì)是一個(gè)特別有趣的未來(lái)。
科技新聞:您認(rèn)為現(xiàn)在主流的多模態(tài)實(shí)現(xiàn)有哪些技術(shù)路徑?哪類(lèi)在行業(yè)之中被認(rèn)為是更有前景的路徑?
王詠剛: 目前多模態(tài)領(lǐng)域非;馃岬纳墒饺蝿(wù),暫時(shí)還比較難納入到大語(yǔ)言模型的核心架構(gòu)里。新近發(fā)布的ChatGPT與Dall-3的組合,類(lèi)似在兩個(gè)模型之間做的工程連接,用ChatGPT的強(qiáng)大語(yǔ)言能力生成專(zhuān)用于Dall-3的文本提示,然后再交給Dall-3完成最終的圖片生成任務(wù)。
視頻生成是非常有趣也擁有巨大應(yīng)用前景的熱點(diǎn)。視頻生成的基本思路仍然是使用Diffusion架構(gòu),訓(xùn)練大量視頻數(shù)據(jù)。但模型結(jié)構(gòu)的設(shè)計(jì)、訓(xùn)練數(shù)據(jù)的選擇仍會(huì)顯著影響最終的模型效果。例如,Pika Labs最新發(fā)布的文生視頻算法,在很多方面都給我們帶來(lái)了驚喜,效果在很多方面要比Runway的Gen-2好。一些從視頻原始信息提取的高層次信息,如人物骨骼動(dòng)作、場(chǎng)景深度等,也可以被不同模型架構(gòu)巧妙使用,解決特定問(wèn)題。
3D領(lǐng)域有更大的算法設(shè)計(jì)空間。Google的DreamFusion是目前的主流文生3D算法基于2D圖片生成算法得到的先驗(yàn)信息,在3D隱含場(chǎng)中將隨機(jī)初始空間逐漸訓(xùn)練成3D模型的完整表示。zero-1-to-3是在這個(gè)算法路徑上的一次重大改進(jìn),利用3D數(shù)據(jù)集生成的帶有準(zhǔn)確相機(jī)參數(shù)的圖片提高2D先驗(yàn)信息的各向一致性,把文生3D的質(zhì)量一下子提高了一個(gè)數(shù)量級(jí)。但因?yàn)?D生成任務(wù)的復(fù)雜性,其他文生3D的思路,如直接基于3D模型做訓(xùn)練,或針對(duì)特定領(lǐng)域的3D模型做Mesh優(yōu)化和Texture生成,也都是目前3D領(lǐng)域的活躍技術(shù)方向。
科技新聞:剛您提到了多模態(tài)智能的發(fā)展趨勢(shì),最近OpenAI和谷歌也在競(jìng)爭(zhēng)和搶發(fā)多模態(tài)大模型。從單一轉(zhuǎn)向多形式到多模態(tài)信息的融合中,會(huì)面對(duì)哪些挑戰(zhàn)?
王詠剛:目前多模態(tài)AI的技術(shù)進(jìn)展?fàn)顟B(tài),像極了2017年前后的NLP領(lǐng)域。2017年是Google提出Transformer技術(shù)的時(shí)間,也是NLP科研領(lǐng)域百花齊放,多路徑同時(shí)迭代,上下游任務(wù)各自突破的時(shí)代。
GPT在自然語(yǔ)言處理領(lǐng)域取得了巨大的突破,達(dá)到了一個(gè)平臺(tái)級(jí)的高度。這是一個(gè)非常重要的進(jìn)展,但這并不意味著終結(jié),而是邁向了多模態(tài)的未來(lái)。在GPT等模型的發(fā)展方面,我們采用了一種核心算法,即Google提出的Transformer模型。
目前,最新的研究者開(kāi)始將Transformer模型應(yīng)用于多模態(tài)領(lǐng)域,用于對(duì)圖像、視頻、動(dòng)畫(huà)序列和聲音等進(jìn)行編碼。這一方法在許多科研方向上取得了出色的結(jié)果。甚至有科學(xué)家提出只使用Transformer技術(shù),將混合的圖片、視頻、3D動(dòng)畫(huà)、文本和聲音等綜合訓(xùn)練數(shù)據(jù)訓(xùn)練成一個(gè)單一模型,也就是所謂的“多模態(tài)單模型”,這成為一些科學(xué)家追求的方向。
統(tǒng)一的多模態(tài)大模型如GPT-4,主要還在努力完成多模態(tài)理解和跨模態(tài)信息遷移這兩方面的工作。例如,GPT-4可以理解圖片中的語(yǔ)義信息,可以識(shí)別出一張圖片為什么可笑,主要是將圖片的embedding信息和文本的embedding信息在一個(gè)統(tǒng)一的高維空間內(nèi)做對(duì)齊并做聯(lián)合推理。目前GPT的多模態(tài)能力還比較初級(jí),離實(shí)際的場(chǎng)景應(yīng)用還有一定的距離。
這里主要有兩個(gè)方面需要我們思考,分別是對(duì)多模態(tài)信息的編碼表達(dá),以及跨模態(tài)思考:
首先,在處理簡(jiǎn)單的文本信息時(shí),我們使用GPT可以處理。比如我們可以將文本轉(zhuǎn)化為類(lèi)似于ABCD或12345的編碼序列,這樣的編碼序列相對(duì)容易處理。然而,對(duì)于圖像、視頻和三維世界等多模態(tài)領(lǐng)域的任務(wù),如何進(jìn)行編碼是需要解決的一個(gè)問(wèn)題。如果我們無(wú)法良好地表示每種多模態(tài)信息,以使AI能夠輕松理解,很顯然我們也無(wú)法讓AI在多模態(tài)世界中進(jìn)行思考。
跨模態(tài)思考方面,就是當(dāng)我們對(duì)不同形式的信息已經(jīng)學(xué)會(huì)了表達(dá),但如何用AI自動(dòng)將它們正確地連接起來(lái),這是一個(gè)非常有趣的問(wèn)題。如果能夠正確連接起來(lái),并結(jié)合之前提到的統(tǒng)一編碼能力,AI的邏輯推理就可以在不同模態(tài)之間進(jìn)行。
03 多模態(tài)競(jìng)爭(zhēng)取決于產(chǎn)品化速度,新入局玩家機(jī)會(huì)渺茫
科技新聞:目前谷歌和OpenAI在較量新一輪的多模態(tài)競(jìng)爭(zhēng), 您認(rèn)為在這個(gè)領(lǐng)域會(huì)呈現(xiàn)怎樣的競(jìng)爭(zhēng)趨勢(shì)?這里是否會(huì)產(chǎn)生新的機(jī)會(huì)?
王詠剛:世界范圍內(nèi),超級(jí)AI的競(jìng)爭(zhēng),大概還是會(huì)在OpenAI、Google、微軟、Meta這些巨頭間展開(kāi),還有Anthropic的Claude有一定競(jìng)爭(zhēng)力。至于目前競(jìng)爭(zhēng)最為激烈的OpenAI和Google誰(shuí)會(huì)勝出,可能取決于OpenAI后面一年內(nèi)的產(chǎn)品化速度OpenAI是否能在技術(shù)領(lǐng)先Google半步的時(shí)間窗口內(nèi),迅速將領(lǐng)先技術(shù)打造成大眾普遍接受,幾乎每人每天都會(huì)使用的產(chǎn)品。實(shí)際上,美國(guó)使用ChatGPT的人數(shù)目前還遠(yuǎn)少于使用Google搜索的人。這是OpenAI的最大劣勢(shì)。
國(guó)內(nèi)的超級(jí)大模型大概會(huì)在3-4家互聯(lián)網(wǎng)巨頭和3-4家頭部創(chuàng)業(yè)團(tuán)隊(duì)的充分競(jìng)爭(zhēng)中逐漸完成市場(chǎng)布局。新入局的通用大模型創(chuàng)業(yè)者,機(jī)會(huì)渺茫。B2B業(yè)務(wù)領(lǐng)域內(nèi)的專(zhuān)用大模型、可私有部署的大模型,會(huì)呈現(xiàn)百花齊放的局面,競(jìng)爭(zhēng)既會(huì)異常殘酷,又很難形成贏家通吃的格局。
科技新聞:從年初GPT的火爆到現(xiàn)在,十個(gè)多月的時(shí)間,入場(chǎng)大模型的玩家越來(lái)越多,您感受到國(guó)內(nèi)創(chuàng)業(yè)市場(chǎng)的競(jìng)爭(zhēng)環(huán)境是如何的?
王詠剛:在大語(yǔ)言型模型創(chuàng)業(yè)是一件非常激動(dòng)人心的事情,不論是在國(guó)內(nèi)還是國(guó)外,這個(gè)領(lǐng)域發(fā)展十分迅速,我唯一擔(dān)憂點(diǎn)是自己的時(shí)間不夠用。
目前有很多人選擇從事大模型的創(chuàng)業(yè),他們相信這些創(chuàng)業(yè)項(xiàng)目將有不同的資源和未來(lái)的發(fā)展路徑。不過(guò),大家需要相對(duì)冷靜地對(duì)待這個(gè)行業(yè)未來(lái)的發(fā)展,技術(shù)的進(jìn)步需要一個(gè)漫長(zhǎng)的過(guò)程。目前的大型模型仍然沒(méi)有達(dá)到我們期望的智能水平,沒(méi)人能準(zhǔn)確預(yù)測(cè)能達(dá)到滿意水平的時(shí)間。因此,在更長(zhǎng)的時(shí)間尺度上,我們應(yīng)該保持開(kāi)放的心態(tài),并積極擁抱這些創(chuàng)新技術(shù)。
科技新聞: 目前中國(guó)公開(kāi)發(fā)布的AI大模型數(shù)量已近百個(gè),令人眼花繚亂,創(chuàng)新工場(chǎng)作為投資機(jī)構(gòu),如何判斷一個(gè)大語(yǔ)言模型的能力和“含金量”?
王詠剛:直觀的來(lái)看,一個(gè)大模型越“聰明”,它的含金量就越高。比如說(shuō)這個(gè)模型是否具備像某個(gè)年齡段小孩的智慧,能夠與人進(jìn)行對(duì)話、推理和思考,并且可以解決問(wèn)題,這是衡量它含金量的一個(gè)重要指標(biāo)。
從科研角度來(lái)看,目前市面上的大模型有兩種主要類(lèi)型:一種是從零開(kāi)始構(gòu)建一個(gè)標(biāo)準(zhǔn)模型,該模型的能力與GPT-3.5或GPT-4相當(dāng);另一種是基于現(xiàn)有的開(kāi)源模型或開(kāi)源數(shù)據(jù),在此基礎(chǔ)上進(jìn)行增量學(xué)習(xí)或進(jìn)一步技術(shù)調(diào)整,得到適用于特定用途的模型。
從科研和未來(lái)平臺(tái)主導(dǎo)權(quán)角度看,前者含金量更強(qiáng)。雖然目前創(chuàng)業(yè)公司很多,但從頭開(kāi)始訓(xùn)練一個(gè)大模型的團(tuán)隊(duì),在全球都是相對(duì)較少的,訓(xùn)練一個(gè)大模型所需的技術(shù)難度、計(jì)算資源和資金要求非常高。目前領(lǐng)先的大語(yǔ)言模型公司,它們的融資額往往在數(shù)十億美元甚至數(shù)百億美元級(jí)別。
反過(guò)來(lái)說(shuō),從商業(yè)角度或產(chǎn)品開(kāi)發(fā)角度來(lái)看,含金量則變成了另一個(gè)問(wèn)題,含金量最高的模型是最能夠滿足用戶需求的模型。例如考慮一個(gè)完全私有領(lǐng)域的情況,該領(lǐng)域需要解決的是專(zhuān)用領(lǐng)域的數(shù)據(jù),因?yàn)閷?zhuān)用領(lǐng)域的數(shù)據(jù)往往是封閉的,甚至大模型產(chǎn)品如GPT或Google的Bard可能都沒(méi)有接觸過(guò)。在這種情況下,引入GPT這樣的大型模型顯然不合適。相比之下,基于一個(gè)相對(duì)較小的開(kāi)源模型、假設(shè)協(xié)議允許的話,將領(lǐng)域數(shù)據(jù)集合到該模型中進(jìn)行增強(qiáng)訓(xùn)練,可能得到領(lǐng)域相關(guān)的含金量最高的結(jié)果。因此,從科研和商業(yè)兩個(gè)角度來(lái)評(píng)估并選擇最合適的模型。
科技新聞:從投資人的角度看,您認(rèn)為大語(yǔ)言模型的行業(yè)價(jià)值主要體現(xiàn)在哪些方向?
王詠剛:從創(chuàng)業(yè)市場(chǎng)來(lái)看,新一代AI技術(shù)驅(qū)動(dòng)的公司,可以大致分為基礎(chǔ)模型層、架構(gòu)層和應(yīng)用層。
目前,基礎(chǔ)模型層維度,大語(yǔ)言模型的創(chuàng)業(yè)公司融資熱度很高,但除了大語(yǔ)言模型,基礎(chǔ)模型層還涉及多模態(tài)模型和其他技術(shù)模型層,這些領(lǐng)域的創(chuàng)業(yè)者都有機(jī)會(huì)擁抱技術(shù)趨勢(shì)和商業(yè)落地的更多可能;架構(gòu)層則需要關(guān)注如何更好地發(fā)揮基礎(chǔ)模型層的價(jià)值,將其應(yīng)用到實(shí)際場(chǎng)景中,包括編程框架、訓(xùn)練框架和推理框架、相關(guān)的云服務(wù)等,這些領(lǐng)域具有良好的創(chuàng)業(yè)潛力;在應(yīng)用層,可以大致分為企業(yè)端和非專(zhuān)業(yè)端(個(gè)人或普通用戶)的應(yīng)用,也可以分別被稱(chēng)為是B2B端和B2C端,我們也在關(guān)注其中的產(chǎn)品邏輯和技術(shù)應(yīng)用。
從投資機(jī)會(huì)來(lái)說(shuō),在基礎(chǔ)模型層方面,就大語(yǔ)言模型而言,中國(guó)已經(jīng)進(jìn)入到了“百模大戰(zhàn)”的賽馬賽程的中后段,能真正跑出來(lái)的公司預(yù)計(jì)屈指可數(shù),因此是一個(gè)風(fēng)險(xiǎn)與收益同樣都很巨大的賽道。相對(duì)而言,中間(架構(gòu)層)與應(yīng)用層的投資機(jī)會(huì)可能會(huì)更多,我們可探索B端和C端應(yīng)用的細(xì)分賽道的未來(lái)投資機(jī)會(huì)。
書(shū)籍《AI我知道》 王詠剛著