一貫堅持開源的 Meta 也會被業(yè)內(nèi)人士狂噴。
開放源代碼促進會負責人 Stefano Maffulli 就曾公開斥責 Meta,稱用“open”描述Llama模型,是在混淆用戶和污染“open”。
在大眾的認知中,“open”通常意味著透明、共享和合作,尤其是在開源軟件領域。然而,在人工智能(AI)領域,“open”一詞卻帶來了許多模糊性和爭議。事實上,AI 行業(yè)資源高度集中,“open”的真正意義和影響值得深入探討。
那么,我們究竟該如何理解“open”呢?
在一篇發(fā)表在權(quán)威科學期刊 Nature 上的文章中,科學家們系統(tǒng)地剖析了“open” AI 的定義、實質(zhì)特征與局限性。
“‘open’ AI 這個術(shù)語被廣泛使用,但其實際涵義并不明確。我們發(fā)現(xiàn),當代 AI 系統(tǒng)的開發(fā)和應用依賴于高度集中的資源,即便標榜“open”的 AI,其透明性、可重用性和可擴展性仍然受到資源壟斷的限制!毖芯咳藛T在文章中寫道。
他們通過分析“open” AI 的當前生態(tài),探討了其對資源共享、技術(shù)創(chuàng)新和市場競爭等的深遠影響,同時呼吁對其經(jīng)濟政治背景進行更深入的反思和措施介入。
什么是“open” AI?
AI 的定義自其誕生以來就充滿爭議。在 70 多年的歷史中,AI 這個詞被應用于各種不同的技術(shù)方法,與其說是一個嚴謹?shù)募夹g(shù)術(shù)語,不如說是一種營銷概念和對未來愿景的表達。
近年來,AI 的定義傾向于描述基于概率的大型機器學習系統(tǒng),尤其是生成式 AI,如大語言模型(LLM)。這些系統(tǒng)因其生成自然語言文本或圖像的能力而廣受關(guān)注。
類似的,“open”這一概念也在 AI 領域被頻繁誤用和擴展。傳統(tǒng)意義上的“open”源于開源軟件運動,具有透明性、可重用性、公平性的理念特征,但將這些理念直接應用于現(xiàn)代 AI,特別是生成式 AI 時,面臨著以下挑戰(zhàn):
模型復雜性與黑箱性:現(xiàn)代 AI 系統(tǒng)由龐大的神經(jīng)網(wǎng)絡組成,僅公開模型權(quán)重和代碼,不足以完全揭示其運作機制。
資源依賴性:這些模型的開發(fā)和訓練需要昂貴的計算力和數(shù)據(jù),這些資源通常由少數(shù)大公司控制。
技術(shù)應用的不對等性:“open”的模型可能會被濫用,而原開發(fā)者在這些問題上難以施加影響。
文章指出,當前一些所謂的“open AI”模型僅提供部分模型權(quán)重或受限制的 API,這種做法更接近“開放洗白”(openwashing),與真正的 open 相去甚遠。
同時,文章強調(diào),即便 AI 系統(tǒng)實現(xiàn)了更大的透明性或可用性,也不意味著行業(yè)權(quán)力格局會因此發(fā)生顯著變化。AI 開發(fā)的資源成本(如計算力和數(shù)據(jù)獲。┤约杏谏贁(shù)大企業(yè)手中,使得市場競爭更加不均衡。
“open”AI 的優(yōu)勢與局限
文章作者也對“open”AI 帶來的三個關(guān)鍵優(yōu)勢進行了逐一剖析,并客觀闡明了其潛力與局限性,指明盡管“open”AI 提供了關(guān)鍵優(yōu)勢,特別是在資源共享、技術(shù)創(chuàng)新和數(shù)據(jù)使用方面,但這些優(yōu)勢并未能真正打破由少數(shù)大公司主導的行業(yè)格局。
1. 透明性
透明性是“open”AI 最受關(guān)注的特性之一。一些 AI 模型會公開訓練數(shù)據(jù)、權(quán)重或相關(guān)文檔,允許研究人員驗證系統(tǒng)行為,但透明性本身無法完全解答系統(tǒng)的復雜行為。例如,大模型的“涌現(xiàn)”(emergent)往往難以預測,僅僅知道模型權(quán)重或代碼并不能全面理解其運行原理。因此,文章呼吁理性看待透明性的價值,特別是在 AI 系統(tǒng)的行為責任問題上。
2. 可重用性
“open”AI 通常允許第三方在已有的模型或數(shù)據(jù)基礎上進行再利用。公開許可的數(shù)據(jù)和模型權(quán)重,以及經(jīng)常使用傳統(tǒng)的開源許可來提供這些數(shù)據(jù),為“open”AI 將對市場競爭產(chǎn)生固有積極影響的說法提供了依據(jù)。
然而,市場訪問仍然是一種受限制的資源。即使是有資源的參與者,他們擁有創(chuàng)建大規(guī)模模型的資金、人才和數(shù)據(jù),也不總是有明確的方法來部署這些模型或確保投資回報,這是由于市場訪問存在重大瓶頸。
3. 可擴展性
“open”AI 的可擴展性表現(xiàn)在其支持用戶基于基礎模型進行微調(diào),從而將模型適配于特定領域或任務。這是公司支持“open”AI 的關(guān)鍵特征,在很大程度上是因為,“擴展”現(xiàn)成模型的工作也為那些可能想要重新利用微調(diào)模型的人提供了免費的產(chǎn)品開發(fā)。
擴展“open”AI 模型意味著從事這項工作的人不會從一張白紙開始。他們采用了一個已經(jīng)經(jīng)過艱苦且昂貴的訓練的大模型,并調(diào)整其參數(shù),通常在進一步的數(shù)據(jù)上進行訓練,通常是專門的數(shù)據(jù),以適應特定領域或任務的性能。
資源與權(quán)力分配問題
盡管“open”AI 這個概念聽起來充滿潛力,但 AI 系統(tǒng)的開發(fā)和應用依賴于一系列高度集中的關(guān)鍵資源,包括模型、數(shù)據(jù)、勞動力、算力和開發(fā)框架。這些資源不僅決定了技術(shù)的可用性,也深刻影響著市場競爭和權(quán)力分配的格局。
具體而言,在“open”AI 的討論中,AI 模型是最直觀的焦點。近年來,像 Meta 的 Llama 3 和 BigScience 的 BLOOM 等 AI 模型雖一直在標榜自身“open”,但這些“open”模型的實際作用卻非常有限。許多模型僅提供 API 接口,并不能讓用戶真正了解其內(nèi)部機制或進行修改。即便是那些較為透明的模型,也依賴于企業(yè)獨占的訓練資源,其他開發(fā)者難以復制這些資源,從而無法平等參與競爭。
在 AI 系統(tǒng)中訓練數(shù)據(jù)同樣至關(guān)重要,但許多開源模型并未完全公開其訓練數(shù)據(jù)的來源和處理方式,這一不透明極大限制了外界對模型的驗證。此外,采集高質(zhì)量數(shù)據(jù)往往需要巨大的成本和資源,而這通常只有少數(shù)大型企業(yè)能夠承擔,這進一步鞏固了它們在行業(yè)中的主導地位。
在 AI 領域,除了模型與數(shù)據(jù)外,勞動力同樣是關(guān)鍵資源之一,尤其是訓練和開發(fā)這些復雜模型的高技能人才。然而大型科技公司不僅掌握著計算能力和數(shù)據(jù)資源,同時也主導著 AI 研究和開發(fā)所需的頂級人才市場。
與此同時,算力也是一項受壟斷的關(guān)鍵資源。AI 訓練需要大量的計算資源,而像英偉達這樣的企業(yè)幾乎壟斷了高性能 GPU 市場。即使模型或代碼被公開,運行這些模型的計算成本依然高昂,導致中小型開發(fā)者無法參與競爭。一些計算框架(如英偉達的 CUDA)也進一步強化了技術(shù)壟斷,使得開源模型仍然依賴于特定的計算生態(tài),限制了其實際應用范圍。
此外,在開發(fā)框架方面,一些開發(fā)框架諸如 Meta 的 PyTorch 和 Google 的 TensorFlow 雖然是開源的,但它們的設計和控制權(quán)掌握在少數(shù)大公司手中,這些公司不僅定義了技術(shù)標準,還通過構(gòu)建自己的生態(tài)系統(tǒng)進一步鞏固了市場主導地位。
總而言之,“open”AI 雖然在透明度與共享方面具有一定價值,但無法單獨解決 AI 領域權(quán)力集中與資源不平等的問題。當前的開放性討論更多地被大公司用作規(guī)避監(jiān)管和爭奪市場的工具,如果想要真正改變現(xiàn)狀則需要有更強有力的措施介入,包括反壟斷執(zhí)法和數(shù)據(jù)隱私保護,否則僅僅追求開放性不太可能帶來多大益處。
未來,各方應更加關(guān)注 AI 的實際影響,而非僅局限于開放與封閉的概念之間,只有開展多維度的政策和技術(shù)實踐才能構(gòu)建出更公平、更負責任的 AI 生態(tài)系統(tǒng)。