圖片系AI生成
當前,大模型最顯著的特征之一就是參數(shù)量呈指數(shù)級增長。根據(jù)Scaling Law(尺度定律)的規(guī)則,人工智能神經網絡的參數(shù)量越多,模型越大,對于知識的總結歸納和推理泛化能力就越強。因而,從ChatGPT出現(xiàn)驗證了“涌現(xiàn)”能力,到如今的兩年里,業(yè)內首要關注的就是算力,怎樣突破硬件算力,怎樣以盡可能少的Token數(shù)量訓練好一個模型。但在這一顯著挑戰(zhàn)之外,數(shù)據(jù)量猛增帶來的數(shù)據(jù)存儲,可能是僅次于算力的另一大技術難點。
大模型“卷”向存儲
年初,一位長期關注AI大模型應用的CTO與鈦媒體APP交流中表示:“企業(yè)使用外部數(shù)據(jù)訓練大模型,長文本是關鍵思路之一。但問題是,長文本處理特別消耗內存和硬件,因為模型訓練和推理的內存變大,模型效果才能更好。這也導致在其每次查詢的成本高于GPT-4,而后者基于微調。這不是ToB企業(yè)能夠負擔得其起的!
他對鈦媒體APP解釋:微軟提出了大模型的“不可能三角”,如果希望模型的微調能力很強,那么模型參數(shù)就不會很大,或者小樣本的學習能力不會很強。長文本的邏輯是,讓小樣本學習的能力變強,同時放棄微調,這樣模型參數(shù)肯定就會相應擴大。
彼時,正值國內長文本熱潮。除了最早的Kimi,阿里巴巴、百度、360等眾多廠商相繼宣布進軍長文本,從最初的可處理200萬字上下文,迅速擴張至1000萬字長文本能力。而在這股熱潮中,也同樣遺留了諸多待解決的問題。
根據(jù)技術博客Medium上一位AI工程師Szymon Palucha的記錄:
以阿里開源的Qwen2-7B(7億參數(shù))大模型為例。目前GPU顯存大小基本在80GB(以英偉達A100為例),那么如果拿不到更好的A100時,他根據(jù)公式:參數(shù)模型內存=7B*32位=7B*32/8字節(jié)=28B字節(jié)=28GB,測算出運行該模型至少還需要28GB內存,這還不算推理過程中對存儲產生的額外開銷。
為此,最簡單的辦法是降低參數(shù)精度,因為現(xiàn)在多數(shù)大模型可以半精度使用,而不會顯著影響準確性。這意味著大模型在實際運行時,需要一定的內存或存儲空間來存儲和處理數(shù)據(jù),大模型所需的內存量會根據(jù)上下文窗口的大小而變化。窗口越大,所占用的內存也就越多。
鈦媒體注意到,這也是當下大模型應用廠商在破解算力問題之外,遇到的另一大技術困難點,去年還沒有太多人關注數(shù)據(jù)量猛增帶來的數(shù)據(jù)存儲、內存帶寬、時延等一系列問題。并且隨著需求的爆發(fā),已經帶來一些技術側產品側的演進。
支持萬卡算力和萬億參數(shù)LLM,存儲兩道檻
目前全球的科技巨頭都在布局萬卡算力集群和萬億參數(shù)規(guī)模的大模型訓練,對于這些集群而言,高性能的計算、存儲和網絡缺一不可。從存儲層面來看如何提供支撐?一是要至少達到TB級帶寬、百萬級IOPS的存儲性能,未來可能會演變?yōu)閿?shù)十TB、上億級IOPS的需求;二是要提升數(shù)據(jù)跨域調度、數(shù)據(jù)安全、數(shù)據(jù)可持續(xù)性訪問等能力。
回顧過去兩年間大模型帶來的存儲挑戰(zhàn),可以從三個階段總結:
2022年初:大模型爆發(fā)初期,國內有超過100家的大模型公司開始迅速進行市場布局。在這個階段,模型訓練追求的就是“快”,通過IT基礎設施的方案優(yōu)化,有效地提升GPU效率,加速模型的訓練并得到市場認可,即可搶占市場先機。
為此,模型訓練的數(shù)據(jù)加載、模型訓練過程中的斷點續(xù)訓要盡可能地降低對計算時間的占用,在萬卡算力集群萬億參數(shù)的大模型的快速訓練時,小于1分鐘斷點續(xù)訓,需要存儲提供TB級的帶寬,同時小模型的訓練推理則對IOPS提出更高要求,存儲系統(tǒng)需提供超過百萬級的IOPS。
2023年底到2024年初:隨著模型在各行業(yè)落地的需求,在很多的行業(yè)場景里,行業(yè)數(shù)據(jù)缺少積累,過去分散在各終端、地域數(shù)據(jù)的夸協(xié)議、夸地域高效率共享整合。這就要求存儲具備數(shù)據(jù)跨域調度,通過異構納管實現(xiàn)全局命名空間管理,提升數(shù)據(jù)匯集、分析的效率。
2024年下半年開始:模型的真實落地,對數(shù)據(jù)質量要求更高,語料公司需要將數(shù)據(jù)匯集并進行精加工。大模型的行業(yè)化落地過程中,為了提升通用模型的專業(yè)化能力,訓練出精度更高的模型,要求有更高質量的數(shù)據(jù)集。為得到高質量數(shù)據(jù),原始數(shù)據(jù)要經過粗加工、精加工等多個作業(yè)環(huán)節(jié)。這個階段,對數(shù)據(jù)的安全存儲和數(shù)據(jù)可持續(xù)性訪問提出了更高要求。
浪潮信息存儲產品線副總經理劉希猛指出,模型參數(shù)量、訓練數(shù)據(jù)量、GPU算力、網卡性能、GPU規(guī)模近些年均在飛速增長,原有存儲不足以應對AI的快速發(fā)展。無論是海量訓練數(shù)據(jù)加載、PB級檢查點斷點續(xù)訓,還是高并發(fā)推理問答等,存儲性能直接決定了整個訓練推理過程中的GPU利用率。特別在萬卡集群規(guī)模下,較差的存儲性能會嚴重增加GPU閑置時間,導致模型落地困難、業(yè)務成本劇增。因此,現(xiàn)代存儲已經由傳統(tǒng)的數(shù)據(jù)載體和數(shù)據(jù)倉儲,轉化為AI發(fā)展的關鍵組件。存儲系統(tǒng)正逐漸演進到提供更高的吞吐量,更低的時延,更高效的數(shù)據(jù)管理。
AI存儲何時爆發(fā)?
既然針對AI場景的存儲系統(tǒng)在前幾年并沒有得到太多重視,從需求側,何時會迎來新的爆發(fā)點?“過去一年,存儲的增量市場基本全部來自于AI場景!眲⑾C蛯︹伱襟wAPP解釋。
如果將未來的AI市場分為大致兩類:一類是AI產業(yè)化的市場,在AI產業(yè)化進程中,更多的關注點可能集中在了模型訓練,緊隨其后的是語料生產,然后是算法優(yōu)化。那么,存儲首先就會在模型訓練、語料生產領域產生價值,特別是語料,從今年開始就已有跡象,并在接下來兩年里實現(xiàn)快速增長。
在劉希猛看來,從目前來看,大模型訓練中最緊缺的是數(shù)據(jù),各行業(yè)在可能都會開始著手收集各自領域的數(shù)據(jù),并進行相應的數(shù)據(jù)加工處理。算力方面,盡管有人認為算力建設已接近泡沫階段,甚至有些用力過猛。這一判斷可能在一定程度上具有方向性的正確性。接下來,算力的發(fā)展可能會進入一個相對平穩(wěn)的階段。
第二類是產業(yè)的AI化,即大模型真正落地到行業(yè)并產業(yè)實際價值,可以觀察到一些領域已經先行一步。例如,金融領域的量化交易、證券交易,在科研領域,AI也開始被用來輔助科研工作。此外,制造業(yè)也是AI應用的一個重要領域。這兩方面都會對AI存儲市場帶來比較好的促進作用。
劉希猛還指出,當前AI存儲面臨的挑戰(zhàn)尚未完全解決,若繼續(xù)向前發(fā)展,其實還是要從性能、效率以及可靠性三方面入手。一是高性能,以解決混合AI負載對存儲讀寫帶寬、IOPS,以及低時延的要求;二是高效率,通過存儲支持文件、對象、大數(shù)據(jù)等非結構化協(xié)議融合互通,全局命名空間等,減少多份數(shù)據(jù)重復存儲,以及數(shù)據(jù)夸協(xié)議、夸區(qū)域、夸系統(tǒng)調度檢索的問題;三是高韌性,通過故障的快速恢復、故障前的精準預測降低系統(tǒng)異常時的性能影響,以及服務的連續(xù)性,同時強化數(shù)據(jù)保護與安全防護能力,保證數(shù)據(jù)的完整、一致、持續(xù)可訪問。
目前國內外在建千卡集群、萬卡集群,且未來可能還會出現(xiàn)更大規(guī)模的集群。想要達到同等算力,若是采用國產GPU,可能需要不僅達到十萬卡規(guī)模,而是更為龐大的集群。
隨著集群規(guī)模的擴大,除了存儲本身面臨的挑戰(zhàn)外,還將帶來存儲整體方案的挑戰(zhàn)。這涉及從存儲到前端網絡,再到算力節(jié)點的整個鏈條。其中,網絡的選擇成為一個關鍵問題。國內之所以更多地使用RoCE網絡,是因為國內的集群規(guī)模需求更大,而IB網絡在擴展規(guī)模上有所限制。RoCE網絡與存儲及上層之間的協(xié)同性,尤其是超大規(guī)模集群的協(xié)同性上,可能會成為新的關注點。
鈦媒體注意到,RDMA(Remote Direct Memory Access)全稱遠程內存直接訪問技術,是一種數(shù)據(jù)傳輸技術。目前算力集群對網絡的建設在2022年之前基本會選擇“二層虛擬網絡”,隨著AI應用的爆發(fā),2023年至今已經在嘗試智能無損網絡和以太網,并且往往圍繞性能、成本、生態(tài)系統(tǒng)和兼容性等方面進行權衡。RoCE就是一項基于以太網的RDMA技術。
甲骨文公司中國區(qū)技術咨詢部高級總監(jiān)嵇小峰與鈦媒體APP交流中同樣指出,大規(guī)模集群除了GPU數(shù)量多之外,同時具備網絡低延時和高帶寬的特性。從基礎設施角度來看,大量GPU集中部署會帶來供電和冷卻方面的巨大挑戰(zhàn)。同時,在訓練過程中,對存儲的需求同樣至關重要。因為訓練往往涉及成千上萬塊GPU的協(xié)同作業(yè),一旦有少數(shù)GPU(如一塊或兩塊)出現(xiàn)故障,整個訓練進度可能會因此延誤。
例如,今年9月亮相的Oracle Zettascale算力集群,目前可提供13萬多顆GPU,相當于可提供2.4 ZFLOPS的云端算力。為進一步增強網絡的低延遲和高帶寬,Oracle采用支持兩種網絡協(xié)議:InfiniBand和RoCEv2,這是一種增強版的以太網。這兩種技術均具備一種核心繞行機制,能讓網絡流量避開常規(guī)路徑中必須穿越的某些組件,以實現(xiàn)更迅速的傳輸至目標地。這樣的設計促進了數(shù)據(jù)更快地抵達GPU,進而提升了處理效率。
隨著AI存儲需求的不斷涌現(xiàn),包括GPU、模型架構、存儲解決方案及網絡技術的各大廠商,正紛紛加速布局,力求在構建超大規(guī)模集群的浪潮中搶占先機。(本文首發(fā)于鈦媒體APP,作者 | 楊麗,編輯 | 蓋虹達)