AIxiv專欄是機器之心發(fā)布學術、技術內(nèi)容的欄目。過去數(shù)年,機器之心AIxiv專欄接收報道了2000多篇內(nèi)容,覆蓋全球各大高校與企業(yè)的頂級實驗室,有效促進了學術交流與傳播。如果您有優(yōu)秀的工作想要分享,歡迎投稿或者聯(lián)系報道。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com
Jiajun Xu : Meta AI科學家,專注大模型和智能眼鏡開發(fā)。南加州大學博士,Linkedin Top AI Voice,暢銷書作家。他的AI科普繪本AI for Babies (“寶寶的人工智能”系列,雙語版剛在國內(nèi)出版) 暢銷硅谷,曾獲得亞馬遜兒童軟件、編程新書榜榜首。
Zhiyuan Li : Nexa AI CTO,斯坦福校友,前斯坦福CEO協(xié)會主席, Octopus系列論文作者。他在 Google Labs 和 Amazon Lab126 擁有豐富的端側(cè) AI 模型訓練、部署和產(chǎn)品開發(fā)經(jīng)驗。
Wei Chen : Nexa AI CEO,斯坦福博士,前斯坦福CEO協(xié)會主席。他深耕人工智能領域,先后發(fā)表多篇Octopus系列模型論文,其中Octopus-V2模型曾在huggingface全球60萬模型中位列第二,并在Google 2024 IO上被feature。
Qun Wang : 舊金山州立大學計算機系助理教授,曾在勞倫斯伯克利國家重點實驗室做博后,猶他州立大學博士。研究方向主要集中在下一代通信網(wǎng)絡中邊緣計算的能效和安全優(yōu)化,以及邊緣智能系統(tǒng)的通信和訓練加速。先后在IEEE發(fā)布多篇論文。
Xin Gao, Qi Cai : 北德州大學博士生
Ziyuan Ling : Nexa AI 初創(chuàng)設計師,伯克利設計系研究生
1 序言:邊緣智能的新紀元
在人工智能的飛速發(fā)展中,大型語言模型(LLMs)以其在自然語言處理(NLP)領域的革命性突破,引領著技術進步的新浪潮。自 2017 年 Transformer 架構(gòu)的誕生以來,我們見證了從 OpenAI 的 GPT 系列到 Meta 的 LLaMA 系列等一系列模型的崛起,它們不僅在技術層面上不斷刷新我們對機器理解與生成人類語言能力的認知,更在實際應用中展現(xiàn)出巨大的潛力和價值。
然而,這些模型傳統(tǒng)上主要部署在云端服務器上,這種做法雖然保證了強大的計算力支持,卻也帶來了一系列挑戰(zhàn):網(wǎng)絡延遲、數(shù)據(jù)安全、持續(xù)的聯(lián)網(wǎng)要求等。這些問題在一定程度上限制了 LLMs 的廣泛應用和用戶的即時體驗。正因如此,將 LLMs 部署在端側(cè)設備上的探索應運而生,它不僅能夠提供更快的響應速度,還能在保護用戶隱私的同時,實現(xiàn)個性化的用戶體驗。
隨著技術的不斷進步,邊緣 AI 市場的全球規(guī)模正以驚人的速度增長。預計從 2022 年的 152 億美元增長到 2032 年的 1436 億美元,這一近十倍的增長不僅反映了市場對邊緣 AI 解決方案的迫切需求,也預示著在制造、汽車、消費品等多個行業(yè)中,邊緣 AI 技術將發(fā)揮越來越重要的作用。
圖 1:2022 年至 2032 年按終端用戶劃分的端側(cè) AI 全球市場規(guī)模(單位:十億美元)。
在這樣的背景下,本綜述文章深入探討了在邊緣設備上部署 LLM 的策略和進展。我們將詳細分析模型壓縮技術、能效計算策略以及輕量級模型架構(gòu)的創(chuàng)新設計。此外,文章還將討論硬件加速策略、邊緣 - 云協(xié)同部署方法,并重點介紹在邊緣場景中有效利用 LLM 的部署策略,以及這些技術在行業(yè)中的應用實例和帶來的益處。
論文標題:On-Device Language Models: A Comprehensive Review
論文鏈接:https://arxiv.org/abs/2409.00088
相關鏈接:LLMsOnDevice.com
通過本綜述,我們希望為讀者提供一份關于如何在端側(cè)設備上部署和優(yōu)化 LLMs 的全面指南,同時指出當前研究的方向和面臨的挑戰(zhàn),為未來的技術發(fā)展提供參考和啟示。我們相信,通過跨學科的共同努力,我們能夠?qū)崿F(xiàn)智能計算的普及。
圖 2:本篇綜述結(jié)構(gòu)
2 技術進展:探索端側(cè) LLMs 部署
在人工智能的浪潮中,端側(cè)大型語言模型(On-Device LLMs)正以其迅猛的發(fā)展速度和廣泛的應用前景,成為技術革新的新寵。自 2023 年起,隨著參數(shù)量低于 10B 的模型系列如 Meta 的 LLaMA、Microsoft 的 Phi 系列等的涌現(xiàn),我們見證了 LLMs 在邊緣設備上運行的可行性和重要性。這些模型不僅在性能上取得了長足的進步,更通過混合專家、量化和壓縮等技術,保持了參數(shù)量的優(yōu)化,為邊緣設備的多樣化應用場景提供了強大支持。
進入 2024 年,新模型的推出愈發(fā)密集,如圖 3 所示,Nexa AI 的 Octopus 系列、Google 的 Gemma 系列等,它們不僅在文本處理上有所增強,更在多模態(tài)能力上展現(xiàn)了新的可能性,如結(jié)合文本與圖像等多模態(tài)輸入,以適應更復雜的用戶交互需求。
圖 3:on-device LLM 的演進,展示了自 2023 年以來的重要模型和發(fā)展里程碑。
然而,要在資源受限的設備上部署這些強大的模型,我們必須面對內(nèi)存和計算能力的雙重挑戰(zhàn)。研究者們通過量化感知縮放、稀疏更新等創(chuàng)新方法,有效解決了這些問題,使得大型模型即便在參數(shù)量巨大的情況下,也能在設備端高效運行。
相較于完全依賴云端的 LLM 服務,端側(cè)推理的優(yōu)勢顯而易見。它不僅減少了數(shù)據(jù)傳輸?shù)难舆t,更保護了用戶數(shù)據(jù)的隱私安全。圖 4 的投票分布顯示,大多數(shù)參與者更傾向于邊緣云協(xié)作的架構(gòu),對現(xiàn)有僅云端的解決方案并不滿意。端側(cè)推理的低延遲特性,尤其適用于需要實時響應的應用場景,如 Google 的 Gemini Nano 支持的 TalkBack 功能,即便在完全離線的情況下也能正常工作。
圖 4:用戶對不同 LLM 部署方式的偏好情況
衡量端側(cè) LLMs 性能的指標包括延遲、推理速度、內(nèi)存消耗等。這些指標直接關系到模型在邊緣設備上的實際運行效果,以及用戶的使用體驗。隨著技術的不斷成熟,我們期待這些性能指標能得到進一步的優(yōu)化,使得端側(cè)大語言模型能在更多場景下發(fā)揮其潛力。
3 架構(gòu)創(chuàng)新:優(yōu)化邊緣設備的性能
在智能手機和邊緣設備上部署大型語言模型(LLMs)正成為人工智能領域的新挑戰(zhàn)。面對有限的內(nèi)存和計算能力,研究者們提出了一系列創(chuàng)新的架構(gòu)設計原則和方法,旨在實現(xiàn)資源的高效利用和性能的最大化。架構(gòu)創(chuàng)新變得尤為關鍵,其中包括參數(shù)共享、模塊化設計以及緊湊的表示形式。例如,MobileLLM 通過深度和瘦長的模型結(jié)構(gòu)優(yōu)化了參數(shù)量在十億以下的模型,而 EdgeShard 框架則通過邊緣云協(xié)作計算實現(xiàn)了模型的分布式處理,顯著降低了延遲并提高了吞吐量。
同時,模型壓縮與參數(shù)共享技術的應用,如 AWQ 方法和 MobileLLM,不僅減少了模型尺寸,還在保持性能的同時加快了推理速度。這些技術通過保護關鍵權(quán)重和優(yōu)化模型結(jié)構(gòu),為 LLMs 在端側(cè)的部署提供了新的可能性。協(xié)作和層次化模型方法通過分散計算負載和利用不同能力模型的組合,解決了資源受限設備的部署難題。EdgeShard 和 LLMCad 的研究成果展示了這種方法的有效性,它們通過在多個設備上分配計算任務,提升了 LLMs 的可擴展性和效率。
在內(nèi)存和計算效率的優(yōu)化方面,Samsung Electronics 提出的 PIM 和 PNM 技術,以及 MELT 基礎設施,都顯著提升了內(nèi)存帶寬和容量,同時降低了能耗,為 LLMs 的移動部署鋪平了道路。MoE 架構(gòu)的應用,如 EdgeMoE 和 LocMoE,通過稀疏激活和動態(tài)路由,進一步提高了 LLMs 的效率。這些方法通過優(yōu)化專家網(wǎng)絡的選擇和路由,減少了模型的內(nèi)存占用和提高了計算速度。
此外,總體效率和性能提升的研究,如 Any-Precision LLM 和 LCDA 框架,通過提供多精度支持和軟硬件協(xié)同設計,為 LLMs 在邊緣設備上的高效運行提供了新的視角。隨著這些創(chuàng)新技術的迅速發(fā)展,我們期待在移動設備和邊緣設備上享受到與云端相媲美的智能體驗,這將為用戶帶來更加快速、個性化的服務,同時確保數(shù)據(jù)的安全性和隱私保護。智能邊緣計算的未來正變得愈發(fā)清晰,它將為人工智能領域帶來深遠的影響和無限的可能性。
4 模型壓縮:平衡性能與效率
在邊緣設備上部署大型語言模型(LLMs)時,保持性能的同時提升計算效率尤為關鍵。本文綜述了四種關鍵的模型壓縮技術:量化、剪枝、知識蒸餾和低秩分解,這些方法通過在性能、內(nèi)存占用和推理速度之間找到平衡,確保了 LLMs 在端側(cè)應用的可行性。
量化是一種通過降低模型權(quán)重和激活的精度來減少模型大小的技術。這種方法能夠在幾乎不損失模型性能的情況下,顯著減少模型所需的存儲空間和計算資源。后訓練量化(PTQ)是一種在模型訓練完成后應用的技術,它通過一些先進的補償策略,如 GPTQ,可以在將模型權(quán)重量化到 3 或 4 位的情況下,保持模型的高準確度。而量化感知訓練(QAT)則將量化集成到模型的訓練過程中,使模型在訓練時就適應低精度的約束,從而在量化后保持更高的準確度。
剪枝是另一種通過減少模型復雜性來提升計算效率的方法。結(jié)構(gòu)化剪枝通過移除模型中的整個參數(shù)子集,如層、通道或過濾器,來優(yōu)化硬件性能。無結(jié)構(gòu)化剪枝則在更細的粒度上工作,移除單個權(quán)重,提供更高的壓縮率。此外,上下文剪枝根據(jù)模型的運行上下文動態(tài)地移除權(quán)重,確保在不同條件下都能保持最優(yōu)的性能。
知識蒸餾是一種將大型模型的知識遷移到小型模型的技術。黑盒 KD 只使用教師模型的輸出進行學習,而白盒 KD 則允許學生模型訪問教師模型的內(nèi)部狀態(tài),實現(xiàn)更深入的學習。這種方法可以在不犧牲性能的情況下,顯著減少模型的大小和計算需求。
低秩分解是一種將大型矩陣分解為較小矩陣的技術。這種方法利用了矩陣的低秩結(jié)構(gòu),減少了計算復雜性,同時保持了模型的準確性。Yao 等人的研究將 LRF 與 PTQ 結(jié)合,提出了低秩補償(LoRC),在顯著減少模型大小的同時,通過補償策略保持了模型的準確性。
5 硬件加速:推動端側(cè) LLMs 的高效運行
硬件加速器在大型語言模型(LLMs)的端側(cè)部署中扮演著至關重要的角色。GPU 和 TPU 等專用硬件提供了強大的計算能力和高內(nèi)存帶寬,它們是訓練和加速 LLMs 的重要基矗NVIDIA 的 Tensor Cores 以及 Google TPU 的高效矩陣乘法能力,都為基于 Transformer 的模型提供了強有力的支持。同時,F(xiàn)PGA 以其靈活性,通過稀疏矩陣乘法和量化技術,在 Transformer 層的推理任務中展現(xiàn)出高效能,為特定模型架構(gòu)提供了定制優(yōu)化的可能。
軟硬件協(xié)同設計的方法,如量化感知訓練和模型壓縮,進一步提升了 LLMs 的效率,使得它們能夠跨越從高功率服務器到低功率邊緣設備的廣泛部署。這些技術通過參數(shù)共享和先進的內(nèi)存管理,減少了模型的存儲需求,確保了快速且成本效益更高的部署。此外,各種框架如 Llama.cpp、MNN、PowerInfer 等,根據(jù)不同的硬件平臺和用例需求,提供了優(yōu)化的部署策略,從而實現(xiàn)從云端到邊緣的無縫協(xié)作。
在邊緣云部署方面,MLC-LLM 和 VLLM 等技術通過支持高效的量化方法和關鍵內(nèi)存管理,優(yōu)化了 LLMs 在邊緣設備和云環(huán)境中的部署。OpenLLM 等項目通過 BentoML 等工具,實現(xiàn)了開源 LLMs 的快速部署,提供了與 OpenAI 兼容的 API 服務。隨著硬件技術的不斷進步,如 NVIDIA A100 GPU 和 Google TPU v4,我們看到了端側(cè) LLMs 性能的顯著提升,這些硬件不僅提供了巨大的計算能力,還通過混合精度訓練等技術,大幅減少了模型的內(nèi)存占用并提高了計算效率。
6 實例與應用:端側(cè) LLMs 的實踐探索
端側(cè)語言模型的實例:Gemini Nano 模型通過 Google AI Edge SDK 為移動操作系統(tǒng)提供了一個小型但功能強大的 LLM,它通過 4 位量化部署,提供了一流的性能和低延遲的推理速度。Nexa AI Octopus 系列模型則在邊緣設備上運行,以超越 GPT-4 的準確性和延遲,同時減少了 95% 的上下文長度。Apple 的 OpenELM 和 Ferret-v2 模型通過 iOS 集成,提供了類似系統(tǒng)服務的功能擴展。Microsoft 的 Phi 系列,特別是 Phi-3-mini 模型,即使在移動部署中也展現(xiàn)出與大型模型相媲美的性能。此外,MiniCPM-Llama3-V 2.5 和 Gemma2-9B 等開源模型也在各自的領域內(nèi)展現(xiàn)出卓越的性能。
端側(cè)大語言模型的應用:端側(cè) LLMs 的應用范圍極為廣泛,從即時消息生成、實時語言翻譯、會議摘要到醫(yī)療咨詢、科研支持、陪伴機器人、殘障人士輔助以及自動駕駛等。例如,Google 的 Gboard 應用利用 Gemini Nano 模型提供基于聊天內(nèi)容的快速回復建議。在翻譯領域,端側(cè)模型能夠在離線環(huán)境中快速響應,同時保證翻譯質(zhì)量。會議摘要應用通過分析會議內(nèi)容,實時生成摘要,避免了云模型訂閱服務費用和網(wǎng)絡延遲問題。在醫(yī)療領域,端側(cè)模型能夠在本地處理患者數(shù)據(jù),保護隱私同時提供緊急情況下的快速響應。
科研支持方面,端側(cè) LLMs 能夠利用特定領域的大量專業(yè)數(shù)據(jù)進行訓練,加速科研進展。陪伴機器人和 IoT 設備通過端側(cè) LLMs 提升了理解自然語言指令的能力。對于視障人士,端側(cè)多模態(tài)模型能夠?qū)D像轉(zhuǎn)換為文字,提供豐富的圖像描述,并支持離線使用。此外,手語識別和翻譯項目也利用了端側(cè)模型的低延遲和離線可用性。
自動駕駛領域,結(jié)合大規(guī)模視覺語言模型的系統(tǒng)正在改善車輛對復雜和長尾場景的理解,提供即時響應并處理動態(tài)場景。
圖 5 展示了端側(cè) LLMs 在不同應用領域的表現(xiàn),從文本生成、翻譯、會議摘要、醫(yī)療應用、科研支持、伴侶機器人、殘障人士輔助到自動駕駛等,端側(cè) LLMs 正以其智能、響應迅速和個性化的特點,改變我們與技術的互動方式。
7 未來展望:邊緣計算的智能轉(zhuǎn)型
圖 6:on-device LLM 的未來方向和面臨的挑戰(zhàn)
在設備上運行的大型語言模型(LLMs)正迅速發(fā)展,它們在數(shù)據(jù)安全、低延遲和個性化 AI 體驗方面展現(xiàn)出巨大潛力。然而,要在資源受限的設備上部署這些模型,我們必須克服包括模型壓縮、高效推理、安全性和能源效率等一系列挑戰(zhàn)。未來的研究將致力于開發(fā)新的隱私保護技術,如查詢混淆和先進的隨機化技術,同時加強風險評估和監(jiān)控,以確保模型的實用性和數(shù)據(jù)的安全性。此外,研究者們也在探索適應性邊緣 - 云協(xié)作,通過智能緩存、請求分析和資源分配算法,優(yōu)化數(shù)據(jù)在邊緣設備與云服務器間的傳輸。
多模態(tài)和跨模態(tài)學習是推動 LLMs 發(fā)展的關鍵方向,它們使模型能夠整合并理解多種數(shù)據(jù)類型,從而提供更豐富的用戶體驗。研究者們正致力于開發(fā)高效的多模態(tài)處理技術,以及能夠適應不同模態(tài)輸入的模型架構(gòu)。同時,資源效率也成為研究的重點,通過模型壓縮和執(zhí)行算法的優(yōu)化,以及利用模型稀疏性,可以顯著降低模型在邊緣設備上的能源消耗,這對環(huán)境保護具有重要意義。
為了進一步提升 LLMs 的性能,硬件 - 軟件的協(xié)同設計變得至關重要。未來的研究將探索新的 PIM/PNM 架構(gòu),以及針對 AI 特定需求優(yōu)化的編譯器和運行時系統(tǒng)。此外,確保模型的魯棒性和可靠性也是未來工作的重點,研究者們正在開發(fā)方法以檢測和減輕模型輸出中的偏見和幻覺,特別是在安全關鍵的應用中。
個性化 AI 體驗是設備上 LLMs 的另一大優(yōu)勢,但這也帶來了模型持續(xù)學習和適應新信息的挑戰(zhàn)。未來的研究將集中于實現(xiàn)知識保留和遺忘的可控機制,以及開發(fā)持續(xù)學習的理論基礎和優(yōu)化策略。通過這些機制,模型能夠根據(jù)用戶交互和本地數(shù)據(jù)自主學習新技能,并提高現(xiàn)有能力。
8 結(jié)語
在設備上部署的大型語言模型(LLMs)正開啟智能邊緣計算的新篇章,預示著一個個性化、高效的 AI 時代即將到來。這些模型通過強化數(shù)據(jù)安全、降低延遲,并提供深度個性化的體驗,將徹底改變我們與技術的互動。展望未來,隨著技術的不斷成熟,我們期待一個設備更智能、服務更精準、生活更便捷的新世界。個性化的 AI 將融入日常生活的方方面面,從智能家居到自動駕駛,從虛擬助手到健康監(jiān)護,它們將以前所未有的方式提升我們的生活品質(zhì)。隨著研究的深入,一個更智能、更可靠、更貼近人心的 AI 未來正向我們招手,讓我們滿懷期待,迎接這個由 LLMs 引領的創(chuàng)新紀元。
為了進一步促進學術交流和知識共享,我們建立了一個專門的 GitHub 資源庫 Awesome LLMs on Device。這個資源庫不僅收錄了本論文的詳細內(nèi)容,還將持續(xù)更新,以反映該領域的最新研究成果和技術動態(tài)。
誠邀學術界同仁訪問我們的 GitHub 資源庫,參與到 LLMs 在邊緣設備上的研究中來,共同推動智能邊緣技術的創(chuàng)新與發(fā)展。
Github Repo:https://github.com/NexaAI/Awesome-LLMs-on-device