當前位置：人工智能實驗室> 機器學習 > LLM＋模仿學習，解決真實世界中的復雜任務：AI2提出SwiftSage

LLM＋模仿學習，解決真實世界中的復雜任務：AI2提出SwiftSage
來源：互聯(lián)網(wǎng) 發(fā)布日期：2023-06-15 19:36:10 瀏覽：173242次

導讀：機器之心專欄機器之心編輯部 GPT-4 等大型語言模型（LLM）在許多推理任務上表現(xiàn)出色，然而，大部分現(xiàn)有研究僅關(guān)注靜態(tài)環(huán)境下的任務，如回答問題或解數(shù)學題。那么，LLM 能否在真實世界中完成復雜的交互式任務呢？例如，如果我們想制作一個智能體（agent），...

機器之心專欄

機器之心編輯部

GPT-4 等大型語言模型（LLM）在許多推理任務上表現(xiàn)出色，然而，大部分現(xiàn)有研究僅關(guān)注靜態(tài)環(huán)境下的任務，如回答問題或解數(shù)學題。那么，LLM 能否在真實世界中完成復雜的交互式任務呢？例如，如果我們想制作一個智能體（agent），讓它在物理世界里完成一些實驗，比如測試一個物體是否導電，我們可以使用 LLM 嗎？這類復雜交互式任務（complex interactive tasks）具有很大的挑戰(zhàn)性，因為它要求 LLM 不僅能理解動態(tài)變化的真實場景，還需要具備諸如長期規(guī)劃（long-horion planning）、任務分解（task 的 composition）、記憶儲存（memorization）、常識推理（commonsense reasoning）、異常處理（exception handling）等高階認知和推理能力。

面對這種情況，如何充分發(fā)揮 LLM 的規(guī)劃和推理能力，同時降低計算成本呢？認知心理學名著《思考，快與慢》（Thinking, Fast and Slow）中介紹的雙過程理論（dual propcess theory）帶來了很多啟示。該理論認為，人類認知過程需要兩個密不可分的系統(tǒng)，其中 System 1 負責快速直覺式思考，而 System 2 則負責慢速分析式思考。

LLM＋模仿學習，解決真實世界中的復雜任務：AI2提出SwiftSage

論文鏈接：https://arxiv.org/abs/2305.17390

項目網(wǎng)站：https://yuchenlin.xyz/swiftsage/

基于此，AI2 (Allen Institute for AI) 的研究人員提出了 SwiftSage 智能體框架。他們通過模仿學習得到一個小型模型，然后將其與 LLM 進行融合。這樣，便可以利用大量數(shù)據(jù)對小型模型進行微調(diào)，使其具備環(huán)境和任務相關(guān)的知識，并僅在需要時調(diào)用大型模型進行高階推理。在 30 個任務上的評估中，SwiftSage 的表現(xiàn)超過了之前的 SayCan、ReAct 和 Relfexion 等方法近 2 倍，并且大幅降低了 LLM 部分的計算成本。

研究背景

以往的研究主要探索了三種方法來解決復雜的交互推理任務，傳統(tǒng)的一些智能體訓練方法包括

1）強化學習（Reinforcement Learning）

將交互式推理任務建模為部分可觀察的馬爾可夫決策過程（Partial Observable Markov Decision Process, POMDP），智能體通過反復嘗試和學習最佳行動策略。常見的方法有 DRRN， KG-A2C，CALM 等。

2）模仿學習（Imitation Learning）

將交互式推理任務建模為序列到序列（Seq2Seq）任務，將過去的行動和當前的環(huán)境觀察作為輸入，當前的行動作為輸出，智能體被訓練以模仿人類或?qū)＜业男袨�。Text Decision Transformer 是這個方向的基準方法。

3）利用大型語言模型（Large Language Model，簡稱 LLM）提示

隨著 LLM 的快速發(fā)展，尤其是 GPT-4 的出現(xiàn)，將 LLM 應用于復雜的交互式推理任務取得了顯著的成果。除了通過傳統(tǒng)方法直接讓 LLM 根據(jù)過往行動和當前環(huán)境觀察生成行動外，有研究通過直接調(diào)用 LLM 生成 action 候選池再結(jié)合環(huán)境重排序（SayCan），也有研究引入虛擬的 "think" 行動來生成子目標以實現(xiàn)更高效的行動（ReAct），以及在任務失敗后利用 LLM 總結(jié)原因并生成反思以提高下一次嘗試的成功概率（Reflection）等多種方式。

LLM＋模仿學習，解決真實世界中的復雜任務：AI2提出SwiftSage

雖然傳統(tǒng)方法在相對簡單的任務中表現(xiàn)優(yōu)異，但它們在更復雜和具有挑戰(zhàn)性的任務中的泛化能力受限。無論是基于強化學習的方法還是行為克隆（Behavior Cloning），在將大目標分解為多個子任務、實現(xiàn)長期記憶和處理環(huán)境中的未知異常（比如在導電性測試中找不到可以使用的燈泡）方面都面臨諸多挑戰(zhàn)。

相較之下，利用 LLM 進行提示的方法展示出了在復雜任務中生成合理計劃和根據(jù)人類反饋進行調(diào)整的能力，但同樣存在一些問題和局限性。其中一個主要挑戰(zhàn)是每次預測行動都需要調(diào)用 LLM，導致整體推理效率低下且成本較高。此外，ReAct 和 Reflection 兩種方法還需要針對每種未知任務類型進行適當?shù)淖幽繕巳斯俗ⅲ駝t在現(xiàn)實世界情境中的推廣可能會比較困難。而如何將 LLM 生成的計劃轉(zhuǎn)化為真實

SwiftSage：融合模仿學習與大模型規(guī)劃的全新框架

研究者受到人腦思維雙系統(tǒng)模型理論（Dual Process Theory）的啟發(fā)，提出一種全新的結(jié)合模仿學習和語言模型（LLM）方法的框架 SwiftSage。這一框架為真實世界中的復雜任務帶來了的突破性解決方案。

在認知心理學領(lǐng)域，人腦思維雙系統(tǒng)模型被用于解釋人類思維和決策過程中的兩種獨特方式。根據(jù)該理論，人類的認知過程可分為兩個相互關(guān)聯(lián)但獨立運作的系統(tǒng)：直覺型思維系統(tǒng)（系統(tǒng) 1）和反思型思維系統(tǒng)（系統(tǒng) 2）。

直覺型思維（系統(tǒng) 1）是一種快速、直觀且自動的思考方式，主要依賴于個體的經(jīng)驗、情感和直覺。這種方式對于解決簡單問題和日常決策具有較高的效率，但在面臨復雜問題和重大決策時可能導致偏差和錯誤。

反思型思維（系統(tǒng) 2），與此相反，則是一種深思熟慮、有意識且理性的思考方式。該方式通過運用邏輯推理、規(guī)則和分析，為決策和問題解決提供了更加準確和合理的結(jié)果。然而，這種思維方式需要較多的認知資源和時間。

雙系統(tǒng)模型理論的核心觀點在于，人類思維和決策過程并非單一系統(tǒng)所驅(qū)動，而是兩個系統(tǒng)之間相互作用、互補和競爭的結(jié)果。在許多情況下，直覺型思維系統(tǒng)在決策中發(fā)揮主導作用；而在需要深入思考和理性判斷的場合，反思型思維系統(tǒng)的作用則變得更為重要。

AI2 團隊提出的 SwiftSage 框架正是基于人腦思維雙系統(tǒng)模型理論，將模仿學習和 LLM 方法的優(yōu)勢相互結(jié)合，以解決現(xiàn)實世界中的復雜數(shù)字任務，展現(xiàn)出了巨大的潛力和前景。

雙模塊推理系統(tǒng)：迅速決策的 Swift + 深思熟慮的 Sage

SwiftSage 是一個由兩個主要模塊組成的框架：迅速決策（Swift）模塊和深思熟慮（Sage）模塊。

Swift 模塊是一個基于 encoder-decoder 的小型語言模型，它能編碼短期記憶內(nèi)容，例如先前的動作、當前觀察結(jié)果、已訪問的位置以及當前環(huán)境狀態(tài)，并解碼出下一步的行動。該模塊模擬了系統(tǒng) 1 中快速、直觀的思維特點。它的優(yōu)勢來自于大量的離線數(shù)據(jù)，通過在模仿學習中采用 behavior cloning 方法，Swift 模塊可以充分了解目標環(huán)境中的設定以及更好地掌握任務的定義。

LLM＋模仿學習，解決真實世界中的復雜任務：AI2提出SwiftSage

Sage 模塊代表了系統(tǒng) 2 中深思熟慮的思維過程，它利用 LLM（例如 GPT-4）來更好地進行規(guī)劃。Sage 模塊包含兩個 LLM Prompting 階段，分別稱為規(guī)劃（planning）和融合（grounding）。

LLM＋模仿學習，解決真實世界中的復雜任務：AI2提出SwiftSage

在規(guī)劃階段，主要目標是引導 LLM 定位所需物品、規(guī)劃和追蹤子目標以及檢測和修正潛在的異常和錯誤。通過五個主要問題來實現(xiàn)這一目標，使得智能體能夠更敏銳地捕捉游戲過程中的異常，進而更有可能糾正自身行為。

LLM＋模仿學習，解決真實世界中的復雜任務：AI2提出SwiftSage

在融合階段，主要目標是利用規(guī)劃階段五個問題的答案和詳細的動作模板，將規(guī)劃階段輸出的計劃轉(zhuǎn)化為一系列實際可執(zhí)行的動作，這可以稱為動作緩存（action buffer）。與之前的方法不同，Sage 不僅生成下一個即時動作，還包括長期的行動規(guī)劃。LLM 收到包含子目標（在規(guī)劃階段生成）和支持的行動類型的提示（prompt），使它們能夠生成一系列旨在實現(xiàn)當前子目標的動作（而不是像之前的方法那樣一次生成一個動作）。這樣一來，SwiftSage 進一步降低了動作預測的成本。

為了協(xié)調(diào) Swift 和 Sage 模塊，研究者們提出了一種啟發(fā)式算法，用于確定何時激活或停用 Sage 模塊以及如何有效地將輸出與動作緩存機制相結(jié)合。默認情況下，智能體通常會采用 Swift 模塊。當 Swift 模塊遇到困難時（例如，出現(xiàn)如下圖的四種情況），智能體會改為執(zhí)行 Sage 模塊產(chǎn)生的動作緩存。

LLM＋模仿學習，解決真實世界中的復雜任務：AI2提出SwiftSage

實驗結(jié)果：效率、性能和開銷的全方位優(yōu)秀表現(xiàn)

LLM＋模仿學習，解決真實世界中的復雜任務：AI2提出SwiftSage

經(jīng)過對 ScienceWorld 中的 30 種任務類型進行全面評估之后，SwiftSage 在性能上顯著優(yōu)于其他方法，取得了領(lǐng)先水平的平均分數(shù) 84.7。相較而言，SayCan 的得分僅為 33.8，ReAct 獲得了 36.4 分，而 Reflexion 則達到了 45.3 分。

得益于其獨特的雙系統(tǒng)設計，SwiftSage 在 LLM 推理中所需的每個行動的令牌數(shù)量大幅減少，因此在成本效益和效率方面，它比單純依靠 Prompting LLM 方法表現(xiàn)得更為出色。平均來看，為了產(chǎn)生一個行動，Saycan 和 ReAct 需要近 2000 個 token，Reflexion 需要接近 3000 個 token，而 SwiftSage 僅需約 750 個 token。

此外，SwiftSage 在交互式任務中的效率同樣更高。如下圖所示，SwiftSage 能夠在較少的行動數(shù)內(nèi)達到相同的分數(shù)。

LLM＋模仿學習，解決真實世界中的復雜任務：AI2提出SwiftSage

在展示出卓越表現(xiàn)后，研究者們認為受益于人類認知雙過程理論靈感的 SwiftSage 研究成果具有創(chuàng)新性及領(lǐng)先優(yōu)勢，無論是在性能、效率還是成本方面。這一獨特框架采用了將較小的語言模型與模仿學習相結(jié)合，再輔以 LLM（大型語言模型）的規(guī)劃能力，成為解決復雜交互推理任務以及構(gòu)建通用人工智能的關(guān)鍵步驟。SwiftSage 所取得的突破使我們距離充分發(fā)揮 LLM 潛力更近一步，從而更有效地解決現(xiàn)實世界中的復雜問題。

結(jié)語

AI2 提出的 SwiftSage 成果再次展示了較小的 LM（語言模型）與 LLM（大型語言模型）協(xié)作框架的巨大潛力。通過利用較小的 LM 進行任務與環(huán)境特定模式的識別，實現(xiàn)了分布內(nèi)泛化的高效性。同時，盡管 LLM 的零樣本泛化能力和深度思考展現(xiàn)出顯著優(yōu)勢，但將其輸出應用于現(xiàn)實世界場景仍具有一定挑戰(zhàn)性。研究者認為，采用雙過程智能體，發(fā)揮這兩種方法的優(yōu)點，對解決復雜的交互式推理任務以及構(gòu)建跨領(lǐng)域的通用智能體具有重要意義。進一步地，我們還可以將 SwiftSage 等模型視為一種利用 LLM 作為控制器或規(guī)劃器，用于分解復雜任務并調(diào)用 API 工具。

主要作者介紹

LLM＋模仿學習，解決真實世界中的復雜任務：AI2提出SwiftSage

Bill Yuchen Lin 林禹臣（AI2）現(xiàn)任 Allen Institute for AI（AI2）研究員。他本科畢業(yè)于上海交通大學 IEEE 試點班（2018），博士畢業(yè)于 USC 南加州大學（2022）。曾獲得 WWW 2020 Best Paper Runner-Up，TrustNLP Best Paper Award。他多次擔任 NLP 和 ML 領(lǐng)域頂級會議審稿人，Area Chair （ACL2023），多次參與組織 workshop 和 tutorials。他目前的研究興趣在將大語言模型的分析和增強，以及如何利用常識知識構(gòu)建通用的智能體。

LLM＋模仿學習，解決真實世界中的復雜任務：AI2提出SwiftSage

Yejin Choi （UW & AI2）華盛頓大學教授，同時領(lǐng)導 AI2 的 Mosaic 組。她曾獲得 ACL Fellow，MacArthur Fellow，她曾獲得 NAACL Best Paper Award in 2022, the ICML Outstanding Paper Award in 2022, the ACL Test of Time award in 2021, the CVPR Longuet-Higgins Prize (test of time award) in 2021, the NeurIPS Outstanding Paper Award in 2021, the AAAI Outstanding Paper Award in 2020 等榮譽。

LLM＋模仿學習，解決真實世界中的復雜任務：AI2提出SwiftSage

Xiang Ren 任翔（USC）南加州大學副教授，領(lǐng)導 INK Research Lab。曾獲得 Forbes' Asia 30 Under 30，NAACL Outstanding Paper Award 2022，Google Research Scholar, 2022，F(xiàn)acebook Sponsored Research Award, 2021，NSF CAREER Award, 2021 等榮譽。

LLM＋模仿學習，解決真實世界中的復雜任務：AI2提出SwiftSage