機器之心專欄
機器之心編輯部
GPT-4 等大型語言模型(LLM)在許多推理任務上表現(xiàn)出色,然而,大部分現(xiàn)有研究僅關(guān)注靜態(tài)環(huán)境下的任務,如回答問題或解數(shù)學題。那么,LLM 能否在真實世界中完成復雜的交互式任務呢?例如,如果我們想制作一個智能體(agent),讓它在物理世界里完成一些實驗,比如測試一個物體是否導電,我們可以使用 LLM 嗎?這類復雜交互式任務(complex interactive tasks)具有很大的挑戰(zhàn)性,因為它要求 LLM 不僅能理解動態(tài)變化的真實場景,還需要具備諸如長期規(guī)劃(long-horion planning)、任務分解(task 的 composition)、記憶儲存(memorization)、常識推理(commonsense reasoning)、異常處理(exception handling)等高階認知和推理能力。
面對這種情況,如何充分發(fā)揮 LLM 的規(guī)劃和推理能力,同時降低計算成本呢?認知心理學名著《思考,快與慢》(Thinking, Fast and Slow)中介紹的雙過程理論(dual propcess theory)帶來了很多啟示。該理論認為,人類認知過程需要兩個密不可分的系統(tǒng),其中 System 1 負責快速直覺式思考,而 System 2 則負責慢速分析式思考。
論文鏈接:https://arxiv.org/abs/2305.17390
項目網(wǎng)站:https://yuchenlin.xyz/swiftsage/
基于此,AI2 (Allen Institute for AI) 的研究人員提出了 SwiftSage 智能體框架。他們通過模仿學習得到一個小型模型,然后將其與 LLM 進行融合。這樣,便可以利用大量數(shù)據(jù)對小型模型進行微調(diào),使其具備環(huán)境和任務相關(guān)的知識,并僅在需要時調(diào)用大型模型進行高階推理。在 30 個任務上的評估中,SwiftSage 的表現(xiàn)超過了之前的 SayCan、ReAct 和 Relfexion 等方法近 2 倍,并且大幅降低了 LLM 部分的計算成本。
研究背景
以往的研究主要探索了三種方法來解決復雜的交互推理任務,傳統(tǒng)的一些智能體訓練方法包括
1)強化學習(Reinforcement Learning)
將交互式推理任務建模為部分可觀察的馬爾可夫決策過程(Partial Observable Markov Decision Process, POMDP),智能體通過反復嘗試和學習最佳行動策略。常見的方法有 DRRN, KG-A2C,CALM 等。
2)模仿學習(Imitation Learning)
將交互式推理任務建模為序列到序列(Seq2Seq)任務,將過去的行動和當前的環(huán)境觀察作為輸入,當前的行動作為輸出,智能體被訓練以模仿人類或?qū)<业男袨。Text Decision Transformer 是這個方向的基準方法。
3)利用大型語言模型(Large Language Model,簡稱 LLM)提示
隨著 LLM 的快速發(fā)展,尤其是 GPT-4 的出現(xiàn),將 LLM 應用于復雜的交互式推理任務取得了顯著的成果。除了通過傳統(tǒng)方法直接讓 LLM 根據(jù)過往行動和當前環(huán)境觀察生成行動外,有研究通過直接調(diào)用 LLM 生成 action 候選池再結(jié)合環(huán)境重排序(SayCan),也有研究引入虛擬的 "think" 行動來生成子目標以實現(xiàn)更高效的行動(ReAct),以及在任務失敗后利用 LLM 總結(jié)原因并生成反思以提高下一次嘗試的成功概率(Reflection)等多種方式。
雖然傳統(tǒng)方法在相對簡單的任務中表現(xiàn)優(yōu)異,但它們在更復雜和具有挑戰(zhàn)性的任務中的泛化能力受限。無論是基于強化學習的方法還是行為克隆(Behavior Cloning),在將大目標分解為多個子任務、實現(xiàn)長期記憶和處理環(huán)境中的未知異常(比如在導電性測試中找不到可以使用的燈泡)方面都面臨諸多挑戰(zhàn)。
相較之下,利用 LLM 進行提示的方法展示出了在復雜任務中生成合理計劃和根據(jù)人類反饋進行調(diào)整的能力,但同樣存在一些問題和局限性。其中一個主要挑戰(zhàn)是每次預測行動都需要調(diào)用 LLM,導致整體推理效率低下且成本較高。此外,ReAct 和 Reflection 兩種方法還需要針對每種未知任務類型進行適當?shù)淖幽繕巳斯俗ⅲ駝t在現(xiàn)實世界情境中的推廣可能會比較困難。而如何將 LLM 生成的計劃轉(zhuǎn)化為真實
SwiftSage:融合模仿學習與大模型規(guī)劃的全新框架
研究者受到人腦思維雙系統(tǒng)模型理論(Dual Process Theory)的啟發(fā),提出一種全新的結(jié)合模仿學習和語言模型(LLM)方法的框架 SwiftSage。這一框架為真實世界中的復雜任務帶來了的突破性解決方案。
在認知心理學領(lǐng)域,人腦思維雙系統(tǒng)模型被用于解釋人類思維和決策過程中的兩種獨特方式。根據(jù)該理論,人類的認知過程可分為兩個相互關(guān)聯(lián)但獨立運作的系統(tǒng):直覺型思維系統(tǒng)(系統(tǒng) 1)和反思型思維系統(tǒng)(系統(tǒng) 2)。
直覺型思維(系統(tǒng) 1)是一種快速、直觀且自動的思考方式,主要依賴于個體的經(jīng)驗、情感和直覺。這種方式對于解決簡單問題和日常決策具有較高的效率,但在面臨復雜問題和重大決策時可能導致偏差和錯誤。
反思型思維(系統(tǒng) 2),與此相反,則是一種深思熟慮、有意識且理性的思考方式。該方式通過運用邏輯推理、規(guī)則和分析,為決策和問題解決提供了更加準確和合理的結(jié)果。然而,這種思維方式需要較多的認知資源和時間。
雙系統(tǒng)模型理論的核心觀點在于,人類思維和決策過程并非單一系統(tǒng)所驅(qū)動,而是兩個系統(tǒng)之間相互作用、互補和競爭的結(jié)果。在許多情況下,直覺型思維系統(tǒng)在決策中發(fā)揮主導作用;而在需要深入思考和理性判斷的場合,反思型思維系統(tǒng)的作用則變得更為重要。
AI2 團隊提出的 SwiftSage 框架正是基于人腦思維雙系統(tǒng)模型理論,將模仿學習和 LLM 方法的優(yōu)勢相互結(jié)合,以解決現(xiàn)實世界中的復雜數(shù)字任務,展現(xiàn)出了巨大的潛力和前景。
雙模塊推理系統(tǒng):迅速決策的 Swift + 深思熟慮的 Sage
SwiftSage 是一個由兩個主要模塊組成的框架:迅速決策(Swift)模塊和深思熟慮(Sage)模塊。
Swift 模塊是一個基于 encoder-decoder 的小型語言模型,它能編碼短期記憶內(nèi)容,例如先前的動作、當前觀察結(jié)果、已訪問的位置以及當前環(huán)境狀態(tài),并解碼出下一步的行動。該模塊模擬了系統(tǒng) 1 中快速、直觀的思維特點。它的優(yōu)勢來自于大量的離線數(shù)據(jù),通過在模仿學習中采用 behavior cloning 方法,Swift 模塊可以充分了解目標環(huán)境中的設定以及更好地掌握任務的定義。
Sage 模塊代表了系統(tǒng) 2 中深思熟慮的思維過程,它利用 LLM(例如 GPT-4)來更好地進行規(guī)劃。Sage 模塊包含兩個 LLM Prompting 階段,分別稱為規(guī)劃(planning)和融合(grounding)。
在規(guī)劃階段,主要目標是引導 LLM 定位所需物品、規(guī)劃和追蹤子目標以及檢測和修正潛在的異常和錯誤。通過五個主要問題來實現(xiàn)這一目標,使得智能體能夠更敏銳地捕捉游戲過程中的異常,進而更有可能糾正自身行為。
在融合階段,主要目標是利用規(guī)劃階段五個問題的答案和詳細的動作模板,將規(guī)劃階段輸出的計劃轉(zhuǎn)化為一系列實際可執(zhí)行的動作,這可以稱為動作緩存(action buffer)。與之前的方法不同,Sage 不僅生成下一個即時動作,還包括長期的行動規(guī)劃。LLM 收到包含子目標(在規(guī)劃階段生成)和支持的行動類型的提示(prompt),使它們能夠生成一系列旨在實現(xiàn)當前子目標的動作(而不是像之前的方法那樣一次生成一個動作)。這樣一來,SwiftSage 進一步降低了動作預測的成本。
為了協(xié)調(diào) Swift 和 Sage 模塊,研究者們提出了一種啟發(fā)式算法,用于確定何時激活或停用 Sage 模塊以及如何有效地將輸出與動作緩存機制相結(jié)合。默認情況下,智能體通常會采用 Swift 模塊。當 Swift 模塊遇到困難時(例如,出現(xiàn)如下圖的四種情況),智能體會改為執(zhí)行 Sage 模塊產(chǎn)生的動作緩存。
實驗結(jié)果:效率、性能和開銷的全方位優(yōu)秀表現(xiàn)
經(jīng)過對 ScienceWorld 中的 30 種任務類型進行全面評估之后,SwiftSage 在性能上顯著優(yōu)于其他方法,取得了領(lǐng)先水平的平均分數(shù) 84.7。相較而言,SayCan 的得分僅為 33.8,ReAct 獲得了 36.4 分,而 Reflexion 則達到了 45.3 分。
得益于其獨特的雙系統(tǒng)設計,SwiftSage 在 LLM 推理中所需的每個行動的令牌數(shù)量大幅減少,因此在成本效益和效率方面,它比單純依靠 Prompting LLM 方法表現(xiàn)得更為出色。平均來看,為了產(chǎn)生一個行動,Saycan 和 ReAct 需要近 2000 個 token,Reflexion 需要接近 3000 個 token,而 SwiftSage 僅需約 750 個 token。
此外,SwiftSage 在交互式任務中的效率同樣更高。如下圖所示,SwiftSage 能夠在較少的行動數(shù)內(nèi)達到相同的分數(shù)。
在展示出卓越表現(xiàn)后,研究者們認為受益于人類認知雙過程理論靈感的 SwiftSage 研究成果具有創(chuàng)新性及領(lǐng)先優(yōu)勢,無論是在性能、效率還是成本方面。這一獨特框架采用了將較小的語言模型與模仿學習相結(jié)合,再輔以 LLM(大型語言模型)的規(guī)劃能力,成為解決復雜交互推理任務以及構(gòu)建通用人工智能的關(guān)鍵步驟。SwiftSage 所取得的突破使我們距離充分發(fā)揮 LLM 潛力更近一步,從而更有效地解決現(xiàn)實世界中的復雜問題。
結(jié)語
AI2 提出的 SwiftSage 成果再次展示了較小的 LM(語言模型)與 LLM(大型語言模型)協(xié)作框架的巨大潛力。通過利用較小的 LM 進行任務與環(huán)境特定模式的識別,實現(xiàn)了分布內(nèi)泛化的高效性。同時,盡管 LLM 的零樣本泛化能力和深度思考展現(xiàn)出顯著優(yōu)勢,但將其輸出應用于現(xiàn)實世界場景仍具有一定挑戰(zhàn)性。研究者認為,采用雙過程智能體,發(fā)揮這兩種方法的優(yōu)點,對解決復雜的交互式推理任務以及構(gòu)建跨領(lǐng)域的通用智能體具有重要意義。進一步地,我們還可以將 SwiftSage 等模型視為一種利用 LLM 作為控制器或規(guī)劃器,用于分解復雜任務并調(diào)用 API 工具。
主要作者介紹
Bill Yuchen Lin 林禹臣(AI2)現(xiàn)任 Allen Institute for AI(AI2)研究員。他本科畢業(yè)于上海交通大學 IEEE 試點班(2018),博士畢業(yè)于 USC 南加州大學 (2022)。曾獲得 WWW 2020 Best Paper Runner-Up,TrustNLP Best Paper Award。他多次擔任 NLP 和 ML 領(lǐng)域頂級會議審稿人,Area Chair (ACL2023),多次參與組織 workshop 和 tutorials。他目前的研究興趣在將大語言模型的分析和增強,以及如何利用常識知識構(gòu)建通用的智能體。
Yejin Choi (UW & AI2) 華盛頓大學教授,同時領(lǐng)導 AI2 的 Mosaic 組。她曾獲得 ACL Fellow,MacArthur Fellow,她曾獲得 NAACL Best Paper Award in 2022, the ICML Outstanding Paper Award in 2022, the ACL Test of Time award in 2021, the CVPR Longuet-Higgins Prize (test of time award) in 2021, the NeurIPS Outstanding Paper Award in 2021, the AAAI Outstanding Paper Award in 2020 等榮譽。
Xiang Ren 任翔(USC)南加州大學副教授,領(lǐng)導 INK Research Lab。曾獲得 Forbes' Asia 30 Under 30,NAACL Outstanding Paper Award 2022,Google Research Scholar, 2022,F(xiàn)acebook Sponsored Research Award, 2021,NSF CAREER Award, 2021 等榮譽。