展會信息港展會大全

LLM+模仿學習,解決真實世界中的復雜任務:AI2提出SwiftSage
來源:互聯(lián)網(wǎng)   發(fā)布日期:2023-06-15 19:36:10   瀏覽:173242次  

導讀:機器之心專欄 機器之心編輯部 GPT-4 等大型語言模型(LLM)在許多推理任務上表現(xiàn)出色,然而,大部分現(xiàn)有研究僅關(guān)注靜態(tài)環(huán)境下的任務,如回答問題或解數(shù)學題。那么,LLM 能否在真實世界中完成復雜的交互式任務呢?例如,如果我們想制作一個智能體(agent),...

機器之心專欄

機器之心編輯部

GPT-4 等大型語言模型(LLM)在許多推理任務上表現(xiàn)出色,然而,大部分現(xiàn)有研究僅關(guān)注靜態(tài)環(huán)境下的任務,如回答問題或解數(shù)學題。那么,LLM 能否在真實世界中完成復雜的交互式任務呢?例如,如果我們想制作一個智能體(agent),讓它在物理世界里完成一些實驗,比如測試一個物體是否導電,我們可以使用 LLM 嗎?這類復雜交互式任務(complex interactive tasks)具有很大的挑戰(zhàn)性,因為它要求 LLM 不僅能理解動態(tài)變化的真實場景,還需要具備諸如長期規(guī)劃(long-horion planning)、任務分解(task 的 composition)、記憶儲存(memorization)、常識推理(commonsense reasoning)、異常處理(exception handling)等高階認知和推理能力。

面對這種情況,如何充分發(fā)揮 LLM 的規(guī)劃和推理能力,同時降低計算成本呢?認知心理學名著《思考,快與慢》(Thinking, Fast and Slow)中介紹的雙過程理論(dual propcess theory)帶來了很多啟示。該理論認為,人類認知過程需要兩個密不可分的系統(tǒng),其中 System 1 負責快速直覺式思考,而 System 2 則負責慢速分析式思考。

LLM+模仿學習,解決真實世界中的復雜任務:AI2提出SwiftSage

論文鏈接:https://arxiv.org/abs/2305.17390

項目網(wǎng)站:https://yuchenlin.xyz/swiftsage/

基于此,AI2 (Allen Institute for AI) 的研究人員提出了 SwiftSage 智能體框架。他們通過模仿學習得到一個小型模型,然后將其與 LLM 進行融合。這樣,便可以利用大量數(shù)據(jù)對小型模型進行微調(diào),使其具備環(huán)境和任務相關(guān)的知識,并僅在需要時調(diào)用大型模型進行高階推理。在 30 個任務上的評估中,SwiftSage 的表現(xiàn)超過了之前的 SayCan、ReAct 和 Relfexion 等方法近 2 倍,并且大幅降低了 LLM 部分的計算成本。

研究背景

以往的研究主要探索了三種方法來解決復雜的交互推理任務,傳統(tǒng)的一些智能體訓練方法包括

1)強化學習(Reinforcement Learning)

將交互式推理任務建模為部分可觀察的馬爾可夫決策過程(Partial Observable Markov Decision Process, POMDP),智能體通過反復嘗試和學習最佳行動策略。常見的方法有 DRRN, KG-A2C,CALM 等。

2)模仿學習(Imitation Learning)

將交互式推理任務建模為序列到序列(Seq2Seq)任務,將過去的行動和當前的環(huán)境觀察作為輸入,當前的行動作為輸出,智能體被訓練以模仿人類或?qū)<业男袨。Text Decision Transformer 是這個方向的基準方法。

3)利用大型語言模型(Large Language Model,簡稱 LLM)提示

隨著 LLM 的快速發(fā)展,尤其是 GPT-4 的出現(xiàn),將 LLM 應用于復雜的交互式推理任務取得了顯著的成果。除了通過傳統(tǒng)方法直接讓 LLM 根據(jù)過往行動和當前環(huán)境觀察生成行動外,有研究通過直接調(diào)用 LLM 生成 action 候選池再結(jié)合環(huán)境重排序(SayCan),也有研究引入虛擬的 "think" 行動來生成子目標以實現(xiàn)更高效的行動(ReAct),以及在任務失敗后利用 LLM 總結(jié)原因并生成反思以提高下一次嘗試的成功概率(Reflection)等多種方式。

LLM+模仿學習,解決真實世界中的復雜任務:AI2提出SwiftSage

雖然傳統(tǒng)方法在相對簡單的任務中表現(xiàn)優(yōu)異,但它們在更復雜和具有挑戰(zhàn)性的任務中的泛化能力受限。無論是基于強化學習的方法還是行為克隆(Behavior Cloning),在將大目標分解為多個子任務、實現(xiàn)長期記憶和處理環(huán)境中的未知異常(比如在導電性測試中找不到可以使用的燈泡)方面都面臨諸多挑戰(zhàn)。

相較之下,利用 LLM 進行提示的方法展示出了在復雜任務中生成合理計劃和根據(jù)人類反饋進行調(diào)整的能力,但同樣存在一些問題和局限性。其中一個主要挑戰(zhàn)是每次預測行動都需要調(diào)用 LLM,導致整體推理效率低下且成本較高。此外,ReAct 和 Reflection 兩種方法還需要針對每種未知任務類型進行適當?shù)淖幽繕巳斯俗ⅲ駝t在現(xiàn)實世界情境中的推廣可能會比較困難。而如何將 LLM 生成的計劃轉(zhuǎn)化為真實

SwiftSage:融合模仿學習與大模型規(guī)劃的全新框架

研究者受到人腦思維雙系統(tǒng)模型理論(Dual Process Theory)的啟發(fā),提出一種全新的結(jié)合模仿學習和語言模型(LLM)方法的框架 SwiftSage。這一框架為真實世界中的復雜任務帶來了的突破性解決方案。

在認知心理學領(lǐng)域,人腦思維雙系統(tǒng)模型被用于解釋人類思維和決策過程中的兩種獨特方式。根據(jù)該理論,人類的認知過程可分為兩個相互關(guān)聯(lián)但獨立運作的系統(tǒng):直覺型思維系統(tǒng)(系統(tǒng) 1)和反思型思維系統(tǒng)(系統(tǒng) 2)。

直覺型思維(系統(tǒng) 1)是一種快速、直觀且自動的思考方式,主要依賴于個體的經(jīng)驗、情感和直覺。這種方式對于解決簡單問題和日常決策具有較高的效率,但在面臨復雜問題和重大決策時可能導致偏差和錯誤。

反思型思維(系統(tǒng) 2),與此相反,則是一種深思熟慮、有意識且理性的思考方式。該方式通過運用邏輯推理、規(guī)則和分析,為決策和問題解決提供了更加準確和合理的結(jié)果。然而,這種思維方式需要較多的認知資源和時間。

雙系統(tǒng)模型理論的核心觀點在于,人類思維和決策過程并非單一系統(tǒng)所驅(qū)動,而是兩個系統(tǒng)之間相互作用、互補和競爭的結(jié)果。在許多情況下,直覺型思維系統(tǒng)在決策中發(fā)揮主導作用;而在需要深入思考和理性判斷的場合,反思型思維系統(tǒng)的作用則變得更為重要。

AI2 團隊提出的 SwiftSage 框架正是基于人腦思維雙系統(tǒng)模型理論,將模仿學習和 LLM 方法的優(yōu)勢相互結(jié)合,以解決現(xiàn)實世界中的復雜數(shù)字任務,展現(xiàn)出了巨大的潛力和前景。

雙模塊推理系統(tǒng):迅速決策的 Swift + 深思熟慮的 Sage

SwiftSage 是一個由兩個主要模塊組成的框架:迅速決策(Swift)模塊和深思熟慮(Sage)模塊。

Swift 模塊是一個基于 encoder-decoder 的小型語言模型,它能編碼短期記憶內(nèi)容,例如先前的動作、當前觀察結(jié)果、已訪問的位置以及當前環(huán)境狀態(tài),并解碼出下一步的行動。該模塊模擬了系統(tǒng) 1 中快速、直觀的思維特點。它的優(yōu)勢來自于大量的離線數(shù)據(jù),通過在模仿學習中采用 behavior cloning 方法,Swift 模塊可以充分了解目標環(huán)境中的設定以及更好地掌握任務的定義。

LLM+模仿學習,解決真實世界中的復雜任務:AI2提出SwiftSage

Sage 模塊代表了系統(tǒng) 2 中深思熟慮的思維過程,它利用 LLM(例如 GPT-4)來更好地進行規(guī)劃。Sage 模塊包含兩個 LLM Prompting 階段,分別稱為規(guī)劃(planning)和融合(grounding)。

LLM+模仿學習,解決真實世界中的復雜任務:AI2提出SwiftSage

在規(guī)劃階段,主要目標是引導 LLM 定位所需物品、規(guī)劃和追蹤子目標以及檢測和修正潛在的異常和錯誤。通過五個主要問題來實現(xiàn)這一目標,使得智能體能夠更敏銳地捕捉游戲過程中的異常,進而更有可能糾正自身行為。

LLM+模仿學習,解決真實世界中的復雜任務:AI2提出SwiftSage

在融合階段,主要目標是利用規(guī)劃階段五個問題的答案和詳細的動作模板,將規(guī)劃階段輸出的計劃轉(zhuǎn)化為一系列實際可執(zhí)行的動作,這可以稱為動作緩存(action buffer)。與之前的方法不同,Sage 不僅生成下一個即時動作,還包括長期的行動規(guī)劃。LLM 收到包含子目標(在規(guī)劃階段生成)和支持的行動類型的提示(prompt),使它們能夠生成一系列旨在實現(xiàn)當前子目標的動作(而不是像之前的方法那樣一次生成一個動作)。這樣一來,SwiftSage 進一步降低了動作預測的成本。

為了協(xié)調(diào) Swift 和 Sage 模塊,研究者們提出了一種啟發(fā)式算法,用于確定何時激活或停用 Sage 模塊以及如何有效地將輸出與動作緩存機制相結(jié)合。默認情況下,智能體通常會采用 Swift 模塊。當 Swift 模塊遇到困難時(例如,出現(xiàn)如下圖的四種情況),智能體會改為執(zhí)行 Sage 模塊產(chǎn)生的動作緩存。

LLM+模仿學習,解決真實世界中的復雜任務:AI2提出SwiftSage

實驗結(jié)果:效率、性能和開銷的全方位優(yōu)秀表現(xiàn)

LLM+模仿學習,解決真實世界中的復雜任務:AI2提出SwiftSage

經(jīng)過對 ScienceWorld 中的 30 種任務類型進行全面評估之后,SwiftSage 在性能上顯著優(yōu)于其他方法,取得了領(lǐng)先水平的平均分數(shù) 84.7。相較而言,SayCan 的得分僅為 33.8,ReAct 獲得了 36.4 分,而 Reflexion 則達到了 45.3 分。

得益于其獨特的雙系統(tǒng)設計,SwiftSage 在 LLM 推理中所需的每個行動的令牌數(shù)量大幅減少,因此在成本效益和效率方面,它比單純依靠 Prompting LLM 方法表現(xiàn)得更為出色。平均來看,為了產(chǎn)生一個行動,Saycan 和 ReAct 需要近 2000 個 token,Reflexion 需要接近 3000 個 token,而 SwiftSage 僅需約 750 個 token。

此外,SwiftSage 在交互式任務中的效率同樣更高。如下圖所示,SwiftSage 能夠在較少的行動數(shù)內(nèi)達到相同的分數(shù)。

LLM+模仿學習,解決真實世界中的復雜任務:AI2提出SwiftSage

在展示出卓越表現(xiàn)后,研究者們認為受益于人類認知雙過程理論靈感的 SwiftSage 研究成果具有創(chuàng)新性及領(lǐng)先優(yōu)勢,無論是在性能、效率還是成本方面。這一獨特框架采用了將較小的語言模型與模仿學習相結(jié)合,再輔以 LLM(大型語言模型)的規(guī)劃能力,成為解決復雜交互推理任務以及構(gòu)建通用人工智能的關(guān)鍵步驟。SwiftSage 所取得的突破使我們距離充分發(fā)揮 LLM 潛力更近一步,從而更有效地解決現(xiàn)實世界中的復雜問題。

結(jié)語

AI2 提出的 SwiftSage 成果再次展示了較小的 LM(語言模型)與 LLM(大型語言模型)協(xié)作框架的巨大潛力。通過利用較小的 LM 進行任務與環(huán)境特定模式的識別,實現(xiàn)了分布內(nèi)泛化的高效性。同時,盡管 LLM 的零樣本泛化能力和深度思考展現(xiàn)出顯著優(yōu)勢,但將其輸出應用于現(xiàn)實世界場景仍具有一定挑戰(zhàn)性。研究者認為,采用雙過程智能體,發(fā)揮這兩種方法的優(yōu)點,對解決復雜的交互式推理任務以及構(gòu)建跨領(lǐng)域的通用智能體具有重要意義。進一步地,我們還可以將 SwiftSage 等模型視為一種利用 LLM 作為控制器或規(guī)劃器,用于分解復雜任務并調(diào)用 API 工具。

主要作者介紹

LLM+模仿學習,解決真實世界中的復雜任務:AI2提出SwiftSage

Bill Yuchen Lin 林禹臣(AI2)現(xiàn)任 Allen Institute for AI(AI2)研究員。他本科畢業(yè)于上海交通大學 IEEE 試點班(2018),博士畢業(yè)于 USC 南加州大學 (2022)。曾獲得 WWW 2020 Best Paper Runner-Up,TrustNLP Best Paper Award。他多次擔任 NLP 和 ML 領(lǐng)域頂級會議審稿人,Area Chair (ACL2023),多次參與組織 workshop 和 tutorials。他目前的研究興趣在將大語言模型的分析和增強,以及如何利用常識知識構(gòu)建通用的智能體。

LLM+模仿學習,解決真實世界中的復雜任務:AI2提出SwiftSage

Yejin Choi (UW & AI2) 華盛頓大學教授,同時領(lǐng)導 AI2 的 Mosaic 組。她曾獲得 ACL Fellow,MacArthur Fellow,她曾獲得 NAACL Best Paper Award in 2022, the ICML Outstanding Paper Award in 2022, the ACL Test of Time award in 2021, the CVPR Longuet-Higgins Prize (test of time award) in 2021, the NeurIPS Outstanding Paper Award in 2021, the AAAI Outstanding Paper Award in 2020 等榮譽。

LLM+模仿學習,解決真實世界中的復雜任務:AI2提出SwiftSage

Xiang Ren 任翔(USC)南加州大學副教授,領(lǐng)導 INK Research Lab。曾獲得 Forbes' Asia 30 Under 30,NAACL Outstanding Paper Award 2022,Google Research Scholar, 2022,F(xiàn)acebook Sponsored Research Award, 2021,NSF CAREER Award, 2021 等榮譽。

LLM+模仿學習,解決真實世界中的復雜任務:AI2提出SwiftSage

贊助本站

相關(guān)內(nèi)容
AiLab云推薦
展開

熱門欄目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能實驗室 版權(quán)所有    關(guān)于我們 | 聯(lián)系我們 | 廣告服務 | 公司動態(tài) | 免責聲明 | 隱私條款 | 工作機會 | 展會港