AIxiv專欄是機器之心發(fā)布學術、技術內容的欄目。過去數(shù)年,機器之心AIxiv專欄接收報道了2000多篇內容,覆蓋全球各大高校與企業(yè)的頂級實驗室,有效促進了學術交流與傳播。如果您有優(yōu)秀的工作想要分享,歡迎投稿或者聯(lián)系報道。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com
本文的作者均來自新加坡國立大學 LinS Lab。本文的共同第一作者為上海交通大學實習生衛(wèi)振宇和新加坡國立大學博士生徐志軒,主要研究方向為機器人學習和靈巧操縱,其余作者分別為實習生郭京翔,博士生侯懿文、高崇凱,以及碩士生蔡哲豪、羅嘉宇。本文的通訊作者為新加坡國立大學助理教授邵林。
想象一下,市面上有數(shù)十種形態(tài)各異的靈巧手,每一款都被設計得精巧而獨特。然而,是否有可能存在一種通用的抓取策略,無需為每款靈巧手單獨優(yōu)化,卻能夠適應各種機器人手型和多樣物體形狀?這一看似遙不可及的夢想,正在逐步成為現(xiàn)實。
靈巧抓取是機器人操作領域的一項核心挑戰(zhàn),它要求機器人手能夠與物體實現(xiàn)精確且穩(wěn)定的交互接觸。然而,如何有效建模這種高自由度且復雜的交互關系,并生成精準、多樣且高效的抓取策略,一直是該領域亟待解決的難題。
近期,新加坡國立大學計算機學院的邵林團隊提出了 D(R,O) Grasp:一種面向跨智能體靈巧抓取的機器人與物體交互統(tǒng)一表示。該方法通過創(chuàng)新性地建模機器人手與物體在抓取姿態(tài)下的交互關系,成功實現(xiàn)了對多種機器人手型與物體幾何形狀的高度泛化能力,為靈巧抓取技術的未來開辟了全新的方向。該論文在 CoRL 2024 MAPoDeL Workshop 中獲得了 Best Robotics Paper Award。
論文標題:D(R,O) Grasp: A Unified Representation of Robot and Object Interaction for Cross-Embodiment Dexterous Grasping
項目主頁:https://nus-lins-lab.github.io/drograspweb/
論文鏈接:https://arxiv.org/abs/2410.01702
代碼鏈接:https://github.com/zhenyuwei2003/DRO-Grasp
一、引言
靈巧抓取是機器人完成復雜操作任務的關鍵,但由于靈巧手的高自由度及穩(wěn)定抓取所需的復雜交互,任務挑戰(zhàn)巨大。目前基于深度學習的方法主要分為機器人中心 (robot-centric) 和物體中心 (object-centric) 兩類。
機器人中心方法(如手腕姿態(tài)或關節(jié)角度表示)直接將觀測映射為控制命令,推理速度快,但樣本效率低,且因映射依賴特定機器人結構,難以泛化到不同手型。
物體中心方法(如接觸點和接觸熱力圖表示)通過描述物體幾何與接觸信息,泛化能力強,適應不同物體和手型。然而,需額外優(yōu)化步驟(如指尖逆運動學求解)將預測結果轉化為運動學可行的抓取姿態(tài),計算復雜且耗時。
為克服這些局限,我們提出交互中心 (interaction-centric) 的統(tǒng)一表示 D(R,O)。該方法捕捉機器手運動學與物體幾何的交互關系,彌補機器人中心方法的泛化不足,同時提升物體中心方法的推理效率,實現(xiàn)跨機器人手型與物體形狀的泛化,為靈巧抓取提供高效且魯棒的解決方案。
圖 1 靈巧手抓取方法比較
二、方法
圖 2D(R,O) Grasp 整體框架
給定物體點云和機器人手的 URDF 文件,模型的目標是生成靈巧且多樣化的抓取姿態(tài),能夠在不同的物體和機器人手型之間實現(xiàn)廣泛的泛化。D(R,O) Grasp 整體框架如圖 2 所示,主要有以下三個部分組成:
1. 基于對比學習的配置不變預訓練
2. D(R,O)表征預測
3. 基于 D(R,O) 表征的抓取姿態(tài)生成
2.1 基于對比學習的配置不變預訓練
學習靈巧抓取需要理解機器手與物體的空間關系,目標是將機器手的特定配置與物體匹配。然而,由于不同配置下機器手整體姿態(tài)變化顯著,模型難以捕捉局部幾何特征的一致性。為此,我們提出一種配置不變的預訓練方法,通過訓練神經網絡對齊不同配置下的幾何特征,促進匹配并提升多姿態(tài)適應能力。
我們首先采樣并存儲機器手各 link 的點云數(shù)據(jù)。基于前向運動學模型,可為任意配置計算對應點云,確保不同配置下點云的一致性。在預訓練中,規(guī)范配置(如張開手姿態(tài))和抓取配置的點云分別輸入機器人編碼器網絡提取逐點特征。我們通過點間歐氏距離加權正負點對關系,進行逐點對比學習,并計算如下?lián)p失函數(shù):
該方法通過對齊不同配置下編碼器的幾何特征,簡化機器手與物體匹配難度,提高模型的泛化能力。
2.2 D(R,O) 表征預測
我們預測的 D(R,O) 表征是一個機器手點云和物體點云之間相對距離矩陣(Distances of Robot and Object)。首先,我們使用兩個相同結構的編碼器分別提取機器手點云和物體點云的幾何特征:
在此過程中,機器手的編碼器使用預訓練網絡并在訓練中保持凍結。為建立兩組特征的對應關系,我們引入兩個 Transformer 模型嵌入點間對應信息,并使用殘差連接:
為實現(xiàn)跨智能體抓取的多樣性,我們采用條件變分自編碼器(CVAE)網絡捕捉機器手、物體與抓取姿態(tài)的多種組合變化。具體而言,將機器手與物體在抓取姿態(tài)下的點云拼接后輸入 CVAE 編碼器,利用點云特征作為條件生成隱變量。隨后,將隱變量與每個點特征拼接,得到機器手和物體的綜合特征。
對于機器手某點與物體某點的綜合特征,我們采用結合 MLP 網絡和 softplus 函數(shù)的核函數(shù)計算相對距離,確保結果具有對稱性和非負性:
通過對所有點對進行上述計算,我們最終得到完整的 D(R,O) 表征如下:
2.3 基于 D(R,O) 表征的抓取姿態(tài)生成
給定預測的 D(R,O) 表征,我們獲得了機器人手點云與物體點云之間的相對距離關系。由于物體點云已知,我們可利用這些距離關系通過多點定位(Multilateration)技術計算出隱式描述的機器人手點云。本質上,這是一個最小二乘優(yōu)化問題:
該問題已證明具有閉式解,可快速計算機器人手點云。在三維空間中,確定一個點的位置僅需四個相對距離,而 D(R,O) 表征提供了上百個距離。相比直接預測點云,這種表征對神經網絡預測誤差更加魯棒。
得到機器人手點云后,為求解相應關節(jié)值,我們將逆運動學分為兩步:首先,使用 SVD 分解從點云計算出每個 link 的 6D 姿態(tài);然后,以這些 6D 姿態(tài)為優(yōu)化目標,利用雅克比矩陣迭代更新初始關節(jié)值,最終得到期望抓取姿態(tài)的關節(jié)值。
這一優(yōu)化過程約束簡單,即便是 ShadowHand 等高自由度靈巧手,也可在不到 1 秒內完成優(yōu)化,大幅提升抓取生成速度。
三、實驗結果
圖 3 與 baseline 的實驗結果對比
在實驗中,我們評估了抓取成功率、姿態(tài)多樣性及生成效率三個指標。抓取結果在 10 個全新物體上進行了測試,使用 Barrett、Allegro 和 ShadowHand 三款靈巧手進行比較。圖 3 表顯示,我們的方法在所有靈巧手上都顯著超越了現(xiàn)有方法的成功率,驗證了方法的有效性。此外,生成速度亦大幅優(yōu)于其他方法,這對靈巧操控任務至關重要。
圖 4 生成抓取與 baseline 失敗抓取可視化
與基準方法相比,我們的方法生成的抓取姿態(tài)更自然且魯棒,而基準方法易產生不自然、穿透嚴重且穩(wěn)定性差的抓取。
圖 5 不同條件下實驗結果對比
從圖 5 表前兩行可見,跨智能體訓練較單一機器人訓練在成功率上略有提升,證明了跨智能體的良好泛化能力。即便輸入部分點云,我們的方法也能取得優(yōu)異表現(xiàn),展示了其廣泛適用性。
圖 6 多樣化的抓取姿態(tài)生成
由于訓練數(shù)據(jù)中輸入和抓取旋轉已對齊,模型能隱式映射這些旋轉,從而根據(jù)輸入方向生成適宜抓取姿態(tài)。如圖 6 所示,六個不同方向下模型均生成可行抓取,體現(xiàn)方法的可控性。同時,通過從正態(tài)分布中采樣隱變量,模型在相同方向上生成多個抓取姿態(tài),展現(xiàn)多樣性。
圖 7 預訓練點云匹配可視化
圖 7 展示了預訓練模型捕捉到的不同配置下幾何特征的對齊關系,不同機器人手間的強匹配性突顯了特征的遷移能力。正如圖 3 表所示,去除預訓練參數(shù)直接訓練編碼器會導致性能顯著下降,進一步證明預訓練的重要性。
圖 8 真機實驗效果
在真實機器人實驗中,算法部署到 XArm 和 LeapHand 上,并在 10 個全新物體實驗中達成 89% 成功率,展現(xiàn)了方法在靈巧抓取中的有效性和良好泛化能力。更多實驗視頻請見項目主頁。
四、總結
在本論文中,我們提出了一種基于相對距離矩陣 D(R,O) 的新穎表征方法,用于捕捉機器人手與物體之間的交互信息,從而提升靈巧手的抓取性能。與現(xiàn)有方法過于依賴特定物體或機器手表示的局限性不同,我們的方法通過引入統(tǒng)一框架彌合了這種差距,并在不同機器人和物體幾何形狀之間實現(xiàn)了良好的泛化能力。此外,我們設計的預訓練方法有效增強了模型適應不同手部配置的能力,從而支持廣泛的機器人系統(tǒng)應用。實驗結果表明,我們的方法在抓取成功率、姿態(tài)多樣性以及計算效率方面均取得了顯著提升,為靈巧抓取任務提供了新的解決方案。