自然語言作為人機交互主要媒介,存在空間精度不足、在安靜場所使用受限等問題。為此,我們引入機器人視覺指令(RoVI)這一全新范式,以對象為中心的手繪符號引導(dǎo)機器人任務(wù),利用多種元素編碼時空信息。為使機器人更好地理解 RoVI 并基于其生成精確動作,我們提出視覺指令實體化工作流程(VIEW),借助視覺語言模型解釋 RoVI,提取關(guān)鍵點解碼約束并生成三維動作。我們還整理了一個包含15000 個實例的專用數(shù)據(jù)集微調(diào)小型視覺語言模型,便于邊緣部署。該方法經(jīng) 11 項新任務(wù)驗證,泛化能力強,VIEW 在涉及多步動作、干擾和軌跡跟蹤要求的真實世界未知任務(wù)場景中,成功率達(dá)到 87.5%,代碼和數(shù)據(jù)集即將發(fā)布。
自然語言雖在人機交互中直觀便捷,但借助大語言模型將其轉(zhuǎn)換為機器人動作時存在挑戰(zhàn),如描述物體空間細(xì)節(jié)困難,表達(dá)空間需求易模糊冗長,且在某些公共場所語音交流不適宜。視覺模態(tài)能更直接精確傳達(dá)時空信息,但目標(biāo)圖像輸入與用戶操作順序相悖,軌跡繪制對用戶有挑戰(zhàn)、可讀性低,實際應(yīng)用不友好。
為解決這些局限,我們提出一種新的通信范式:機器人視覺指令(RoVI),如圖 1 左側(cè)所示。這是一種手繪草圖指令方法,是以對象為中心的表示方式,利用二維符號語言來指揮三維實體操作。該范式為自然語言指令提供了一種直觀、簡潔且無聲的替代方案。其基本元素包括箭頭、圓圈和各種顏色,用于表示不同的動作時間順序,數(shù)字則用于標(biāo)記雙臂系統(tǒng)中的不同實體。箭頭指示軌跡和方向,圓圈表示可操作位置,用于在雜亂環(huán)境中識別目標(biāo)物體。顏色清晰地傳達(dá)時間順序。通過整合這些元素,RoVI 將一系列三維坐標(biāo)壓縮成人類可理解的二維視覺語言,從而在用戶友好性、可解釋性和時空對齊方面實現(xiàn)了最佳平衡,如圖 2 左側(cè)所示。
為了更好地理解 RoVI 并用于指導(dǎo)機器人操作,我們引入視覺指令實體化工作流程(VIEW)。這是一個將二維 RoVI 指令轉(zhuǎn)換為機器人操作的三維動作序列的流程,借助視覺語言模型轉(zhuǎn)換為語言響應(yīng)和 Python 代碼函數(shù),分解任務(wù)為單步子任務(wù),提出關(guān)鍵點模塊提取關(guān)鍵點作為約束,基于關(guān)鍵點策略指導(dǎo)機器人執(zhí)行任務(wù) 。
除了上述框架,我們開發(fā)了一個包含 15000 個訓(xùn)練實例的數(shù)據(jù)集,使模型能夠通過參數(shù)高效微調(diào)(PEFT)學(xué)習(xí) RoVI 能力。通過上述設(shè)計,我們的方法在真實世界和模擬環(huán)境中的各種未知任務(wù)中均表現(xiàn)出色,展現(xiàn)出強大的泛化性和魯棒性。與基于語言的策略相比,我們的方法在雜亂環(huán)境、多步操作和軌跡跟蹤任務(wù)中性能
本文的主要貢獻(xiàn)如下:
提出一種新穎的人機交互范式:RoVI。它采用手繪符號表示作為機器人指令,在任務(wù)定義中傳達(dá)更精確的時空信息。
設(shè)計了一個流程 VIEW(視覺指令實體化工作流程),以實現(xiàn)基于 RoVI 的操作任務(wù)。
開發(fā)了一個開源數(shù)據(jù)集,使模型能夠?qū)W習(xí) RoVI 能力。通過該數(shù)據(jù)集訓(xùn)練的輕量級模型表明,視覺語言模型能夠通過最少的計算資源和簡單的微調(diào)學(xué)習(xí)這一能力。
機器人視覺指令設(shè)計
我們介紹 RoVI 的范式設(shè)計,它由兩種視覺基元組成:箭頭和圓圈。所有簡單或復(fù)雜的任務(wù)都被分解為三個以對象為中心的動作:從 A 移動到 B(由箭頭表示)、旋轉(zhuǎn)對象(一個表示可操作區(qū)域的圓圈,搭配一個表示旋轉(zhuǎn)角度的箭頭)以及拿起 / 選擇(由圓圈表示)。
剖析箭頭
我們使用二維箭頭表示機器人動作的軌跡和時間順序。一個箭頭被分解為三個部分:尾部(起點)、箭身(路徑點)和頭部(終點)。起點標(biāo)記物體上的抓取位置,終點表示動作的目標(biāo)。中間路徑點捕捉運動路徑,形成一個有序集合:
其中是由關(guān)鍵點模塊提取的二維坐標(biāo)。
剖析圓圈
圓圈突出顯示物體上的關(guān)鍵交互區(qū)域。中心點代表可操作中心,可用于各種任務(wù):作為抓取點、旋轉(zhuǎn)軸點,或作為諸如按下按鈕等動作的施力點。
繪制設(shè)置
RoVI 可直接使用手寫筆和繪圖軟件在平板電腦或個人電腦上繪制,采用明亮的顏色以確保在各種背景下都清晰可見:綠色(RGB:0, 255, 94)用于操作任務(wù)的第一步,藍(lán)色(RGB:0, 255, 247)用于第二步,粉色(RGB:255, 106, 138)用于第三步。對于更多步驟,可以靈活分配額外顏色。我們設(shè)計了兩種繪圖風(fēng)格:自由風(fēng)格(隨意手繪)和幾何風(fēng)格(由幾何組件構(gòu)成,便于視覺語言模型更清晰地解釋)。我們用圓圈表示可操作區(qū)域,并將箭頭頭部替換為標(biāo)準(zhǔn)三角形。
RoVI Book 數(shù)據(jù)集
為使視覺語言模型能夠理解 RoVI,我們開發(fā)了一個用于 RoVI 條件策略的數(shù)據(jù)集,稱為 RoVI Book。如圖 7 所示,該數(shù)據(jù)集包含 15000 個圖像文本問答對。它包括:(1)標(biāo)注有 RoVI 的初始任務(wù)觀察圖像;(2)作為默認(rèn)提示的簡單查詢;(3)由 GPT - 4o 生成的答案,涵蓋 RoVI 分析、任務(wù)名稱、細(xì)粒度規(guī)劃步驟和 Python 函數(shù)。原始任務(wù)和圖像選自 Open - X Embodiment 數(shù)據(jù)集。我們的數(shù)據(jù)集涵蓋 64% 的單步任務(wù)和 36% 的多步任務(wù),涉及五種基本操作技能:移動物體、旋轉(zhuǎn)物體、拿起、打開抽屜 / 柜子和關(guān)閉抽屜 / 柜子 。答案最初由 GPT - 4o 生成,隨后通過基于人類反饋的語義過濾進(jìn)行優(yōu)化。每個任務(wù)保留了 Open - X Embodiments 中的原始語義任務(wù)名稱,同時我們對 RoVI 進(jìn)行數(shù)據(jù)增強,引入 3 - 8 種視覺變體,包括不同的路徑、繪圖風(fēng)格和線條粗細(xì)。
視覺指令實體化工作流程
工作流程概述
VIEW 由三個組件組成:(1)用于理解 RoVI 和進(jìn)行規(guī)劃的視覺語言模型;(2)用于生成時空約束的關(guān)鍵點模塊[28];(3)用于執(zhí)行機器人動作的低級策略。
如圖 3 所示,該流程從視覺語言模型開始,其輸入為手繪的 RoVI 、初始觀察圖像以及系統(tǒng)提供的默認(rèn)提示。然后,視覺語言模型生成語言響應(yīng)和執(zhí)行函數(shù)。同時,關(guān)鍵點模塊從 RoVI 中提取關(guān)鍵點,生成時空約束,包括起點、多個路徑點和終點。最后,基于輸入的和關(guān)鍵點坐標(biāo),低級策略執(zhí)行相應(yīng)的動作。
用于 RoVI 理解的視覺語言模型
鑒于視覺語言模型在視覺感知、內(nèi)置世界知識和推理方面的能力,我們使用它們來解釋 RoVI,并將其轉(zhuǎn)換為自然語言響應(yīng)。語言響應(yīng)作為人類反饋的通用接口,能夠驗證視覺語言模型的理解程度,并將其與下游的低級策略相連接。與直接在 SE (3) 動作空間中輸出參數(shù)的端到端策略相比,納入了基于語言的動作表示,這使得在不同的任務(wù)和環(huán)境中具有更有效的泛化能力。
語言響應(yīng)由視覺語言模型通過思維鏈(Chain - of - Thought,CoT)推理過程生成。它包括粗粒度的任務(wù)預(yù)測,提供高級任務(wù)描述,以及帶有子目標(biāo)序列的細(xì)粒度規(guī)劃,將任務(wù)分解為更小的步驟。隨后,每個子目標(biāo)被轉(zhuǎn)換為可執(zhí)行的代碼函數(shù),這些函數(shù)定義了機器人手臂所需的動作或技能,如 move () 或 grasp ()。這些函數(shù)與關(guān)鍵點約束相結(jié)合,形成用于動作執(zhí)行的低級策略。
關(guān)鍵點模塊
為了從像素空間中的 RoVI 解碼時空信息,我們根據(jù)顏色標(biāo)識符將多步任務(wù)分解為單步任務(wù)。單步任務(wù)之間的轉(zhuǎn)換被轉(zhuǎn)換為關(guān)鍵點之間的運動,具體來說,是從步驟的終點到步驟j的起點。然后,經(jīng)過訓(xùn)練的關(guān)鍵點模塊提供關(guān)鍵點約束,其中包括末端執(zhí)行器坐標(biāo)序列以及在操作中關(guān)鍵點的語義功能,如起點、路徑點和終點。
我們采用 YOLOv8 作為,并構(gòu)建了一個包含 2000 張圖像的數(shù)據(jù)集用于其訓(xùn)練。與開放詞匯對象檢測相比,我們的策略簡化了在不同環(huán)境中對所有對象的檢測,以識別 RoVI 符號的組件,使其對環(huán)境變化或干擾對象的敏感性降低。
基于關(guān)鍵點的低級策略
我們提出一種基于關(guān)鍵點的低級策略,使機器人能夠遵循一系列定義為關(guān)鍵點的目標(biāo)姿態(tài)來執(zhí)行操作任務(wù)。這些關(guān)鍵點從 RGB 圖像中的動作箭頭中提取,并使用 RGB - D 相機的深度數(shù)據(jù)映射到三維坐標(biāo)。
這些N個關(guān)鍵點隨后被映射到 SE (3) 空間中的一系列期望末端執(zhí)行器姿態(tài),表示為。初始姿態(tài)通過基于的抓取模塊獲得。這一系列姿態(tài)構(gòu)成了要執(zhí)行的動作。我們將動作分為兩類:平移(例如,移動到、推、拉)和旋轉(zhuǎn)(例如,翻轉(zhuǎn)、推倒、調(diào)節(jié)旋鈕)。在每個時間步t,機器人執(zhí)行以下操作:
狀態(tài)觀察:從 RGB - D 相機獲取當(dāng)前末端執(zhí)行器姿態(tài)和目標(biāo)關(guān)鍵點。
成本函數(shù)最小化::通過運動規(guī)劃和插值向移動,最小化成本函數(shù)。
關(guān)鍵點轉(zhuǎn)換:如果,則標(biāo)記為已到達(dá),并繼續(xù)移動到。直到時,當(dāng)前動作步驟結(jié)束。
每個時間步t的目標(biāo)小化: 其中表示動作類型:平移時,旋轉(zhuǎn)時。
實驗分析
我們的實驗旨在深入研究以下問題:
- RoVI 在真實世界和模擬環(huán)境中對未知環(huán)境和任務(wù)的泛化能力如何?
- 當(dāng)前的視覺語言模型對 RoVI 的理解程度如何?
- RoVI 和 VIEW 的組件對整個流程的整體性能有何影響?
模型訓(xùn)練
我們選擇 GPT-4o 和 LLaVA13B 作為 VIEW 中的視覺語言模型,以控制機器人操作任務(wù)。我們還使用 LoRA 在我們的 RoVI Book 數(shù)據(jù)集上對 LLaVA - 7B 和 13B 模型 進(jìn)行微調(diào),訓(xùn)練一輪,學(xué)習(xí)率為 2e-4。所有實驗均在 NVIDIA A40 GPU 上進(jìn)行。
實施過程
我們訓(xùn)練一個 YOLOv8 模型,從手繪指令中提取起點、路徑點和終點,提供關(guān)鍵點約束。這些約束用于篩選由 AnyGrasp 生成的抓取姿態(tài),以獲得最接近的姿態(tài)。通過 RGB-D 映射獲得的 3D 坐標(biāo)和抓取姿態(tài)隨后被輸入到視覺語言模型生成的 Python 函數(shù)中,用于基于代碼的低級控制。
操作任務(wù)
我們精心設(shè)計了 11 個任務(wù):8 個在真實環(huán)境中,3 個在模擬環(huán)境中,如圖 5 和圖 6 所示。對于我們的方法而言,所有任務(wù)和環(huán)境都是之前未見過的,并且引入了新的物體。我們的設(shè)計包括 7 個單步任務(wù),其中一些涉及存在干擾的雜亂環(huán)境,例如 “選擇所需物體” 或 “在物體之間移動”,這需要精確的空間對齊和軌跡跟蹤能力。此外,還有 4 個多階段任務(wù)(真實環(huán)境中的任務(wù) 6 - 8,模擬環(huán)境中的任務(wù) 3),用于進(jìn)一步測試對時空依賴關(guān)系的推理能力。
泛化到實際操作
-
真實世界設(shè)置與基線:在真實世界實驗中,我們使用兩個配備雙指抓手的機械臂:UFACTORY X-Arm 6 和 UR5。兩個校準(zhǔn)后的 RealSense D435 相機分別用于自上而下和第三人稱視角拍攝。兩個機械臂均以 20Hz 的控制頻率在末端執(zhí)行器增量控制模式下運行。我們將我們的方法與兩個基于語言條件策略的基線方法進(jìn)行比較,即 CoPa 和 VoxPoser,這兩種方法都利用 GPT 模型進(jìn)行低級策略控制。CoPa還使用 Set-of-Mark (SoM) 進(jìn)行對象標(biāo)記,作為視覺提示。為確保公平比較,所有方法都使用 GPT-4o 作為視覺語言模型。
-
動作評估指標(biāo):我們報告兩個評估操作執(zhí)行情況的指標(biāo):動作成功率,衡量達(dá)到定義目標(biāo)的任務(wù)百分比;時空對齊度,評估運動軌跡的一致性以及物體空間狀態(tài)與語義目標(biāo)的對齊程度。評估采用 6 分李克特量表。每個任務(wù)進(jìn)行 10 次試驗。
-
結(jié)果:表 1 顯示,Voxposer 和 CoPa 在空間精度任務(wù)及任務(wù) 5 中表現(xiàn)差,存在軌跡跟蹤問題,因基于語言的指令模糊,僅提供對象級信息,缺乏像素級精度。而 VIEW 在這些任務(wù)中表現(xiàn)優(yōu)異,其關(guān)鍵點模塊提供空間約束和路徑點,專注 RoVI 符號部分,對環(huán)境干擾不敏感,在真實操作中泛化性和魯棒性強。相較于其他使用視覺語言模型進(jìn)行時間序列推理的方法,VIEW 在長時任務(wù)(任務(wù) 6 - 8)上性能出色,能依據(jù)顏色線索分解多步任務(wù),降低時間推理復(fù)雜度。
仿真對比研究
-
仿真設(shè)置與基線:本節(jié)在模擬環(huán)境(以 SAPIEN 為模擬器、SIMPLER 為基礎(chǔ)環(huán)境)中,對比語言指令、目標(biāo)圖像和 RoVI 三種指令方法的操作性能。模擬實驗將我們的方法與在 Open X-Embodiment 數(shù)據(jù)集上訓(xùn)練的端到端、基于語言條件的視覺語言動作模型 RT-1-X 和 Octo 進(jìn)行評估比較,Octo 還支持目標(biāo)圖像輸入模式。實驗設(shè)置采用與它們訓(xùn)練集相同的機械臂和背景,并在雜亂環(huán)境中設(shè)置新任務(wù)以測試泛化能力。
-
定量分析:這三個任務(wù)在雜亂環(huán)境中執(zhí)行,語言和目標(biāo)圖像輸入在這種環(huán)境下都面臨重大挑戰(zhàn)。特別是長時任務(wù),在這種條件下幾乎無法完成。然而,我們的方法表現(xiàn)異常出色。這些結(jié)果表明,端到端的視覺語言動作(VLA)模型在泛化到新任務(wù)方面存在困難,而我們的方法展示了強大的泛化能力,其在模擬中的性能與真實世界的結(jié)果緊密對齊。
-
定性研究:為了研究 RoVI 的潛在能力,我們進(jìn)一步與自然語言和目標(biāo)圖像條件策略進(jìn)行定性比較。如圖 8 所示,RoVI 是唯一一種能夠有效傳達(dá)路徑信息和最終狀態(tài)的指令格式。相比之下,目標(biāo)圖像策略在最終狀態(tài)方面表現(xiàn)良好,但在描述運動路徑方面存在不足。對于像 RT-X 和 Octo 這樣的方法,生成的路徑和最終狀態(tài)缺乏一致性,并且空間精度有限。在評估的示例中,RoVI 在時空對齊方面顯示出明顯的優(yōu)勢。
RoVI 在現(xiàn)代視覺語言模型中的理解情況
-
評估指標(biāo):我們采用上下文學(xué)習(xí)和零樣本方法,評估視覺語言模型在新任務(wù)和環(huán)境中從 RoVI 提取語義含義的能力(上下文學(xué)習(xí)詳情見補充材料)。通過使用人類反饋評估語言響應(yīng)準(zhǔn)確性,來衡量 “任務(wù)與規(guī)劃” 成功率。評估分 “任務(wù)” 和 “規(guī)劃” 兩部分,“任務(wù)” 評估模型對任務(wù)定義的理解,“規(guī)劃” 評估模型分解復(fù)雜 RoVI 任務(wù)的推理能力,每個任務(wù)進(jìn)行 10 次試驗。將訓(xùn)練的模型與 GPT4o、Gemini-1.5 Pro 等大規(guī)模模型,以及 InternLM-XComposer2-VL-7B 等較小規(guī)模模型進(jìn)行比較。
-
結(jié)果:表 2 表明,先進(jìn)的大型模型(Gemini、GPT-4o、Claude)即便未在專家數(shù)據(jù)集訓(xùn)練,也能通過上下文學(xué)習(xí)較好地理解 RoVI 條件下的操作任務(wù)。參數(shù)少于 130 億的模型則難以有效理解。模擬和真實測試中,GPT-4o 整體表現(xiàn)最佳,且相比在 RoVI Book 數(shù)據(jù)集訓(xùn)練的 LLaVA-13B 等較小模型,先進(jìn)大型模型在 RoVI 理解上泛化性更強。不過,任務(wù)步驟增多時,大型模型理解準(zhǔn)確率會降低。而在 RoVI Book 數(shù)據(jù)集訓(xùn)練的 LLaVA-13B 在長序列任務(wù) 8 中表現(xiàn)出色,證明該數(shù)據(jù)集對學(xué)習(xí) RoVI 條件下的多步任務(wù)有效。
- 錯誤分析:值得注意的是,在 RoVI Book 上訓(xùn)練的 LLaVA13B 在任務(wù)和規(guī)劃預(yù)測中的成功率較低,但在動作執(zhí)行方面表現(xiàn)出色。結(jié)合圖 9,我們可以得出結(jié)論,執(zhí)行函數(shù)映射動作和序列錯誤,使其不受感知錯誤的影響。在 RoVI Book 上訓(xùn)練后,與執(zhí)行函數(shù)相關(guān)的錯誤顯著減少。
消融研究
- 繪圖方式:類似于語言提示通常需要 “提示工程”,自由形式的繪圖可能會表現(xiàn)出顯著的可變性。手繪指令引發(fā)了另一個問題:我們?nèi)绾蝺?yōu)化繪圖風(fēng)格以增強模型理解?在本節(jié)中,我們將繪圖風(fēng)格分為兩個不同的類別進(jìn)行比較,以研究它們對視覺語言模型推理性能的影響。相應(yīng)的可視化和實驗如圖 10 和表 3 所示。我們的發(fā)現(xiàn)表明,更結(jié)構(gòu)化的幾何風(fēng)格能帶來更好的理解效果。
- 關(guān)鍵點模塊:我們評估所提出的、由訓(xùn)練的 YOLOv8 模型構(gòu)成的關(guān)鍵點模塊,在四個不同 RoVI 任務(wù)中生成空間約束的能力。將其與三個流行的開放詞匯檢測模型對比,采用兩種策略:(1)手動輸入目標(biāo)語義信息作為文本提示;(2)識別定位箭頭組件(箭頭頭部和尾部)。評估的兩個主要指標(biāo)為:以像素為單位測量的歐幾里得距離誤差,用以評估精度;50 像素閾值下的平均精度均值(mAP),用以衡量準(zhǔn)確性。表 4 中的結(jié)果表明,盡管關(guān)鍵點模塊的參數(shù)規(guī)模較小,但與基于 Transformer 的開放詞匯檢測模型相比,它能夠更有效地直接從像素空間中提取與任務(wù)相關(guān)的關(guān)鍵點。補充材料中提供了其他限制和詳細(xì)信息。
總結(jié)
我們提出了用戶友好且空間精確的 RoVI,用以指導(dǎo)機器人任務(wù),替代自然語言;開發(fā)了視覺指令實體化工作流程(VIEW),在雜亂環(huán)境和長時任務(wù)中展現(xiàn)出強大的泛化性和魯棒性;創(chuàng)建了用于微調(diào)視覺語言模型的數(shù)據(jù)集,以更好理解 RoVI 并為邊緣設(shè)備部署做準(zhǔn)備。未來的研究將集中擴大 RoVI Book 數(shù)據(jù)集規(guī)模,收集更多種類的自由形式手繪指令,使模型廣泛理解人類用視覺符號傳達(dá)動態(tài)運動的一般原則;高效地訓(xùn)練較小規(guī)模(如 70 億參數(shù)規(guī)模)的模型,助力在機器人系統(tǒng)中部署邊緣設(shè)備。