全国最大色婷婷,亚洲人日本国产一区,国产亚洲免费视频播放

機器人視覺指令：提升三維空間和雜亂環(huán)境中機器人操作準(zhǔn)確率

自然語言作為人機交互主要媒介，存在空間精度不足、在安靜場所使用受限等問題。為此，我們引入機器人視覺指令（RoVI）這一全新范式，以對象為中心的手繪符號引導(dǎo)機器人任務(wù)，利用多種元素編碼時空信息。為使機器人更好地理解 RoVI 并基于其生成精確動作，我們提出視覺指令實體化工作流程（VIEW），借助視覺語言模型解釋 RoVI，提取關(guān)鍵點解碼約束并生成三維動作。我們還整理了一個包含15000 個實例的專用數(shù)據(jù)集微調(diào)小型視覺語言模型，便于邊緣部署。該方法經(jīng) 11 項新任務(wù)驗證，泛化能力強，VIEW 在涉及多步動作、干擾和軌跡跟蹤要求的真實世界未知任務(wù)場景中，成功率達(dá)到 87.5%，代碼和數(shù)據(jù)集即將發(fā)布。

自然語言雖在人機交互中直觀便捷，但借助大語言模型將其轉(zhuǎn)換為機器人動作時存在挑戰(zhàn)，如描述物體空間細(xì)節(jié)困難，表達(dá)空間需求易模糊冗長，且在某些公共場所語音交流不適宜。視覺模態(tài)能更直接精確傳達(dá)時空信息，但目標(biāo)圖像輸入與用戶操作順序相悖，軌跡繪制對用戶有挑戰(zhàn)、可讀性低，實際應(yīng)用不友好。

為解決這些局限，我們提出一種新的通信范式：機器人視覺指令（RoVI），如圖 1 左側(cè)所示。這是一種手繪草圖指令方法，是以對象為中心的表示方式，利用二維符號語言來指揮三維實體操作。該范式為自然語言指令提供了一種直觀、簡潔且無聲的替代方案。其基本元素包括箭頭、圓圈和各種顏色，用于表示不同的動作時間順序，數(shù)字則用于標(biāo)記雙臂系統(tǒng)中的不同實體。箭頭指示軌跡和方向，圓圈表示可操作位置，用于在雜亂環(huán)境中識別目標(biāo)物體。顏色清晰地傳達(dá)時間順序。通過整合這些元素，RoVI 將一系列三維坐標(biāo)壓縮成人類可理解的二維視覺語言，從而在用戶友好性、可解釋性和時空對齊方面實現(xiàn)了最佳平衡，如圖 2 左側(cè)所示。

為了更好地理解 RoVI 并用于指導(dǎo)機器人操作，我們引入視覺指令實體化工作流程（VIEW）。這是一個將二維 RoVI 指令轉(zhuǎn)換為機器人操作的三維動作序列的流程，借助視覺語言模型轉(zhuǎn)換為語言響應(yīng)和 Python 代碼函數(shù)，分解任務(wù)為單步子任務(wù)，提出關(guān)鍵點模塊提取關(guān)鍵點作為約束，基于關(guān)鍵點策略指導(dǎo)機器人執(zhí)行任務(wù) 。

除了上述框架，我們開發(fā)了一個包含 15000 個訓(xùn)練實例的數(shù)據(jù)集，使模型能夠通過參數(shù)高效微調(diào)（PEFT）學(xué)習(xí) RoVI 能力。通過上述設(shè)計，我們的方法在真實世界和模擬環(huán)境中的各種未知任務(wù)中均表現(xiàn)出色，展現(xiàn)出強大的泛化性和魯棒性。與基于語言的策略相比，我們的方法在雜亂環(huán)境、多步操作和軌跡跟蹤任務(wù)中性能

本文的主要貢獻(xiàn)如下：

提出一種新穎的人機交互范式：RoVI。它采用手繪符號表示作為機器人指令，在任務(wù)定義中傳達(dá)更精確的時空信息。

設(shè)計了一個流程 VIEW（視覺指令實體化工作流程），以實現(xiàn)基于 RoVI 的操作任務(wù)。

開發(fā)了一個開源數(shù)據(jù)集，使模型能夠?qū)W習(xí) RoVI 能力。通過該數(shù)據(jù)集訓(xùn)練的輕量級模型表明，視覺語言模型能夠通過最少的計算資源和簡單的微調(diào)學(xué)習(xí)這一能力。

機器人視覺指令設(shè)計

我們介紹 RoVI 的范式設(shè)計，它由兩種視覺基元組成：箭頭和圓圈。所有簡單或復(fù)雜的任務(wù)都被分解為三個以對象為中心的動作：從 A 移動到 B（由箭頭表示）、旋轉(zhuǎn)對象（一個表示可操作區(qū)域的圓圈，搭配一個表示旋轉(zhuǎn)角度的箭頭）以及拿起 / 選擇（由圓圈表示）。

剖析箭頭

我們使用二維箭頭表示機器人動作的軌跡和時間順序。一個箭頭被分解為三個部分：尾部（起點）、箭身（路徑點）和頭部（終點）。起點標(biāo)記物體上的抓取位置，終點表示動作的目標(biāo)。中間路徑點捕捉運動路徑，形成一個有序集合：

其中是由關(guān)鍵點模塊提取的二維坐標(biāo)。

剖析圓圈

圓圈突出顯示物體上的關(guān)鍵交互區(qū)域。中心點代表可操作中心，可用于各種任務(wù)：作為抓取點、旋轉(zhuǎn)軸點，或作為諸如按下按鈕等動作的施力點。

繪制設(shè)置

RoVI 可直接使用手寫筆和繪圖軟件在平板電腦或個人電腦上繪制，采用明亮的顏色以確保在各種背景下都清晰可見：綠色（RGB：0, 255, 94）用于操作任務(wù)的第一步，藍(lán)色（RGB：0, 255, 247）用于第二步，粉色（RGB：255, 106, 138）用于第三步。對于更多步驟，可以靈活分配額外顏色。我們設(shè)計了兩種繪圖風(fēng)格：自由風(fēng)格（隨意手繪）和幾何風(fēng)格（由幾何組件構(gòu)成，便于視覺語言模型更清晰地解釋）。我們用圓圈表示可操作區(qū)域，并將箭頭頭部替換為標(biāo)準(zhǔn)三角形。

RoVI Book 數(shù)據(jù)集

為使視覺語言模型能夠理解 RoVI，我們開發(fā)了一個用于 RoVI 條件策略的數(shù)據(jù)集，稱為 RoVI Book。如圖 7 所示，該數(shù)據(jù)集包含 15000 個圖像文本問答對。它包括：（1）標(biāo)注有 RoVI 的初始任務(wù)觀察圖像；（2）作為默認(rèn)提示的簡單查詢；（3）由 GPT - 4o 生成的答案，涵蓋 RoVI 分析、任務(wù)名稱、細(xì)粒度規(guī)劃步驟和 Python 函數(shù)。原始任務(wù)和圖像選自 Open - X Embodiment 數(shù)據(jù)集。我們的數(shù)據(jù)集涵蓋 64% 的單步任務(wù)和 36% 的多步任務(wù)，涉及五種基本操作技能：移動物體、旋轉(zhuǎn)物體、拿起、打開抽屜 / 柜子和關(guān)閉抽屜 / 柜子。答案最初由 GPT - 4o 生成，隨后通過基于人類反饋的語義過濾進(jìn)行優(yōu)化。每個任務(wù)保留了 Open - X Embodiments 中的原始語義任務(wù)名稱，同時我們對 RoVI 進(jìn)行數(shù)據(jù)增強，引入 3 - 8 種視覺變體，包括不同的路徑、繪圖風(fēng)格和線條粗細(xì)。

視覺指令實體化工作流程

工作流程概述

VIEW 由三個組件組成：（1）用于理解 RoVI 和進(jìn)行規(guī)劃的視覺語言模型；（2）用于生成時空約束的關(guān)鍵點模塊[28]；（3）用于執(zhí)行機器人動作的低級策略。

如圖 3 所示，該流程從視覺語言模型開始，其輸入為手繪的 RoVI 、初始觀察圖像以及系統(tǒng)提供的默認(rèn)提示。然后，視覺語言模型生成語言響應(yīng)和執(zhí)行函數(shù)。同時，關(guān)鍵點模塊從 RoVI 中提取關(guān)鍵點，生成時空約束，包括起點、多個路徑點和終點。最后，基于輸入的和關(guān)鍵點坐標(biāo)，低級策略執(zhí)行相應(yīng)的動作。

用于 RoVI 理解的視覺語言模型

鑒于視覺語言模型在視覺感知、內(nèi)置世界知識和推理方面的能力，我們使用它們來解釋 RoVI，并將其轉(zhuǎn)換為自然語言響應(yīng)。語言響應(yīng)作為人類反饋的通用接口，能夠驗證視覺語言模型的理解程度，并將其與下游的低級策略相連接。與直接在 SE (3) 動作空間中輸出參數(shù)的端到端策略相比，納入了基于語言的動作表示，這使得在不同的任務(wù)和環(huán)境中具有更有效的泛化能力。

語言響應(yīng)由視覺語言模型通過思維鏈（Chain - of - Thought，CoT）推理過程生成。它包括粗粒度的任務(wù)預(yù)測，提供高級任務(wù)描述，以及帶有子目標(biāo)序列的細(xì)粒度規(guī)劃，將任務(wù)分解為更小的步驟。隨后，每個子目標(biāo)被轉(zhuǎn)換為可執(zhí)行的代碼函數(shù)，這些函數(shù)定義了機器人手臂所需的動作或技能，如 move () 或 grasp ()。這些函數(shù)與關(guān)鍵點約束相結(jié)合，形成用于動作執(zhí)行的低級策略。

關(guān)鍵點模塊

為了從像素空間中的 RoVI 解碼時空信息，我們根據(jù)顏色標(biāo)識符將多步任務(wù)分解為單步任務(wù)。單步任務(wù)之間的轉(zhuǎn)換被轉(zhuǎn)換為關(guān)鍵點之間的運動，具體來說，是從步驟的終點到步驟j的起點。然后，經(jīng)過訓(xùn)練的關(guān)鍵點模塊提供關(guān)鍵點約束，其中包括末端執(zhí)行器坐標(biāo)序列以及在操作中關(guān)鍵點的語義功能，如起點、路徑點和終點。

我們采用 YOLOv8 作為，并構(gòu)建了一個包含 2000 張圖像的數(shù)據(jù)集用于其訓(xùn)練。與開放詞匯對象檢測相比，我們的策略簡化了在不同環(huán)境中對所有對象的檢測，以識別 RoVI 符號的組件，使其對環(huán)境變化或干擾對象的敏感性降低。

基于關(guān)鍵點的低級策略

我們提出一種基于關(guān)鍵點的低級策略，使機器人能夠遵循一系列定義為關(guān)鍵點的目標(biāo)姿態(tài)來執(zhí)行操作任務(wù)。這些關(guān)鍵點從 RGB 圖像中的動作箭頭中提取，并使用 RGB - D 相機的深度數(shù)據(jù)映射到三維坐標(biāo)。

這些N個關(guān)鍵點隨后被映射到 SE (3) 空間中的一系列期望末端執(zhí)行器姿態(tài)，表示為。初始姿態(tài)通過基于的抓取模塊獲得。這一系列姿態(tài)構(gòu)成了要執(zhí)行的動作。我們將動作分為兩類：平移（例如，移動到、推、拉）和旋轉(zhuǎn)（例如，翻轉(zhuǎn)、推倒、調(diào)節(jié)旋鈕）。在每個時間步t，機器人執(zhí)行以下操作：

狀態(tài)觀察：從 RGB - D 相機獲取當(dāng)前末端執(zhí)行器姿態(tài)和目標(biāo)關(guān)鍵點。

成本函數(shù)最小化：：通過運動規(guī)劃和插值向移動，最小化成本函數(shù)。

關(guān)鍵點轉(zhuǎn)換：如果，則標(biāo)記為已到達(dá)，并繼續(xù)移動到。直到時，當(dāng)前動作步驟結(jié)束。

每個時間步t的目標(biāo)小化：其中表示動作類型：平移時，旋轉(zhuǎn)時。

實驗分析

我們的實驗旨在深入研究以下問題：

RoVI 在真實世界和模擬環(huán)境中對未知環(huán)境和任務(wù)的泛化能力如何？
當(dāng)前的視覺語言模型對 RoVI 的理解程度如何？
RoVI 和 VIEW 的組件對整個流程的整體性能有何影響？

模型訓(xùn)練

我們選擇 GPT-4o 和 LLaVA13B 作為 VIEW 中的視覺語言模型，以控制機器人操作任務(wù)。我們還使用 LoRA 在我們的 RoVI Book 數(shù)據(jù)集上對 LLaVA - 7B 和 13B 模型進(jìn)行微調(diào)，訓(xùn)練一輪，學(xué)習(xí)率為 2e-4。所有實驗均在 NVIDIA A40 GPU 上進(jìn)行。

實施過程

我們訓(xùn)練一個 YOLOv8 模型，從手繪指令中提取起點、路徑點和終點，提供關(guān)鍵點約束。這些約束用于篩選由 AnyGrasp 生成的抓取姿態(tài)，以獲得最接近的姿態(tài)。通過 RGB-D 映射獲得的 3D 坐標(biāo)和抓取姿態(tài)隨后被輸入到視覺語言模型生成的 Python 函數(shù)中，用于基于代碼的低級控制。

操作任務(wù)

我們精心設(shè)計了 11 個任務(wù)：8 個在真實環(huán)境中，3 個在模擬環(huán)境中，如圖 5 和圖 6 所示。對于我們的方法而言，所有任務(wù)和環(huán)境都是之前未見過的，并且引入了新的物體。我們的設(shè)計包括 7 個單步任務(wù)，其中一些涉及存在干擾的雜亂環(huán)境，例如 “選擇所需物體” 或 “在物體之間移動”，這需要精確的空間對齊和軌跡跟蹤能力。此外，還有 4 個多階段任務(wù)（真實環(huán)境中的任務(wù) 6 - 8，模擬環(huán)境中的任務(wù) 3），用于進(jìn)一步測試對時空依賴關(guān)系的推理能力。

泛化到實際操作

真實世界設(shè)置與基線：在真實世界實驗中，我們使用兩個配備雙指抓手的機械臂：UFACTORY X-Arm 6 和 UR5。兩個校準(zhǔn)后的 RealSense D435 相機分別用于自上而下和第三人稱視角拍攝。兩個機械臂均以 20Hz 的控制頻率在末端執(zhí)行器增量控制模式下運行。我們將我們的方法與兩個基于語言條件策略的基線方法進(jìn)行比較，即 CoPa 和 VoxPoser，這兩種方法都利用 GPT 模型進(jìn)行低級策略控制。CoPa還使用 Set-of-Mark (SoM) 進(jìn)行對象標(biāo)記，作為視覺提示。為確保公平比較，所有方法都使用 GPT-4o 作為視覺語言模型。
動作評估指標(biāo)：我們報告兩個評估操作執(zhí)行情況的指標(biāo)：動作成功率，衡量達(dá)到定義目標(biāo)的任務(wù)百分比；時空對齊度，評估運動軌跡的一致性以及物體空間狀態(tài)與語義目標(biāo)的對齊程度。評估采用 6 分李克特量表。每個任務(wù)進(jìn)行 10 次試驗。
結(jié)果：表 1 顯示，Voxposer 和 CoPa 在空間精度任務(wù)及任務(wù) 5 中表現(xiàn)差，存在軌跡跟蹤問題，因基于語言的指令模糊，僅提供對象級信息，缺乏像素級精度。而 VIEW 在這些任務(wù)中表現(xiàn)優(yōu)異，其關(guān)鍵點模塊提供空間約束和路徑點，專注 RoVI 符號部分，對環(huán)境干擾不敏感，在真實操作中泛化性和魯棒性強。相較于其他使用視覺語言模型進(jìn)行時間序列推理的方法，VIEW 在長時任務(wù)（任務(wù) 6 - 8）上性能出色，能依據(jù)顏色線索分解多步任務(wù)，降低時間推理復(fù)雜度。

仿真對比研究

仿真設(shè)置與基線：本節(jié)在模擬環(huán)境（以 SAPIEN 為模擬器、SIMPLER 為基礎(chǔ)環(huán)境）中，對比語言指令、目標(biāo)圖像和 RoVI 三種指令方法的操作性能。模擬實驗將我們的方法與在 Open X-Embodiment 數(shù)據(jù)集上訓(xùn)練的端到端、基于語言條件的視覺語言動作模型 RT-1-X 和 Octo 進(jìn)行評估比較，Octo 還支持目標(biāo)圖像輸入模式。實驗設(shè)置采用與它們訓(xùn)練集相同的機械臂和背景，并在雜亂環(huán)境中設(shè)置新任務(wù)以測試泛化能力。
定量分析：這三個任務(wù)在雜亂環(huán)境中執(zhí)行，語言和目標(biāo)圖像輸入在這種環(huán)境下都面臨重大挑戰(zhàn)。特別是長時任務(wù)，在這種條件下幾乎無法完成。然而，我們的方法表現(xiàn)異常出色。這些結(jié)果表明，端到端的視覺語言動作（VLA）模型在泛化到新任務(wù)方面存在困難，而我們的方法展示了強大的泛化能力，其在模擬中的性能與真實世界的結(jié)果緊密對齊。
定性研究：為了研究 RoVI 的潛在能力，我們進(jìn)一步與自然語言和目標(biāo)圖像條件策略進(jìn)行定性比較。如圖 8 所示，RoVI 是唯一一種能夠有效傳達(dá)路徑信息和最終狀態(tài)的指令格式。相比之下，目標(biāo)圖像策略在最終狀態(tài)方面表現(xiàn)良好，但在描述運動路徑方面存在不足。對于像 RT-X 和 Octo 這樣的方法，生成的路徑和最終狀態(tài)缺乏一致性，并且空間精度有限。在評估的示例中，RoVI 在時空對齊方面顯示出明顯的優(yōu)勢。

RoVI 在現(xiàn)代視覺語言模型中的理解情況

評估指標(biāo)：我們采用上下文學(xué)習(xí)和零樣本方法，評估視覺語言模型在新任務(wù)和環(huán)境中從 RoVI 提取語義含義的能力（上下文學(xué)習(xí)詳情見補充材料）。通過使用人類反饋評估語言響應(yīng)準(zhǔn)確性，來衡量 “任務(wù)與規(guī)劃” 成功率。評估分 “任務(wù)” 和 “規(guī)劃” 兩部分，“任務(wù)” 評估模型對任務(wù)定義的理解，“規(guī)劃” 評估模型分解復(fù)雜 RoVI 任務(wù)的推理能力，每個任務(wù)進(jìn)行 10 次試驗。將訓(xùn)練的模型與 GPT4o、Gemini-1.5 Pro 等大規(guī)模模型，以及 InternLM-XComposer2-VL-7B 等較小規(guī)模模型進(jìn)行比較。
結(jié)果：表 2 表明，先進(jìn)的大型模型（Gemini、GPT-4o、Claude）即便未在專家數(shù)據(jù)集訓(xùn)練，也能通過上下文學(xué)習(xí)較好地理解 RoVI 條件下的操作任務(wù)。參數(shù)少于 130 億的模型則難以有效理解。模擬和真實測試中，GPT-4o 整體表現(xiàn)最佳，且相比在 RoVI Book 數(shù)據(jù)集訓(xùn)練的 LLaVA-13B 等較小模型，先進(jìn)大型模型在 RoVI 理解上泛化性更強。不過，任務(wù)步驟增多時，大型模型理解準(zhǔn)確率會降低。而在 RoVI Book 數(shù)據(jù)集訓(xùn)練的 LLaVA-13B 在長序列任務(wù) 8 中表現(xiàn)出色，證明該數(shù)據(jù)集對學(xué)習(xí) RoVI 條件下的多步任務(wù)有效。

錯誤分析：值得注意的是，在 RoVI Book 上訓(xùn)練的 LLaVA13B 在任務(wù)和規(guī)劃預(yù)測中的成功率較低，但在動作執(zhí)行方面表現(xiàn)出色。結(jié)合圖 9，我們可以得出結(jié)論，執(zhí)行函數(shù)映射動作和序列錯誤，使其不受感知錯誤的影響。在 RoVI Book 上訓(xùn)練后，與執(zhí)行函數(shù)相關(guān)的錯誤顯著減少。

消融研究

繪圖方式：類似于語言提示通常需要 “提示工程”，自由形式的繪圖可能會表現(xiàn)出顯著的可變性。手繪指令引發(fā)了另一個問題：我們?nèi)绾蝺?yōu)化繪圖風(fēng)格以增強模型理解？在本節(jié)中，我們將繪圖風(fēng)格分為兩個不同的類別進(jìn)行比較，以研究它們對視覺語言模型推理性能的影響。相應(yīng)的可視化和實驗如圖 10 和表 3 所示。我們的發(fā)現(xiàn)表明，更結(jié)構(gòu)化的幾何風(fēng)格能帶來更好的理解效果。

關(guān)鍵點模塊：我們評估所提出的、由訓(xùn)練的 YOLOv8 模型構(gòu)成的關(guān)鍵點模塊，在四個不同 RoVI 任務(wù)中生成空間約束的能力。將其與三個流行的開放詞匯檢測模型對比，采用兩種策略：（1）手動輸入目標(biāo)語義信息作為文本提示；（2）識別定位箭頭組件（箭頭頭部和尾部）。評估的兩個主要指標(biāo)為：以像素為單位測量的歐幾里得距離誤差，用以評估精度；50 像素閾值下的平均精度均值（mAP），用以衡量準(zhǔn)確性。表 4 中的結(jié)果表明，盡管關(guān)鍵點模塊的參數(shù)規(guī)模較小，但與基于 Transformer 的開放詞匯檢測模型相比，它能夠更有效地直接從像素空間中提取與任務(wù)相關(guān)的關(guān)鍵點。補充材料中提供了其他限制和詳細(xì)信息。

總結(jié)

我們提出了用戶友好且空間精確的 RoVI，用以指導(dǎo)機器人任務(wù)，替代自然語言；開發(fā)了視覺指令實體化工作流程（VIEW），在雜亂環(huán)境和長時任務(wù)中展現(xiàn)出強大的泛化性和魯棒性；創(chuàng)建了用于微調(diào)視覺語言模型的數(shù)據(jù)集，以更好理解 RoVI 并為邊緣設(shè)備部署做準(zhǔn)備。未來的研究將集中擴大 RoVI Book 數(shù)據(jù)集規(guī)模，收集更多種類的自由形式手繪指令，使模型廣泛理解人類用視覺符號傳達(dá)動態(tài)運動的一般原則；高效地訓(xùn)練較小規(guī)模（如 70 億參數(shù)規(guī)模）的模型，助力在機器人系統(tǒng)中部署邊緣設(shè)備。

行業(yè)資訊

參觀登記

參展登記

亚洲小视频你懂得,一区二区中文字幕,久久久国产精品最新,精品无人区乱码1区2区3区在,国产精品久久久999免费,视频在线二区,久久国产视频在线观看,亚洲欧美日韩在线观看网站,狠狠操夜夜操天天干天天

首頁

展會概況

展商中心

觀眾服務(wù)

商旅服務(wù)

新聞中心

聯(lián)系我們