【泡泡一分鐘】ClearGrasp:用於操作的透明物體的 3D 形狀估計

每天一分鐘,帶你讀遍機器人頂級會議文章

標題:ClearGrasp: 3D Shape Estimation of Transparent Objects for Manipulation

作者:Shreeyak S。 Sajjan, Matthew Moore, Mike Pan, Ganesh Nagaraja, Johnny Lee, Andy Zeng, Shuran Song

編譯:喻靖壹

稽核:柴毅,王靖淇

這是泡泡一分鐘推送的第 809 篇文章,歡迎個人轉發朋友圈;其他機構或自媒體如需轉載,後臺留言申請授權

摘要

透明物體是生活中常見的一部分,但它們具有獨特的視覺特性,使得標準的3D感測器難以對其進行準確的深度估計。在許多情況下,它們通常表現為位於物體後面的表面發生的嘈雜或失真的近似。為了應對這些挑戰,我們提出了ClearGrasp—一種用於從單個RGB-D影象中估計透明物體的準確3D幾何形狀以進行機器人操作的深度學習方法。給定透明物體的單個RGB-D影象,ClearGrasp使用深度卷積網路來推斷表面的法線、透明物體表面的掩膜和遮擋邊界。然後使用這些輸出來最佳化場景中所有透明表面的初始深度估計。為了訓練和測試ClearGrasp,我們構建了一個包含超過50000張RGB-D影象的大規模的合成數據集,以及一個包含286張透明物體的RGB-D影象及其真實幾何圖形的真實世界測試基準。實驗表明,ClearGrasp比單目深度估計基線要好得多,並且能夠推廣到現實世界的影象和新物件。我們還證明了ClearGrasp可以開箱即用,以提高抓取演算法對透明物體的效能。程式碼、資料以及基準將會發布。

補充材料:https://sites。google。com/view/cleargrasp

【泡泡一分鐘】ClearGrasp:用於操作的透明物體的 3D 形狀估計

圖1。ClearGrasp利用深度學習和合成訓練資料根據單個RGB-D影象推測透明物體的準確3D幾何形狀。估計的幾何形狀能直接用於下游機器人操作任務(例如抽吸和平口虎鉗抓取)。

【泡泡一分鐘】ClearGrasp:用於操作的透明物體的 3D 形狀估計

圖2。概述。給定具有透明物體的場景的 RGB-D 影象,ClearGrasp 使用三個網路來推斷 1) 表面法線,2) 透明表面的掩膜,其深度不可靠,以及 3) 透明表面與場景中其餘表面之間的遮擋和接觸邊緣然後將這些輸出組合起來並用作全域性最佳化的輸入,該最佳化返回一個調整後的深度圖,用於校正和完善輸入深度。

【泡泡一分鐘】ClearGrasp:用於操作的透明物體的 3D 形狀估計

圖3。透明物體的深度誤差:I類誤差,深度缺失,通常是由表面的鏡面反射引起的。II 類誤差,不準確的深度估計(返回背景深度而不是物件深度),是由表面材料的透明度引起的。

【泡泡一分鐘】ClearGrasp:用於操作的透明物體的 3D 形狀估計

圖4。合成數據。頂行是渲染影象及其真實情況(表面法線、邊界、深度和掩膜)。底部兩行是不同物件的渲染。

【泡泡一分鐘】ClearGrasp:用於操作的透明物體的 3D 形狀估計

圖5。真實世界基準。從左到右:資料採集過程,不透明瓶替換透明瓶過程的GUI截圖,透明物體的RGB-D影象,替換噴漆物體的RGB-D影象。

【泡泡一分鐘】ClearGrasp:用於操作的透明物體的 3D 形狀估計

圖6。已知物體(第 1-2 行)和新物體(第 3-4 行)在真實世界基準上的定性結果。更多結果可以在補充材料網站上找到。

表I。 泛化。ClearGrasp可以泛化到真實影象和在訓練中沒見過的新透明物體。

表II。 基線比較和消融研究。

【泡泡一分鐘】ClearGrasp:用於操作的透明物體的 3D 形狀估計

表III。訓練資料。不同訓練步驟下的法線估計效能:有/無域外真實世界資料 (MP+SN) 和域內合成數據 (SYN)。

【泡泡一分鐘】ClearGrasp:用於操作的透明物體的 3D 形狀估計

圖7。 接觸邊的作用。透過使用接觸邊緣(中間列)訓練我們的邊界估計模型,ClearGrasp 預測透明物件的深度比沒有接觸邊緣(右列)更好。

Abstract

Transparent objects are a common part of everyday life, yet they possess unique visual properties that make them incredibly difficult for standard 3D sensors to produce accurate depth estimates for。 In many cases, they often appear as noisy or distorted approximations of the surfaces that lie behind them。 To address these challenges, we present ClearGrasp – a deep learning approach for estimating accurate 3D geometry of transparent objects from a single RGB-D image for robotic manipulation。 Given a single RGB-D image of transparent objects, ClearGrasp uses deep convolutional networks to infer surface normals, masks of transparent surfaces, and occlusion boundaries。 It then uses these outputs to refine the initial depth estimates for all transparent surfaces in the scene。 To train and test ClearGrasp, we construct a large-scale synthetic dataset of over 50,000 RGB-D images, as well as a real-world test benchmark with 286 RGB-D images of transparent objects and their ground truth geometries。 The experiments demonstrate that ClearGrasp is substantially better than monocular depth estimation baselines and is capable of generalizing to real- world images and novel objects。 We also demonstrate that ClearGrasp can be applied out-of-the-box to improve grasping algorithms’ performance on transparent objects。 Code, data, and benchmarks will be released。 Supplementary materials: https://sites。google。com/view/cleargrasp

TAG: ClearGraspRGB透明物體深度