麻省理工團隊訓練“透視”機器視覺，隔牆看清人體動作，不受黑暗影響

2021-12-19由 DeepTech深科技發表于科技

機器視覺有超人的識別人類面部、識別物體的能力。它還可以識別很多種不同的動作，儘管目前的識別能力還比不上人類。但它也有一定的侷限，當人臉或物體部分被遮擋時，機器就懵了；在光線嚴重不足的時候，它們也會“兩眼一抹黑”。

但是，

電磁波卻不會因為遮擋或者光線問題而受限。

不論是白天還是黑夜，無線電都充斥著我們的世界。它們很容易穿過牆壁，並透過人體傳播和反射。研究人員根據這一特性已經開發出各種利用Wi-Fi無線訊號來觀察門後情況的方法。但是這些無線電有一個缺陷，其解析度非常低，影象十分嘈雜，有各種干擾物的反射，這使得人們很難真的知道門背後發生了什麼。

這種情況下，可見光影象和無線電影象就可以成為一對最佳伴侶，完全可以用一方的優勢來克服另一方的缺點。

麻省理工學院的李天紅和他的同事們找到了一種模型，

可以透過可見光影象訓練無線電視覺系統來識別人們的動作

。新的無線電視覺系統可以在可視光成像失敗的情況下，在大範圍內看到人們在做什麼。“我們引入了一個神經網路模型，在光線不好的情況下，它可以穿過牆壁和遮擋物來檢測人類的行為。”李天紅說。

圖 | 圖片顯示了研究人員的兩個測試用例。左邊，兩個人在握手，其中一個在牆後面。在右邊，一個人躲在黑暗中，把一個物體扔向另一個正在打電話的人。下面一行顯示了模型生成的骨骼標識和動作預測。（來源：論文）

他們使用了一個巧妙的技巧，即利用可見光和無線電波記錄同一場景的影片影象。

機器視覺系統可以從可見光影象中識別人類行為，然後將這些影象與同一場景的無線電影象融合起來。

但難點在於，要確保整個學習過程關注的是人體動作，而不是像背景這樣的其他特徵。因此，他們引入了一箇中間步驟，在這個步驟中，機器生成三維簡筆畫模型，重現場景中人們的動作。

“透過將訊號輸入轉換成這種基於骨架的簡化表示，我們的模型可以從基於視覺和基於無線電頻率的資料進行集中學習，並允許這兩個任務互相幫助。”論文中顯示。

圖 | 定性的結果。圖中顯示了各種場景下 RF-Action 的輸出。最上面的兩行顯示了模型在可見場景中的表現；最下面的兩行顯示了研究者的模型在部分/完全遮擋和糟糕的照明條件下的效能。所示骨架為模型生成的中間三維骨架的二維投影（來源：論文）

透過這種方式，系統學會在可見光下識別動作，在黑暗中或者有障礙物的情況下，利用無線電波識別同樣的動作。研究人員稱：“我們的研究表明，

在可視場景下，我們模型的識別精度和基於視覺的動作識別系統的精度是一樣的，但是在不可見的情況下，我們的系統依然可以達到精確的識別率。

”

這是一項有很大應用潛力的技術。因為

它超出了當下基於視覺的識別系統的效能。

最基礎的應用是在弱光條件下或者門緊閉的情況下，在出現故障的場景中進行救援或者偵查工作。另外，因為在可見光識別系統下人們都是可識別的，這就帶來了嚴重的隱私問題。但是無線電系統沒有面部識別的解析度，只識別行為而不識別人臉，這就不會帶來隱私恐慌。

這套動作識別系統可以安裝在人們家中，並將其整合到智慧家居系統中。當然，它也可以安裝在老人院，有老人摔倒時可以提醒相關服務部門，而且這樣做不會有太大的隱私風險。它比傳統的影片監控少了些許侵入性，老人也不必佩戴感測器或要記著給他們的裝置充電。

-End-

參考：

https：//www。technologyreview。com/s/614470/machine-vision-has-learned-to-use-radio-waves-to-see-through-walls-and-in-darkness/

https：//arxiv。org/pdf/1909。09300。pdf

相關推薦