戴上頭環可重見光明,ProjectTokyo專案正幫助弱視人群重啟社交

選自microsoft blog

機器之心編譯

參與:高璇、Geek AI

作為人工智慧的重要應用場景,「人工智慧+人機互動」在幫助殘障人士拓展自身能力,使其融入社交活動的方面正發揮著越來越重要的作用。來自微軟 Project Tokyo 團隊的研究人員正與視力殘障人士緊密合作,力圖為他們開啟一扇通往「光明」世界的大門。

戴上頭環可重見光明,ProjectTokyo專案正幫助弱視人群重啟社交

Theo(左)是一名失明的 12 歲男孩,在對 Project Tokyo 系統進行使用者測試時與 Microsoft 高階研究軟體開發工程師 Tim Regan(中)和 Martin Grayson(右)進行互動。

藉助AI,盲人可以在房間裡「分辨」人臉

2019 年 12 月中旬的一個陰雨天,12 歲的失明男孩 Theo 坐在擁擠的廚房裡的一張桌子旁。他棕色的頭髮上綁著一個帶有攝像機的頭帶,攝像機旁是深度感測器和揚聲器。他左右轉動自己的頭,直到位於頭帶正前方的攝像頭對準桌子另一端的一個人的鼻子。

Theo 透過位於耳朵上方的頭帶上的揚聲器聽到「砰」的一聲提示音,然後聽到「Martin」的名字。

Theo 說:「我花了五秒才找到你,Martin,」他將頭和身體朝向 Martin Grayson 的方向。Grayson 是微軟劍橋研究實驗室的高階研究軟體開發工程師,此時他站在一個齊膝高的黑色箱子旁,箱子中裝著執行機器學習模型所需的計算硬體,Theo 用來「看見」他的原型系統正是由這些硬體驅動的。

Theo 的母親 Elin 正站在另一側的牆邊,她說:「我喜歡你轉身找到他的方式。這真是太好了。」

當 Theo 開始轉向面對他的母親時,揚聲器又「砰」地響了一聲,叫出了「Tim」的名字。

「Tim,你在這兒,」Theo 高興地「凝視」著實驗室的另一位高階軟體開發工程師 Tim Regan 說。Tim Regan 將 Theo 帶到他的身邊,教他先進的計算機編碼技能。Theo 和他的母親每兩個月會到 Regan 的家中上一次程式設計課。他們在一個研究專案中相識,該專案促成了 Code Jumper 的開發(Code Jumper 是一種物理程式語言,適用於各種視力水平的兒童)。

Theo 現在是和 Regan、Grayson、研究員 Cecily Morrison 以及其團隊一起開展 Project Tokyo 專案的盲人和弱視群體中的成員之一,該專案是一項多方面的研究工作,旨在建立智慧個人助理技術,利用人工智慧來擴充套件人們的現有能力。

對於 Theo 而言,這意味著可以使用一些工具識別出周圍的人。

Theo 說:「能夠感知人們處於我周圍的什麼位置真是令人興奮。不僅是說話的人,還有所有沉默的人,你們都可以看到他們的臉,而我卻不能」。

戴上頭環可重見光明,ProjectTokyo專案正幫助弱視人群重啟社交

Martin Grayson(左)是位於劍橋的微軟研究實驗室的高階研究軟體開發工程師,他將微軟研究員 Cecily Morrison(右)註冊到 Project Tokyo 系統中進行使用者測試。

Morrison 指出,研究專案 Project Tokyo 的長期目標是展示如何構建能夠擴充套件所有使用者能力的智慧個人助理。她認為人工智慧的未來趨勢並不是構建可以完成特定任務的端到端系統,而是一組人們可以以合適自己的方式使用的資源。

「我們不必說,‘你是盲人,我只是讓您學著使用這個工具。’我們說,‘嘿,你就是你,我剛剛構建了一個適合你的系統,」她說。「我不需要了解你。我不需要在你身上貼標籤。我們有一個可以採用並適應每個人的系統,你可以直接使用它。」

巴西殘奧會

Project Tokyo 誕生於 2016 年初,是當時微軟高管們發起的一項挑戰,希望建立的人工智慧系統不僅僅只能完成諸如獲取體育比分、天氣預報或物體識別之類的任務。Morrison 說,為盲人和弱視人群建立工具很適合該專案,因為殘疾人通常是新技術早期的採用者。

Morrison 說:「這並不是說,『讓我們為盲人制造一些東西。』 我們正在與盲人合作,以幫助我們想象有關人工智慧新體驗的未來。」

Morrison 和她的同事 Ed Cutrell 都是位於華盛頓州雷蒙德的微軟研究實驗室的高階首席研究員,他們被任命領導該專案。他們都是與盲人或弱視人士一起設計相關技術的專家,他們決定從瞭解智慧個人助理技術如何增強或擴充套件使用者的能力開始進行研究。

首先,他們跟隨一群具有不同視力水平的運動員和觀眾,從英國出發前往巴西里約熱內盧的 2016 年殘奧會,觀察他們在進行機場導航、出席運動場館、旅遊觀光等活動時如何與其他人互動。Cutrell 指出,需要明確的是對社交環境的豐富理解如何幫助盲人或弱視人士瞭解他們的環境。

他說:「作為人類,我們對如何與人互動有著非常非常微妙且複雜的社會理解——瞭解房間裡的人是誰,他們在做什麼,與我的關係是什麼,這些關係是否對我有用。對於盲人來說,很多我們認為理所當然的線索是沒有的」。

為了促進用於盲人和弱視人士的技術的研究,的社群舉辦了一系列研討會,研討重點是可以提供這種體驗的潛在技術。Peter Bosher 是一名 50 多歲的音訊工程師,他一生大部分時間都是在黑暗中度過的,他與 Project Tokyo 團隊合作。他說,這種可以為人們提供周圍人資訊的技術概念立刻引起了他的共鳴。

「每次當我遇到兩個或以上的人在場的場合,特別是如果我不認識其中的一些人,交流就會特別困難,因為人們使用越來越多的眼神交流和肢體語言來表明他們現在正在說話,」他說。「作為一個盲人,想要正常交流真的太難了。」

戴上頭環可重見光明,ProjectTokyo專案正幫助弱視人群重啟社交

位於華盛頓州雷蒙德市的微軟研究組織的高階首席研究員 Ed Cutrell 是 Project Tokyo 的共同負責人。在他的桌子上放著幾個經過改良的微軟全息透鏡(Microsoft HoloLens),專案研究人員正在使用它們幫助盲人和弱視人士瞭解他們所處的社交環境。

改良的「HoloLens」

當 Project Tokyo 的研究人員瞭解了他們想要建立的人工智慧體驗的型別後,他們便著手構建這項技術。他們從原始的 Microsoft HoloLens 開始,這是一種混合現實頭戴裝置,可將全息圖投影到使用者可以操作的真實世界中。

格雷森在微軟劍橋實驗室的技術演示中說:「HoloLen 為我們提供了構建實時的人工智慧助理所需的、可以傳達社交環境的大量資訊。」

例如,該裝置有一個灰度相機陣列,可提供接近 180 度的環境視角,以及用於高精度面部識別的高解析度彩色相機。此外,使用者耳朵上方的揚聲器可實現音訊空間化——聲音的產生就好像來自使用者周圍的特定位置。

然後,Project Tokyo 團隊的機器學習專家開發了一系列計算機視覺演算法,可提供有關使用者所處的環境中存在人員的不同優先順序資訊。這些模型在 GPU 上執行,這些 GPU 位於 Grayson 的黑色箱子中,再把這些箱子運到 Regan 的家中,讓 Theo 進行使用者測試。

例如,一種模型可以檢測環境中人的姿勢,從而可以感知到人與使用者之間的距離及其位置。另一個模型則分析高解析度相機採集的照片流,以識別人臉並確定名字。所有資訊都透過音訊提示傳遞給使用者。

假如裝置檢測出使用者左側一米遠處有一個人,則系統將播放聽起來像是來自左側一米遠處的咔嗒聲。如果系統識別出該人的臉部,它將發出「砰」的聲音,並且如果該系統知道這個人的名字,它將叫出其姓名。

當用戶僅聽到咔嗒聲但想知道該人是誰時,第二層聲音會像鬆緊帶一樣將使用者的視線引向該人的臉部。當鏡頭的中央攝像頭與人的鼻子正對時,使用者會聽到尖銳的咔噠聲,如果系統知道此人,則會播報他的名字。

Bosher 說:「我特別喜歡它的地方是,它能給你的視線以角度,因為我永遠無法確定您的頭所能感知的角度是多少」。在設計過程的早期,他與 Project Tokyo 團隊合作就音訊體驗進行合作,隨後他又回到了劍橋實驗室討論他的經驗並驗證最新版本。「這將是學習肢體語言的好工具。」

戴上頭環可重見光明,ProjectTokyo專案正幫助弱視人群重啟社交

音訊工程師 Peter Bosher(中)是一名盲人,他在設計過程的早期就與 Project Tokyo 團隊開始了合作,他與研究人員 Martin Grayson(左)和 Cecily Morrison(右)在微軟位於劍橋的研究實驗室查驗了該系統的最新版本。

使用者一起製作原型

隨著 Project Tokyo 團隊對技術的開發和發展,研究人員通常會邀請成年盲人或弱視人士測試該系統並提供反饋。例如,為了促進更直接的社互動動,研究團隊從 HoloLens 上去掉了鏡頭。

一些使用者表示希望在不頻繁轉頭的情況下,不引人注意地獲得系統收集的資訊,因為頻繁轉頭讓他們在社交中感到尷尬。這些反饋促使 Project Tokyo 團隊開發了一些功能,可以幫助使用者快速瞭解周圍的人,例如詢問概況並獲得系統可以識別的所有人的姓名和空間資訊。

另一個實驗性功能是,當某人看向他們時,它會發出空間通知,這是因為擁有健康視力的人通常會建立眼神交流來發起對話。但是發出這個通知後沒有緊跟著報名字。

「當你看到某人時,我們已經使用了這個名字了,」Grayson 向 20 多歲的弱視測試員 Emily 解釋,她參觀了劍橋實驗室以瞭解最新功能。「在不播報名字的情況下,它可能會把你的注意力轉向想引起你注意的人,當你轉向他們,你就可以知道他們的名字。」

Emily 說:「我完全同意。視力正常的人就會這樣反應。他們會用眼角餘光觀察別人,或者你會有某種感覺,然後叫出別人的名字」。

研究人員向 Emily 展示了改良後的 HoloLens,它的攝像頭上方還裝有一個 LED 燈帶。白光跟蹤最接近使用者的人,當這個人被識別後,燈會變成綠色。該功能可讓交流夥伴或旁邊的人知道他們已經被人看見,從而使對話更加自然。

LED 燈帶還讓人們可以離開裝置的視野而不會被看見(如果他們選擇這麼做)。「當你知道自己即將被人看見時,你也可以決定不被人看見,」Morrison 指出。「如果你知道什麼時候會被人看見,你就知道什麼時候可以不被人看見」。

戴上頭環可重見光明,ProjectTokyo專案正幫助弱視人群重啟社交

盲人音訊工程師 Peter Bosher(左)在英國劍橋的微軟研究實驗室中查驗了 Project Tokyo 的最新版本。Bosher 佩戴了改良後的 Microsoft HoloLens,它將視野中的影象傳輸到計算機硬體進行處理。膝上型電腦螢幕上的儀表板顯示了這個視野。HoloLens 可以看到 Microsoft 研究人員 Cecily Morrison 和 Martin Grayson。

教授社互動動技能的工具

隨著技術研究的不斷深入,Project Tokyo 正在探索研究過程中發現的使用方法:利用該技術幫助盲人或弱視兒童發展社交能力。

一份學術研究顯示,三分之二的失明或弱視兒童表現出與自閉症兒童相一致的社交行為。例如,許多失明或視力低下的孩子似乎對談話物件漠不關心,常常將頭靠在桌子上,耳朵露在外面。

Morrison 和 Cutrell 圍繞 Project Tokyo,探索迷你版系統是否可以用來幫助盲人或弱視兒童,讓他們瞭解如何利用肢體來與人互動。

Microsoft 研究人員已經與 Theo 建立了聯絡,希望透過他來了解該系統適應兒童的需要,例如考慮了兒童愛坐在一起的習慣,而且很少坐著不動。

Theo 回憶說:「當播報人們的名字時,它試圖同時播報兩個名字,而我要求改變這一項,因為基本上這樣誰的名字也聽不清」。

研究人員還探究了 Theo 如何使用該系統。例如,在一次家庭用餐期間,他開始反覆細微地將頭左右移動,使系統讀出與他交談的人的名字。

Morrison 說:「我們認為他正在用這個系統來重新整理他對某個人位置的記憶,從而構建他的空間注意力。這是我們從未預料到的,但這是一種非常有效的策略,可以幫助他保持注意力,如果他可以保持注意力,就可以持續就某一主題交談。」

該技術的其他用途更符合研究人員的假設,即幫助他培養在一個由視力正常的人主導的世界中進行社互動動的技能。

例如,像其他失明或弱視的孩子一樣,Theo 會在社交場合中將頭放在桌子上,一隻耳朵露在外邊。研究人員與 Theo 一起玩了一系列遊戲,旨在說明當他使用身體和頭部與視力正常的人交談時可能產生的社交力量。

在實驗室的遊戲中,研究人員要解決一組問題。Theo 知道答案,研究人員僅知道該主題,並且只有在 Theo 看著他們時他們才能交談。當 Theo 移開視線時,他們就會停止交談。

「突然之間,他意識到自己可以控制一段對話,」Morrison 說。「他開始理解能夠看著某人的力量,這種力量賦予了他對話的能力,因此使他擁有了全新社交能力,這是他以前無法企及的」。

現在 Theo 很少再把頭放在桌子上說話了。無論是否佩戴著改良版的 HoloLens,他都會將自己的身體和臉朝向他想交流的人。這種變化是否會長期持續還尚未可知,研究人員也不確定其他失明或視力低下的孩子是否也會做出類似反應。

「我們從 Theo 身上看到了希望,這雖然只是個例,但讓我們對未來的情況充滿期待,誰知道未來會發生什麼呢,」Cutrell 說。「這就是我們要進入下一階段的原因,該階段將研究更多的兒童和更廣的年齡範圍」。

戴上頭環可重見光明,ProjectTokyo專案正幫助弱視人群重啟社交

微軟劍橋研究實驗室的機器學習研究員 Sebastian Tschiatchek 正在研究讓人們可以使 Tokyo Project 系統更加個性化的功能。Jonathan Banks 攝影。

Project Tokyo 未來的發展方向

Project Tokyo 的研究工作仍在繼續,包括機器學習的新方向,讓使用者可以根據自己的喜好調整系統。劍橋實驗室的機器學習研究員 Sebastian Tschiatschek 正在研究一種功能,使使用者能夠向系統顯示他們想聽的資訊型別和數量。

個性化的發展要求 Tschiatschek 採取非常規的機器學習方法。

他說:「我們想做的是以某種數學形式將問題歸一化,做到這一點並不那麼容易。許多開發工作都是透過嘗試,與人們進行互動,瞭解他們的喜惡,並透過改進演算法來實現」。

他解釋說,對個性化的需求之所以存在,是因為盲人或弱視人士具有不同的視力水平,因此對資訊需求也不同。此外,系統使用者在被告知他們已知的資訊時,會感到沮喪。

Tschiatschek 說:「要實現 Project Tokyo 的願景,必須要把很多目前無法解決的問題結合起來」。

最終,Project Tokyo 將展示出如何構建可擴充套件所有使用者的能力的智慧個人助理。為了實現這一目標,Morrison、Cutrell 及他們的同事將繼續與盲人或視力低下的人,包括更多的兒童一起合作。

「我們在西奧身上看到的情況令人十分受鼓舞,」在 Regan 家進行系統測試的第二天,Morrison 在她的辦公室說。「這是因為他正以前所未有的方式掌控著自己的世界」。

越來越多的兒童參與到了 Project Tokyo 專案中,其中就包括 Morrison 7 歲的兒子 Ronan,他自出生以來就失明瞭。

她補充說:「我認為我們將在 Ronan 身上看到這一點,我很期待。」

參考連結:

https://news。microsoft。com/innovation-stories/project-tokyo/

TAG: TheoprojectTOKYOMorrison盲人