朱松純團隊最新研究:機器人可與人類推心置腹!還說要造AI大白

安羿閣 萬博 發自 凹非寺

量子位 | 公眾號 QbitAI

機器人能否像《超能陸戰隊》中的“大白”一樣,理解人類情感和價值觀,統一目標齊心協力解決問題?

朱松純團隊最新研究:機器人可與人類推心置腹!還說要造AI大白

現在,這個問題有了答案:

北京大學人工智慧研究院

朱松純團隊

最新研究,提出一個可解釋人工智慧(XAI)系統,證明了機器人與人類真的能做到“推心置腹”,在工作中能像人類夥伴一樣統一OKR。

也就是朱松純團提出的

實時雙向人機價值對齊

目前,朱松純團隊的這項研究成果,已經在頂級學術期刊 Science,及其子刊 Science Robotics上發表,而且都是

頭條位置

朱松純團隊最新研究:機器人可與人類推心置腹!還說要造AI大白

朱松純團隊最新研究:機器人可與人類推心置腹!還說要造AI大白

人類與機器人,價值如何對齊?

為了驗證人類和機器人的價值能否對齊,朱松純團隊設計了一個需要人類和機器人共同協作完成任務的小遊戲,由人類擔任指揮官,率領3個機器人夥伴進行。

具體任務,就是在一個未知的20×20網格地圖中,尋找一條從基地(位於地圖的右下角)到目的地(位於地圖的左上角)的安全路徑。

需要注意的是,這張地圖上的不同網格中,安放有不同裝置,比如爆炸物,或者物資等等,只有當機器人靠近時才能顯示。

朱松純團隊最新研究:機器人可與人類推心置腹!還說要造AI大白

除了尋找安全路徑,在遊戲開始之前,人類指揮官還會接到4個額外任務目標,指揮官需要4選1,任務包括:

儘快到達目的地;

調查地圖上的可疑裝置;

探索更大的區域;

收集資源。

這4個任務目標,代表的是人類指揮官的

價值取向

,而機器人需要人類指揮官不斷進行

任務反饋

,進而理解指揮官的價值取向,自主行動。

具體過程,就是人類和機器人關於價值目標一輪一輪的反饋和解釋,最終趨向一致:

朱松純團隊最新研究:機器人可與人類推心置腹!還說要造AI大白

整個遊戲分為3組,實驗結果發現,機器人單方面接受人類指令,也就是單純的作為傾聽者時,在遊戲進度達到25%時,透過對至少60%的目標重要性進行正確排序,快速與使用者的價值進行對齊。

而作為表達者時,機器人向人類進行反饋,對遇到的狀況提供

完整解釋

時,在遊戲進度50%的時候,實現了人類指揮官和機器人價值的統一。

機器人對遇到的狀況僅僅是簡要解釋的話,需要在遊戲進度達到75%的時候二者價值才能完成統一。

朱松純團隊最新研究:機器人可與人類推心置腹!還說要造AI大白

上面的實驗結果,說明了人類與機器人協作過程中,雙向價值對齊的過程:

首先,機器人透過接受人類的反饋,機器人可以逐漸更新自己的價值函式與人類的價值保持一致。

其次,在與機器人在不斷的互動中,人類也逐漸形成對機器人能力和意圖的感知,雖然二者的價值在遊戲上半場沒有實現統一,但從下半場的情況來看,人類對機器人價值評估能力的感知仍然可以提高。

最後,當機器人的價值選擇變得穩定,使用者對機器人的評估也穩定下來,從機器人對人類價值的評估到人類價值的真實值,以及從人類對機器人價值的評估到機器人當前價值的收斂配對,形成了基於人類真實價值取向的雙向價值對齊。

朱松純團隊最新研究:機器人可與人類推心置腹!還說要造AI大白

結果擺在上面,而證明人類與機器人之間的價值雙向對齊,需要一個理論,也是一切研究成果背後的原理:

可解釋人工智慧*

(XAI)*,一種基於靜態機器-動態人類的交流方式,解釋人工智慧每項決策背後邏輯的理論,學界此前多有研究。

朱松純團隊在實驗遊戲中的機器人系統,也是基於XAI,但不同之處在於,人類和機器人的交流方式發生了改變。

為了能使人與機器協作完成目標,需要一種人類價值主導的、動態機器-動態使用者的交流模式。

在這種模式中,機器人除了向人類展示自己的決策過程外,還將根據使用者的價值目標即時調整行為。

朱松純團隊最新研究:機器人可與人類推心置腹!還說要造AI大白

同時為了即時掌握使用者資訊,研究團隊採用通訊學習取代了傳統的資料驅動的機器學習方法,機器將根據所推斷出的使用者的價值目標進行合理解釋。

這種合作導向的人機協作要求機器具有心智理論(ToM),即理解他人的心理狀態(包括情緒、信仰、意圖、慾望、假裝與知識等)的能力。

這一點在多智慧體和人機互動環境中尤為重要,因為機器只有在理解人類的狀態和意圖後才能更好地執行任務,其決策行為又會影響人類做出判斷,從而形成一個以人類為中心、人機相容的協作過程。

簡單來說,採用上述方法進行人類和機器人的協同作業,可以同時賦予雙方兩個身份,傾聽者&表達者。

這也就意味著,機器人至少在理論上,可以像你的人類團隊夥伴一樣,理解你的心思和價值取向,統一目標進行高效協同了。

朱松純團隊最新研究:機器人可與人類推心置腹!還說要造AI大白

論文作者介紹

朱松純團隊由UCLA袁路遙、高曉豐、北京通用人工智慧研究院鄭子隆、北京大學人工智慧研究院朱毅鑫等人組成。

該團隊長期從事可解釋人工智慧相關工作。此文是團隊第二篇發表在 Science Robotics 的關於可解釋人工智慧的論文。

這項研究涵蓋了認知推理、自然語言處理、機器學習、機器人學等多學科領域,是朱松純教授團隊交叉研究成果的集中體現。

朱松純教授本人是人工智慧領域全球著名的學者,曾任UCLA統計學系與計算機系教授,UCLA計算機視覺、認知、學習與自主機器人中心主任。

朱松純團隊最新研究:機器人可與人類推心置腹!還說要造AI大白

目前,朱松純同時在清華大學和北京大學任講席教授並擔任管理職務。他主持的北京通用人工智慧研究院(BIGAI)也是由清華大學、北京大學等單位合作支撐。

One More Thing

最後回到開頭的那個問題,《超能陸戰隊》中的“大白”,真的能在現實中存在嗎?

事實上,朱松純團隊已經在著手研究了。

據悉,目前朱松純團隊所在的北京通用人工智慧研究院,聯合北京大學人工智慧研究院等單位,正在就人工智慧的統一理論和認知架構進行研究。

未來的方向,就是打造具有自主感知、認知、決策、學習、執行和社會協作能力,符合人類情感、倫理與道德觀念的通用智慧體。

怎麼樣,你開心的時候能陪你開心,你悲傷的時候能為你拭去淚水,這樣的機器人,要不要來一個?

TAG: 機器人人類價值人工智慧朱松純