“深度學習注意力機制”TKDE 2022研究綜述

“深度學習注意力機制”TKDE 2022研究綜述

新智元報道

【新智元導讀】

注意力機制(Attention Mechanism)是深度學習中常用的模組,作為一種資源分配方案,將有限的計算資源用來處理更重要的資訊,是解決資訊超載問題的主要手段。下面這篇是來自Erasmus University的Gianni Brauwers和Flavius Frasincar在TKDE上發表的《深度學習注意力機制》綜述論文。

注意力是一種重要的機制,可用於跨許多不同領域和任務的各種深度學習模型。這項綜述提供了一個關於深度學習注意力機制的重要概述。

各種注意力機制透過一個由注意力模型,統一符號,和一個全面的分類注意力機制組成的框架來進行解釋。

在此基礎上,本文綜述了注意力模型評價的各種方法,並討論了基於該框架的注意力模型結構表徵方法。最後,對注意力模型領域的未來工作進行了展望。

“深度學習注意力機制”TKDE 2022研究綜述

論文連結:https://ieeexplore。ieee。org/document/9609539/

引言

模擬人類注意力的想法最早出現在計算機視覺領域,試圖透過引入一個只關注影象特定區域而不是整個影象的模型來降低影象處理的計算複雜度,同時提高效能。

然而,我們今天所知道的注意力機制的真正起點通常是源於自然語言處理領域。Bahdanau等人的在機器翻譯模型中實現了注意力,以解決迴圈神經網路結構中的某些問題。

在Bahdanau等人的強調了注意力的優點後,注意力技術得到了改進,並迅速流行於各種任務,如文字分類、影象字幕、情感分析,以及語音識別。

注意力已經成為深度學習中的一種流行技術,原因有幾個。首先,整合了注意力機制的模型在上述所有任務和許多其他任務中都獲得了最先進的結果。

大多數注意力機制可以與基本模型聯合訓練,如使用規則反向傳播的迴圈神經網路或卷積神經網路。注意力向神經網路模型引入了一種特定型別的解釋,這種解釋通常被認為非常複雜。

Transformer模型的引入進一步證明了注意力的有效性,進一步提高了注意力機制的受歡迎程度。注意力最初是作為迴圈神經網路的擴充套件而引入的。然而,在中提出的Transformer模型是注意力研究的一個重大發展,因為它證明了注意力機制足以建立一個最先進的模型。

這意味著可以避免一些缺點,比如遞迴神經網路特別難以並行化的事實。就像引入最初的注意力機制一樣,Transformer模型是為機器翻譯建立的,但很快就被用於其他任務,如影象處理、影片處理和推薦系統。

本綜述的目的是解釋注意力的一般形式,並提供一個在深度學習注意力技術的全面概述。本綜述與之前的研究主要區別在於,其他的綜述一般都關注某個領域內的注意力模型。然而,這項綜述提供了一個跨領域的注意力技術概述。

我們將以一種通用的方式討論注意力技術,使它們能夠被理解並應用於各種領域。我們發現以往研究中提出的分類方法缺乏恰當區分各種注意力機制所需的深度和結構。某些重要的注意力技巧在以前的綜述中還沒有得到適當的討論,而其他提出的注意力機制似乎缺乏技術細節或直觀的解釋。

因此,在本文中,我們透過使用統一符號的單一框架,結合技術和直觀的解釋,提出了重要的注意力技術,並對注意力機制進行了全面的分類。

通用注意力模型

本節介紹一種注意力一般性與相應的符號。本節中介紹的框架將在本文的其餘部分中使用。

為了實現一個通用的注意力模型,首先需要描述一個可以使用注意力的模型的一般特徵。首先,我們將完整的模型稱為任務模型。這個模型只接受一個輸入,執行指定的任務,併產生所需的輸出。

例如,任務模型可以是一種語言模型,它將一段文字作為輸入,並將內容摘要、情緒分類或逐字翻譯成另一種語言的文字作為輸出。或者,任務模型可以獲取影象,併為該影象生成標題或分割。任務模型由四個子模型組成: 特徵模型、查詢模型、注意力模型和輸出模型。

“深度學習注意力機制”TKDE 2022研究綜述

注意力分類法

有許多不同型別的注意力機制和擴充套件,一個模型可以使用這些注意技術的不同組合。因此,我們提出了一種分類法,可以用來對不同型別的注意機制進行分類。

基於是否關注技術是設計來處理特定型別的特徵向量(相關特性),特定型別的模型查詢(查詢相關)或者它僅僅是一個通用的機制,分成三大類。這些類別及其子類別的進一步解釋將在下面的小節中提供。

“深度學習注意力機制”TKDE 2022研究綜述

特徵相關注意力機制

基於特定的一組輸入資料,特徵模型提取特徵向量,從而使注意力模型能夠關注這些不同的向量。這些特徵可能具有特定的結構,需要特殊的注意力機制來處理它們。可以對這些機制進行分類,以處理以下特徵特徵之一: 特徵的多樣性、特徵的級別或特徵的表示。

通用注意力機制

這個主要的類別包括了可以應用於任何型別的注意力模型的注意力機制。該元件的結構可以分解為以下幾個子方面:注意力評分函式、注意力對齊和注意力維度。

“深度學習注意力機制”TKDE 2022研究綜述

查詢相關的注意力機制

查詢是任何注意力模型的重要組成部分,因為它們直接決定從特徵向量中提取哪些資訊。這些查詢基於任務模型的期望輸出,可以解釋為文字問題。有些查詢具有特定的特徵,需要特定型別的機制來處理它們。

因此,這一類封裝了處理特定型別查詢特徵的注意力機制。這一類中的機制處理以下兩個查詢特徵之一:查詢的型別或查詢的多樣性。

“深度學習注意力機制”TKDE 2022研究綜述

注意力模型評價

在本節中,我們介紹了各種型別的注意力模型的評估。

首先,我們可以使用分類法來評估注意力模型的結構。對於這樣的分析,我們考慮注意力機制類別作為模型的正交維數。可以透過確定模型對每個類別使用的機制來分析模型的結構。

其次,我們討論了評價注意力模型表現的各種技術。其中,注意力模型的效能可以透過外部或內部效能測量來評估。

“深度學習注意力機制”TKDE 2022研究綜述

結論

本研究綜述了近年來關於深度學習中的注意力模型的研究進展。注意力機制已經成為深度學習模型的一個顯著發展,因為它們已經表明可以顯著提高模型效能,在幾個研究領域的各種任務中產生了最先進的結果。

我們提出了一個全面的分類,可以用來分類和解釋不同數量的注意力機制提出的文獻。分類法的組織基於任務模型的結構,該任務模型由一個特徵模型、一個注意力模型、一個查詢模型和一個輸出模型組成。此外,還使用基於查詢、鍵和值的框架討論了注意力機制。

最後,我們展示瞭如何使用外在和內在的測量方法來評估注意力模型的表現,以及如何使用分類方法來分析注意力模型的結構。

參考資料:

[1] H。 Larochelle and G。 E。 Hinton, “Learning to combine foveal glimpses with a third-order Boltzmann machine,” in 24th Annual Conference in Neural Information Processing Systems (NIPS 2010)。 Curran Associates, Inc。, 2010, pp。 1243–1251。

[2] V。 Mnih, N。 Heess, A。 Graves, and k。 kavukcuoglu, “Recurrent models of visual attention,” in 27th Annual Conference on Neural Information Processing Systems (NIPS 2014)。 Curran Associates, Inc。, 2014, pp。 2204–2212。

TAG: 注意力模型機制查詢綜述