魚羊 發自 凹非寺
量子位 | 公眾號 QbitAI
微軟的Swin Transformer去年橫空出世,一舉突破了Transformer做視覺任務複雜度過高的問題。
這種把Transformer“卷積網路”化的做法,也成為當前ViT研究領域的熱門方向。
但現在,何愷明團隊的最新論文提出了不同的觀點:
在目標檢測任務上,像Swin Transformer那樣的複雜操作可能是沒有必要的。
只用普通ViT做骨幹網路,一樣能在目標檢測任務上拿下高分。
不對ViT引入分層設計
ViT可以說是打開了Transformer跨界處理視覺任務的新大門。
但原始ViT的問題在於,它是一個非層次化的架構。也就是說,ViT只有一個單一尺度的特徵圖。
於是在目標檢測這樣的任務中,ViT就面臨著兩個問題:
其一,如何在下游任務中用預訓練好的骨幹網路來處理好各種大小不同的物體?
其二,全域性注意力機制的複雜度與輸入影象尺寸的平方呈正比,在面對高解析度影象時,處理效率低下。
以Swin Transformer為代表,給出的解決方案是向CNN學習,將分層設計重新引入骨幹網路:
基於分層特徵圖,利用特徵金字塔網路(FPN)或U-Net等技術進行密集預測
將自注意力計算限制在不重疊的區域性視窗中,同時允許跨視窗連線,從而帶來更高的效率
而何愷明團隊的這篇新論文,則試圖尋找一個新的突破方向。
其核心,是放棄FPN設計。
具體而言,研究人員透過對ViT的最後一層特徵圖進行卷積或反捲積,得到了多尺度特徵圖,從而重建出一個簡單的FPN。
相比於標準特徵金字塔透過bottom-up、top-down和lateral connection做特徵融合的方法,可以說得上是簡單粗暴。
另外,在對高解析度影象進行特徵提取時,研究人員也採用了視窗注意力機制,但沒有選擇像Swin Transformer那樣做shift。
在進行資訊互動時,他們將block均分為四個部分,探索了兩種策略:全域性傳播和卷積傳播。
從表格中可以看出,採用4個卷積塊(conv block)的效果是最好的。
這種新方法被命名為ViTDet。
論文還提到,結合MAE方法進行預訓練,效果更好。
從實驗結果來看,以ViT作為骨幹網路的方法,在模型較大時,展現出了比Swin、MVITv2等採用分層策略的方法更優的效能。
研究人員表示:
使用普通ViT作為骨幹網路,基於MAE方法進行預訓練,由此得到的ViTDet能與之前所有基於分層骨幹網路的先進方法競爭。
Yanghao Li,本碩畢業於北京大學,現在在Facebook AI研究院擔任研究工程師。
Hanzi Mao,本碩畢業於華中科技大學,2020年在德州農工大學拿到博士學位,現為Facebook AI研究院高階研究科學家。
另外,除了何愷明,Ross Girshick大神也坐鎮了這篇論文。
論文地址:
https://arxiv。org/abs/2203。16527