微軟swin開源計算機視覺模型,可透過機器學習進行資料分析和分析!

機器之心報道

編輯:維度

屠榜各大 CV 任務的微軟 Swin Transformer,近日開源了程式碼和預訓練模型。

自 2017 年 6 月谷歌提出 Transformer 以來,它便逐漸成為了自然語言處理領域的主流模型。最近一段時間,Transformer 更是開啟了自己的跨界之旅,開始在計算機視覺領域大展身手,湧現出了多個基於 Transformer 的新模型,如谷歌用於影象分類的 ViT 以及復旦、牛津、騰訊等機構的 SETR 等。由此,「Transformer 是萬能的嗎?」也一度成為機器學習社群的熱門話題。

不久前,微軟亞研的研究者提出了一種透過移動視窗(shifted windows)計算的分層視覺 Transformer,他們稱之為 Swin Transformer。相比之前的 ViT 模型,Swin Transformer 做出了以下兩點改進:其一,引入 CNN 中常用的層次化構建方式構建分層 Transformer;其二,引入區域性性(locality)思想,對無重合的視窗區域內進行自注意力計算。

論文連結:https://arxiv。org/pdf/2103。14030。pdf

首先來看 Swin Transformer 的整體工作流,下圖 3a 為 Swin Transformer 的整體架構,圖 3b 為兩個連續的 Swin Transformer 塊。

微軟swin開源計算機視覺模型,可透過機器學習進行資料分析和分析!

該研究的亮點在於利用移動視窗對分層 Transformer 的表徵進行計算。透過將自注意力計算限制在不重疊的區域性串列埠,同時允許跨視窗連線。這種分層結構可以靈活地在不同尺度上建模,並具有影象大小的線性計算複雜度。下圖 2 為在 Swin Transformer 架構中利用移動視窗計算自注意力的工作流:

微軟swin開源計算機視覺模型,可透過機器學習進行資料分析和分析!

模型本身具有的特性使其在一系列視覺任務上都實現了頗具競爭力的效能表現。其中,在 ImageNet-1K 資料集上實現了 86。4% 的影象分類準確率、在 COCO test-dev 資料集上實現了 58。7% 的目標檢測 box AP 和 51。1% 的 mask AP。目前,在 COCO minival 和 COCO test-dev 兩個資料集上,Swin-L(Swin Transformer 的變體)在目標檢測和例項分割任務中均實現了 SOTA。

微軟swin開源計算機視覺模型,可透過機器學習進行資料分析和分析!

此外,在 ADE20K val 和 ADE20K 資料集上,Swin-L 也在語義分割任務中實現了 SOTA。

開原始碼和預訓練模型

Swin Transformer 論文公開沒多久之後,微軟官方於近日在 GitHub 上開源了程式碼和預訓練模型,涵蓋影象分類、目標檢測以及語義分割任務。上線僅僅兩天,該專案已收穫 1900 星。

微軟swin開源計算機視覺模型,可透過機器學習進行資料分析和分析!

專案地址:https://github。com/microsoft/Swin-Transformer

首先影象分類任務,Swin-T、Swin-S、Swin-B 和 Swin-L 變體模型在 ImageNet-1K 和 ImageNet-22K 資料集上的準確率結果如下:

微軟swin開源計算機視覺模型,可透過機器學習進行資料分析和分析!

其次目標檢測任務:Swin-T、Swin-S、Swin-B 和 Swin-L 變體模型在 COCO 目標檢測(2017 val)資料集上的結果如下:

微軟swin開源計算機視覺模型,可透過機器學習進行資料分析和分析!

最後語義分割任務:Swin-T、Swin-S、Swin-B 和 Swin-L 變體模型在 ADE20K 語義分割(val)資料集上的結果如下。目前,Swin-L 取得了 53。50% 的 SOTA 驗證 mIoU 分數。

微軟swin開源計算機視覺模型,可透過機器學習進行資料分析和分析!

建新·見智 —— 2021亞馬遜雲科技 AI

線上大會

4月22日 14:00 - 18:00

為什麼有那麼多的機器學習負載選擇亞馬遜雲科技?大規模機器學習、企業數字化轉型如何實現?

《建新 · 見智——2021 亞馬遜雲科技 AI 線上大會》由亞馬遜雲科技全球人工智慧技術副總裁及傑出科學家 Alex Smola、亞馬遜雲科技大中華區產品部總經理顧凡領銜,40多位重磅嘉賓將在主題演講及6大分會場上為你深度剖析亞馬遜雲科技創新文化,揭秘 AI/ML 如何幫助企業加速創新。

分會場一:亞馬遜機器學習實踐揭秘

分會場二:人工智慧賦能企業數字化轉型

分會場三:大規模機器學習實現之道

分會場四:AI 服務助力網際網路快速創新

分會場五:開源開放與前沿趨

分會場六:合作共贏的智慧生態

6大分會場,你對哪個主題更感興趣?

TAG: SwinTransformer分會場集上亞馬遜