ICLR 2022入選論文線上分享預告：一作解讀，不容錯過

2022-03-11由機器之心發表于科技

ICLR介紹

ICLR，全稱為International Conference on Learning Representations（國際學習表徵會議），自2013年成立至今僅九年的時間，它已被學術研究者們廣泛認可，在谷歌學術全領域的熱門出版物中排名第十。

谷歌學術“熱門出版物”榜單

目前ICLR 2022已經放榜，總提交數量為3328篇，最終有1095篇論文入選，其中Oral 54篇，Spotlight 176篇，Poster 865篇。

嘉賓及論文介紹

▼點選卡片展開▼

何俊賢

卡內基梅隆大學

計算機科學學院博士生

論文：

Towards a Unified View of Parameter-Efficient Transfer Learning

論文簡介：

在下游任務上對大型預訓練語言模型進行微調已經成為NLP的遷移學習正規化。然而，傳統的方法是對預訓練模型的所有引數進行微調，隨著模型規模和任務數量的增加，這種方法變得不切實際。最近的工作提出了一系列引數高效的遷移學習方法，這些方法只對少數（額外的）引數進行微調，可以達到強大的效能。雖然效果顯著，但已有方法背後成功的關鍵因素以及它們之間的聯絡並沒有被完全理解。在本文中，我們把已有的引數高效的微調方法分解成不同的設計元素，並提出了一個統一的框架建立它們之間的聯絡。透過對機器翻譯、文字摘要、語言理解和文字分類等任務的實驗探究，我們藉助這個統一的框架總結出了現有方法中的重要設計元素去理解它們為什麼有效。此外，我們的統一框架使得我們能夠結合最優的設計去例項化出新的引數高效微調方法，這些方法比以前的方法調整引數更少，同時更加有效，在四個NLP任務上取得了與微調所有引數相當的結果。

金汶功

美國博德研究所

博士後研究員

論文：

Iterative Refinement Graph Neural Network for Antibody Sequence-Structure Co-design

論文簡介：

抗體是一種與病原體結合並激活免疫系統的蛋白質。抗體結合的特異性由這些 Y 形蛋白末端的CDR序列決定。在這篇論文中，我們提出了一種生成模型來自動設計具有特定性質的CDR序列。以前的生成方法假設蛋白質的3D結構已知並作為模型輸入，但這樣的假設往往不能滿足實際應用需要。為此，我們設計一個聯合生成模型，同時生成CDR的序列和其3D結構。我們的模型在迭代改進其預測的全域性結構的同時，自迴歸地生成序列。為了提高速度，我們以粗粒度的方式對CDR內部和外部結構關係進行建模。我們的方法在測試集上實現了更好的perplexity和3D結構準確度，並且能更好的設計能夠與病原體結合的抗體。

孟強

Aibee愛筆智慧

演算法工程師

論文：

Improving Federated Learning Face Recognition via Privacy-Agnostic Clusters

論文簡介：

聯邦學習可以一定程度緩解公眾日益高漲的對人臉識別中資料隱私的擔憂。然而傳統聯邦學習在該任務上表現不盡如人意，其主要原因是這個任務的特殊性：在客戶端之間傳播類中心對識別效果十分重要但是卻會導致隱私洩漏。為了解決隱私-效能的矛盾，本文提出了PrivacyFace，一個透過在客戶端之間分享輔助的去隱私資訊來極大提升聯邦人臉識別效能的框架。PrivacyFace 主要由兩個組成部分組成：首先，提出一個實用的差分隱私本地聚類（DPLC）演算法從本地類中心中提取去隱私資訊。接著利用設計的全域性一致性人臉識別損失函式來達到客戶端之間的全域性最佳化，從而得到更優的特徵空間。該框架在數學上滿足差分隱私，僅僅引入輕量的開銷就能顯著提升聯邦學習下人臉識別的效能（例如，在IJB-B和IJB-C的TAR@FAR=1e-4 提升為+9。63%和+10。26%）。在大規模資料集上的詳細結果以及消融實驗顯示了我們方法的有效性和實用性。

林森

亞利桑那州立大學

博士後研究員

論文：

TRGP： Trust Region Gradient Projection for Continual Learning

論文簡介：

災難性遺忘是持續學習的主要挑戰之一。為了解決這個問題，一些現有的方法對新任務的最佳化空間進行了限制，以儘量減少對舊任務的干擾。但是，這可能會導致新任務的學習效能不理想，尤其是當新任務與舊任務密切相關時。為了應對這一挑戰，論文提出了用於持續學習的信任區域梯度投影（TRGP），透過對任務相關性的有效分析來促進任務間的前向知識轉移。具體來講，論文引入了“信任區域”的概念，利用梯度在舊任務子空間的投影，快速有效地為新任務選擇最相關的舊任務。然後，論文提出了一種縮放權重投影，透過縮放矩陣巧妙地重用信任區域中所選舊任務的凍結權重。透過聯合最佳化縮放矩陣和模型，同時沿著與舊任務子空間正交的方向更新模型，TRGP可以有效地促進知識轉移而不會忘記。大量實驗表明，TRGP比相關的最先進方法有著顯著的效能提升。

陳驍宇

北京大學

在讀博士生

論文：

Understanding Domain Randomization for Sim-to-real Transfer

論文簡介：

強化學習演算法在很多模擬環境任務下取得了很好的效能，包括雅達利遊戲、圍棋、星際爭霸等。然而，當直接應用於機器人等實際場景任務時，強化學習面臨探索成本高、樣本量不足等問題。在這類問題上，模擬-現實遷移學習（sim-to-real transfer）被廣泛運用於將模擬環境中學到的知識遷移到真實場景。domain randomization作為模擬-現實遷移的一種常見的演算法，在很多工上均取得了很好的演算法效能。儘管這一演算法在實驗上取得了廣泛成功，其演算法高效性並沒有得到清晰的理論理解。針對這一問題，我們提出了用於解釋模擬-現實遷移學習的理論框架。我們將模擬環境建模為包含隱式引數空間的馬爾可夫決策模型集合，並證明了domain randomization演算法在沒有任何真實環境互動的情況下也能取得很好的效能。我們的理論強調了帶記憶的模型結構對於domain randomization演算法的重要性。

金慶

美國東北大學

在讀博士

論文：

F8Net： Fixed-Point 8-bit Only Multiplication for Network Quantization

論文簡介：

本文針對深度模型的量化問題在現有先進方法上做了進一步研究，旨在實現僅用八位定點數乘法的量化模型，去除模型中的32位乘法操作，而使用移位操作進行替換。文中先對定點數的計算方法和統計特徵進行了分析，對高斯分佈和整流高斯分佈（rectified Gaussian distribution）的相對量化誤差和定點數小數位之間的關係進行了統計分析，得出了隨機變數標準差和最優量化小數位的經驗規律。基於此，文中提出了一種使用標準差推斷量化所用定點數小數位的新方法。同時，針對當下流行的引數化啟用值截斷閾值（PACT）量化方法，文中進行了深入分析，指出了其與定點數量化之間的內在聯絡和形式上的等價性，提出了一種新型深度模型的定點數量化演算法。針對殘差網路中同胞層（sibling layers）對截斷值（clipping level）與定點數小數位的共享問題，文中也進行了探討。利用所提出的方法，文中在ImageNet資料集上對不同神經網路結構（包括ResNet18、ResNet50、MobileNet、MobileNetV2）進行了實驗，均達到了當前最優水平。本文已被機器學習領域國際頂級會議ICLR收錄為口頭報告。

吳海旭

清華大學軟體學院

在讀碩士生

論文：

Anomaly Transformer： Time Series Anomaly Detection with Association Discrepancy

論文簡介：

現實世界中的系統每時每刻都在產生著大量的時序資料，從中發掘出異常，對於保持系統穩定執行、避免經濟損失至關重要。不同於以往基於點向特徵的方案，本文提出了一種基於時序關聯差異的異常檢測演算法Anomaly Transformer，利用每個時刻對整體序列關聯、區域性先驗關聯的不同進行檢測。Anomaly Transformer在模型架構、學習策略、異常判據三個層面提供了完整的解決方案，在5個領域的資料上取得了最優的效果，被ICLR 2022接收為Spotlight（亮點）論文。

吳梓陽

粵港澳大灣區數字經濟研究院

AI金融與深度學習研究中心

助理研究員

論文：

How Low Can We Go： Trading Memory for Error in Low-Precision Training

論文簡介：

低精度運算能幫助我們用更少的耗能、儲存以及時間訓練深度學習模型，但這些資源的節省並非沒有代價：低精度運算會帶來更大的計算誤差並導致模型的預測能力下降。本文的核心問題是研究如何在保證最終模型的效能的同時，透過選取最佳的低精度配置，來節省計算資源。我們的核心思路是將這個問題描述為一個超引數選取問題，並運用元學習（meta-learning）的思想來解決低精度與模型效能之間的取捨問題。透過本文的方法，對任意的目標資料集，我們都可以迅速地找到合適的低精度配置來達到資源節約以及效能保證的雙重目標。

王子豐

美國伊利諾伊大學香檳分校

在讀博士

論文：

PAC-Bayes Information Bottleneck

論文簡介：

一種基於PAC-Bayes泛化誤差界的資訊瓶頸

解釋神經網路的泛化能力是近年來人工智慧領域的一項熱點研究。神經網路中儲存的資訊量被認為是可以衡量網路泛化能力的指標。如果我們能計算神經網路中的資訊量，則可以解釋和推斷網路的泛化能力，解開深度學習的黑箱，並且指導其最佳化和設計。在這篇文章中，我們提出了一種能快速計算神經網路權重中儲存資料資訊量的演算法，並且基於此構建了一種新的資訊瓶頸（PAC-Bayes IB）。我們在實驗中證明，這種資訊度量能從多個角度解釋和追蹤網路的泛化能力，比如在不同的寬度和深度，資料大小，資料噪音程度，批次大小等。並且，使用該種資訊量作為約束能夠訓練更好的神經網路。

董力

微軟亞洲研究院自然語言處理組

研究員

論文：

BEiT： BERT Pre-Training of Image Transformers

論文簡介：

近年來，大規模自監督預訓練在自然語言領域率先取得了突破性進展，帶來了全新的“預訓練-微調”正規化。在GPT、BERT等一系列 “出圈” 工作中，生成式自監督佔絕對優勢。但在計算機視覺領域，大多數工作沿著對比學習的思路進行推進，而生成式自監督預訓練一直沒有得到應有的重視。基於這個觀察，我們提出了BEiT自監督模型，使用掩碼影象建模（Masked Image Modeling）這一任務，對Vision Transformers進行預訓練。BEiT首次驗證了生成式預訓練可以取得比對比學習更好的微調結果，並在影象分類以及語義分割上取得了優異結果。更重要的是，透過擺脫對監督式預訓練的依賴，BEiT可以高效使用無標註圖片將Vision Transformers擴充套件到巨大的模型規模。相信BEiT在視覺領域所引發的“生成式自監督復興”，會加速領域到達“the BERT moment of CV”。

TAG：論文模型任務學習方法

ICLR 2022入選論文線上分享預告：一作解讀，不容錯過

相關推薦