7 Papers & Radios | CoRL 2021獎項；何愷明新論文讓計算機視覺通向大模型

2021-12-07由機器之心發表于科技

機器之心 & ArXiv Weekly Radiostation

參與：杜偉、楚航、羅若天

本週論文主要包括 MIT CSAIL 的研究摘得了本屆 CoRL 大會的最佳論文獎；哥倫比亞大學計算機科學系 Huy Ha、Shuran Song 的研究獲得了最佳系統論文獎。

目錄：

A System for General In-Hand Object Re-Orientation

FlingBot： The Unreasonable Effectiveness of Dynamic Manipulation for Cloth Unfolding

NLP From Scratch Without Large-Scale Pretraining： A Simple and Efficient Framework

Masked Autoencoders Are Scalable Vision Learners

NON-DEEP NETWORKS

A PSEUDODIFFERENTIAL PROOF OF THE RIEMANN HYPOTHESIS

EditGAN： High-Precision Semantic Image Editing

ArXiv Weekly Radiostation：NLP、CV、ML 更多精選論文（附音訊）

論文 1：A System for General In-Hand Object Re-Orientation

作者：Tao Chen， Jie Xu， Pulkit Agrawal

論文連結：https：//arxiv。org/abs/2111。03043

摘要：

由於高維驅動空間以及手指與物體之間接觸狀態的頻繁變化，手持物體的重定向一直是機器人技術中一個具有挑戰性的問題。該研究提出了一個簡單的無模型框架，該框架可以在機器手向上和向下的情況下學會對物體重定向。該研究展示了在這兩種情況下重定向 2000 多個幾何形狀不同的物體的能力。學得的策略在新物體物件上顯示出強大的零樣本遷移效能。該研究表明可以使用在現實世界中易獲得的觀察結果來提煉這些策略，使其適應實際生活中的日常操作。

研究者試圖尋求讓機器複製人類能力的方法，他們建立了一個更大的框架：一個可以用機械手重定向 2000 多個不同物體的系統，包括手掌心朝上和朝下的情況。這種從杯子、金槍魚罐頭、Cheez-It 盒子到任何東西的操縱能力，可以幫助機械手以特定的方式和位置快速拾取和放置物體，甚至可以推廣到看不見的物體。

推薦：

CoRL 2021 最佳論文獎。

論文 2：FlingBot: The Unreasonable Effectiveness of Dynamic Manipulation for Cloth Unfolding

作者：Huy Ha， Shuran Song

論文連結：https：//openreview。net/pdf？id=0QJeE5hkyFZ

摘要：

高速動態動作（例如投擲）透過提高運動效率並有效擴大物理觸及範圍，在人們與可變形物體的日常互動中發揮著至關重要的作用。先前大多數工作都使用專門的單臂準靜態（quasi-static）動作來處理布料操作（例如鋪床單、疊衣服），這需要大量互動來初始化布料的配置，並嚴格限制了機器人可操縱的最大布料尺寸。在這項工作中，研究者提出了一種自監督學習框架 FlingBot，證明了動態甩動動作對布料展開的有效性。該方法從視覺觀察結果中學習瞭如何使用拾取、拉伸和甩動幾個原型動作，使得機器人能夠透過控制雙臂的設定從任意初始配置展開一塊織物。最終系統在新型布料上的 3 個動作內實現了超過 80% 的覆蓋率，可以展開比系統覆蓋範圍更大的布料。儘管該研究僅在矩形布料上訓練了模型，但這種方法仍然可以泛化到 T 恤，繼而用於展開疊取衣物。該研究還在真實世界的雙臂機器人平臺上對 FlingBot 進行了微調，使得它比準靜態基線增加了 4 倍以上的布料覆蓋率。FlingBot 展示出超越準靜態基線的卓越效能，並表明了動態動作對可變形物體操作的有效性。

該方法的主要流程和原理如下圖所示：

推薦：

CoRL 2021 最佳系統論文獎。

論文 3：NLP From Scratch Without Large-Scale Pretraining: A Simple and Efficient Framework

作者：Xingcheng Yao、Yanan Zheng、Xiaocong Yang、Zhilin Yang

論文連結：https：//arxiv。org/pdf/2111。04130。pdf

摘要：

來自清華大學的研究者們提出了一種簡單高效的 NLP 學習框架。不同於當下 NLP 社群主流的大規模預訓練 + 下游任務微調（pretraining-finetuning）的正規化，這一框架無需進行大規模預訓練。相較於傳統的預訓練語言模型，該框架將訓練效率（Training FLOPs）提升了兩個數量級，並且在多個 NLP 任務上實現了比肩甚至超出預訓練模型的效能。

研究者們稱之為 TLM （Task-driven Language Modeling）。相較於傳統的預訓練模型（例如 RoBERTa），TLM 僅需要約 1% 的訓練時間與 1% 的語料，即可在眾多 NLP 任務上比肩甚至超出預訓練模型的效能（如圖 1 所示）。研究者們希望 TLM 的提出能夠引發更多對現有預訓練微調正規化的思考，並推動 NLP 民主化的程序。

為了從大規模通用語料中抽取關鍵資料，TLM 首先以任務資料作為查詢，對通用語料庫進行相似資料的召回。這裡作者選用基於稀疏特徵的 BM25 演算法［2］作為召回演算法。之後，TLM 基於任務資料和召回資料，同時最佳化任務目標和語言建模目標（如下圖公式所示），從零開始進行聯合訓練。

推薦：

清華提出高效 NLP 學習框架 TLM。

論文 4：

Masked Autoencoders Are Scalable Vision Learners

作者：何愷明等

論文連結：https：//arxiv。org/abs/2111。06377

摘要：

研究者提出了一種簡單、有效且可擴充套件的掩蔽自編碼器（MAE）用於視覺表徵學習。該 MAE 從輸入影象中掩蔽了隨機 patch 並重建畫素空間中缺失的 patch。它具有非對稱的編碼器 - 解碼器設計。其中，編碼器僅對 patch 的可見子集（沒有掩碼 token）進行操作，解碼器則是輕量級的，可以從潛在表徵和掩碼 token 中重建輸入（圖 1）。

在這個非對稱編碼器 - 解碼器中，將掩碼 token 轉移到小型解碼器會導致計算量大幅減少。在這種設計下，非常高的掩蔽率（例如 75%）可以實現雙贏：它優化了準確性，同時允許編碼器僅處理一小部分（例如 25%）的 patch。這可以將整體預訓練時間減少至原來的 1/3 或更低，同時減少記憶體消耗，使我們能夠輕鬆地將 MAE 擴充套件到大型模型。

MAE 可以學習非常大容量的模型，而且泛化效能良好。透過 MAE 預訓練，研究者可以在 ImageNet-1K 上訓練 ViT-Large/-Huge 等需要大量資料的模型，提高泛化效能。例如，在 ImageNet-1K 資料集上，原始 ViT-Huge 模型經過微調後可以實現 87。8% 的準確率。這比以前所有僅使用 ImageNet-1K 資料的模型效果都要好。

推薦：

Masked Autoencoders讓計算機視覺通向大模型。

論文 5：NON-DEEP NETWORKS

作者：Ankit Goyal 、 Alexey Bochkovskiy 、 Jia Deng 、 Vladlen Koltun

論文連結：https：//arxiv。org/pdf/2110。07641。pdf

摘要：

深度是深度神經網路的關鍵，但更多的深度意味著更多的序列計算和更多的延遲。這就引出了一個問題——是否有可能構建高效能的「非深度」神經網路？近日，普林斯頓大學和英特爾實驗室的一項研究證明了這一觀點的可行性。該研究使用並行子網路而不是一層又一層地堆疊，這有助於在保持高效能的同時有效地減少深度。

透過利用並行子結構，該研究首次表明深度僅為 12 的網路可在 ImageNet 上實現超過 80%、在 CIFAR10 上實現超過 96%、在 CIFAR100 上實現 81% 的 top-1 準確率。該研究還表明，具有低深度主幹網路的模型可以在 MS-COCO 上達到 48% 的 AP 指標。研究者分析了該設計的擴充套件規則，並展示瞭如何在不改變網路深度的情況下提高效能。最後，研究者提供了關於如何使用非深度網路來構建低延遲識別系統的概念證明。

該研究提出了一種深度較低但仍能在多項基準上實現高效能的網路架構 ParNet，ParNet 由處理不同解析度特徵的並行子結構組成。這些並行子結構稱為流（stream），來自不同流的特徵在網路的後期融合，融合的特徵用於下游任務。圖 2a 提供了 ParNet 的示意圖。

圖 2a 展示了用於 ImageNet 資料集的 ParNet 模型示意圖。初始層由一系列降取樣塊組成，降取樣 block 2、3 和 4 的輸出分別饋送到流 1、2 和 3。研究者發現 3 是給定引數預算的最佳流數（如表 10 所示）。每個流由一系列不同解析度處理特徵的 RepVGG-SSE block 組成。然後來自不同流的特徵由融合 block 使用串聯進行融合。最後，輸出被傳遞到深度為 11 的降取樣 block。與 RepVGG（Ding 等， 2021）類似，該研究對最後一個降取樣層使用更大的寬度。

推薦：

普林斯頓、英特爾提出 ParNet，速度和準確性顯著優於 ResNet。

論文 6：A PSEUDODIFFERENTIAL PROOF OF THE RIEMANN HYPOTHESIS

作者：Andre Unterberger

論文連結：https：//arxiv。org/pdf/2111。02792。pdf

摘要：

擁有 160 多年曆史的黎曼猜想，是數學王冠上的明珠，讓無數人為之輾轉。試圖證明這一猜想的人很多，但被公認的方法至今還沒出現。阿蒂亞爵士在演講之後也公佈了自己證明黎曼猜想的預印本，仍未被眾人認可。

近日蘭斯大學的 Andre Unterberger 在 arXiv 上傳論文《A pseudodifferential proof of the Riemann hypothesis》，對黎曼猜想涉及到的厄米特形式（hermitian form）的分析和算術部分進行了詳盡的比較，從而證明了該猜想。

這篇論文的參考來源也是 Andre Unterberger 自己在 2018 年出版的一本關於數論的書籍《Pseudodifferential methods in number theory》。書籍介紹中就提到了「探索一種證明黎曼猜想的新方法」。

推薦：

法國學者 29 頁預印本論文「證明」黎曼猜想。

論文 7：EditGAN: High-Precision Semantic Image Editing

作者：Huan Ling 、 Karsten Kreis 、 Daiqing Li 等

論文連結：https：//arxiv。org/pdf/2111。03186。pdf

摘要：

近日，英偉達、多倫多大學等機構研究者提出了一個全新的基於 GAN 的影象編輯框架 EditGAN——透過允許使用者修改物件部件（object part）分割實現高精度的語義影象編輯。相關研究已被 NeurIPS 2021 會議接收，程式碼和互動式編輯工具之後也會開源。

EditGAN 在最近提出的 GAN 模型基礎上構建，不僅能夠基於相同的潛在隱編碼來共同地建模影象及其語義分割，而且僅需要 16 個標註示例，從而可以擴充套件至很多目標類和部件標籤。研究者根據預期編輯結果來修改分割掩碼，並最佳化隱編碼以與新的分割保持一致，這樣就可以高效地改變 RGB 影象。此外，為了實現效率，他們透過學習隱空間中的編輯向量（editing vector）來實現編輯，並在無需或僅需少量額外最佳化步驟的情況下直接在其他影象上應用。因此，研究者預訓練了一個感興趣編輯的庫以使得使用者可以在互動工具中直接使用。

下圖 2（1）為訓練 EditGAN 的流程；圖 2（2&3）分別為編輯分割掩碼和利用編輯向量的實時編輯，其中使用者可以修改分割掩碼，並由此在 GAN 的隱空間中進行最佳化以實現編輯；圖 2（4）為在隱空間中學習編輯向量，使用者透過應用以往學得的編輯向量進行編輯，並可以互動式地操縱影象。

推薦：

英偉達影象編輯研究新作。

ArXiv Weekly Radiostation

機器之心聯合由楚航、羅若天發起的ArXiv Weekly Radiostation，在 7 Papers 的基礎上，精選本週更多重要論文，包括NLP、CV、ML領域各10篇精選，並提供音訊形式的論文摘要簡介，詳情如下：

本週 10 篇 NLP 精選論文是：

1。 MotifClass： Weakly Supervised Text Classification with Higher-order Metadata Information。（from Jiawei Han）

2。 Reason first， then respond： Modular Generation for Knowledge-infused Dialogue。（from Jason Weston）

3。 Self-Normalized Importance Sampling for Neural Language Modeling。（from Hermann Ney）

4。 Conformer-based Hybrid ASR System for Switchboard Dataset。（from Hermann Ney）

5。 Scaling ASR Improves Zero and Few Shot Learning。（from Abdelrahman Mohamed）

6。 Cascaded Multilingual Audio-Visual Learning from Videos。（from Brian Kingsbury）

7。 Towards Robust Knowledge Graph Embedding via Multi-task Reinforcement Learning。（from Hui Xiong）

8。 Learning to Generalize Compositionally by Transferring Across Semantic Parsing Tasks。（from Fei Sha）

9。 Kronecker Factorization for Preventing Catastrophic Forgetting in Large-scale Medical Entity Linking。（from Denis Jered McInerney）

10。 TaCL： Improving BERT Pre-training with Token-aware Contrastive Learning。（from Nigel Collier）

本週 10 篇 CV 精選論文是：

1。 BBC-Oxford British Sign Language Dataset。（from Andrew Zisserman）

2。 Masked Autoencoders Are Scalable Vision Learners。（from Kaiming He， Piotr Dollár， Ross Girshick）

3。 EditGAN： High-Precision Semantic Image Editing。（from Antonio Torralba）

4。 Direct Multi-view Multi-person 3D Pose Estimation。（from Shuicheng Yan）

5。 Fine-Grained Image Analysis with Deep Learning： A Survey。（from Jinhui Tang， Jian Yang， Serge Belongie）

6。 Are Transformers More Robust Than CNNs？。（from Alan Yuille）

7。 A Study of the Human Perception of Synthetic Faces。（from Kevin Bowyer）

8。 A-PixelHop： A Green， Robust and Explainable Fake-Image Detector。（from C。-C。 Jay Kuo）

9。 Leveraging Geometry for Shape Estimation from a Single RGB Image。（from Roberto Cipolla）

10。 Unsupervised Part Discovery from Contrastive Reconstruction。（from Andrea Vedaldi）

本週 10 篇 ML 精選論文是：

1。 An Instance-Dependent Analysis for the Cooperative Multi-Player Multi-Armed Bandit。（from Peter Bartlett， Michael I。 Jordan）

2。 Benefit-aware Early Prediction of Health Outcomes on Multivariate EEG Time Series。（from Christos Faloutsos）

3。 Reducing Data Complexity using Autoencoders with Class-informed Loss Functions。（from Francisco Herrera）

4。 PowerGridworld： A Framework for Multi-Agent Reinforcement Learning in Power Systems。（from Xiangyu Zhang）

5。 Learning Signal-Agnostic Manifolds of Neural Fields。（from Joshua B。 Tenenbaum）

6。 DistIR： An Intermediate Representation and Simulator for Efficient Neural Network Distribution。（from Matei Zaharia）

7。 Towards Theoretical Understanding of Flexible Transmitter Networks via Approximation and Local Minima。（from Zhi-Hua Zhou）

8。 An Interactive Visualization Tool for Understanding Active Learning。（from Martin Ester）

9。 Dealing with the Unknown： Pessimistic Offline Reinforcement Learning。（from Masayoshi Tomizuka）

10。 Efficient Neural Network Training via Forward and Backward Propagation Sparsification。（from Tong Zhang）

TAG：論文 NLP learning 研究者 PDF

7 Papers & Radios | CoRL 2021獎項；何愷明新論文讓計算機視覺通向大模型

相關推薦