MIT釋出《人工智慧加速器》2022年度綜述論文，詳解80＋類AI晶片效能優劣

2022-11-21由新智元發表于科技

新智元報道

編輯：Aeneas

【新智元導讀】

本文更新了近三年來人工智慧加速器和處理器的研究進展。

https：//github。com/areuther/ai-accelerators

本文更新了近三年來人工智慧加速器和處理器的研究進展，收集和總結了目前已公開公佈的具有峰值效能和功耗數字的商用加速器。

效能和功率值繪製在散點圖上，並再次討論和分析該圖上趨勢的多個維度和觀察結果。

今年的論文中包含了兩個基於加速器釋出日期的新趨勢圖，以及一些神經形態的、光子的和基於憶阻的推斷加速器的附加趨勢。

引言

就像去年一樣，初創公司和老牌科技公司釋出、釋出和部署人工智慧（AI）和機器學習（ML）加速器的速度一直很緩慢。

這並非沒有道理；對於許多已經發布加速器報告的公司來說，他們已經花了三到四年的時間進行研究、分析、設計、驗證和驗證他們的加速器設計權衡，並構建了為加速器程式設計的軟體堆疊。

對於那些釋出了後續版本加速器的公司來說，他們報告的開發週期更短了，儘管仍然至少是兩三年。

這些加速器的重點仍然是加速深度神經網路（DNN）模型，應用空間從極低功耗嵌入式語音識別和影象分類到資料中心規模的訓練，而定義市場和應用領域的競爭繼續作為現代計算向機器學習解決方案的更大的工業和技術轉移的一部分。

AI生態系統將嵌入式計算(邊緣計算)、傳統高效能計算(HPC)和高效能資料分析(HPDA)的元件聚集在一起，這些元件必須一起工作，有效地為決策者、作戰人員和分析人員提供使用的能力。

圖1捕捉了這種端到端AI解決方案及其元件的架構概述。

在圖1的左側，結構化和非結構化資料來源提供了實體和/或現象學的不同檢視。這些原始資料產品被送入資料調節步驟，在這個步驟中，它們被融合、聚合、結構化、積累並轉換為資訊。

資料調節步驟生成的資訊輸入到大量有監督和無監督演算法中，如神經網路，這些演算法提取模式，預測新事件，填充缺失資料，或在資料集中尋找相似性，從而將輸入資訊轉換為可操作的知識。

然後將這些可操作的知識傳遞給人類，以便在人機協作階段進行決策過程。人機組合階段為使用者提供了有用的和相關的洞察力，將知識轉化為可操作的情報或洞察力。

支撐這個系統的是現代計算系統。

摩爾定律的趨勢結束了［2］，許多相關的定律和趨勢也結束了，包括德納爾比例（功率密度）、時鐘頻率、核心計數、每時鐘週期的指令和每焦耳（庫米定律）的指令［3］。

借鑑片上系統（SoC）的趨勢，首先出現在汽車應用、機器人和智慧手機上，透過為常用的操作核心、方法或功能開發和整合加速器，技術進步和創新仍在不斷進步。這些加速器的設計在效能和功能靈活性之間達到了不同的平衡。這包括深度機器學習處理器和加速器［4］-［8］的創新爆發。

在這一系列的調查論文中，我們將探討這些技術的相對好處，因為它們對於將AI應用到具有重大限制（如尺寸、重量和功率）的領域（無論是在嵌入式應用程式還是在資料中心）具有特別重要的意義。

本文是對過去三年IEEE-HPEC論文［9］-［11］的更新。

與過去幾年一樣，本文繼續去年的重點關注加速器和處理器，它們面向深度神經網路(DNN)和卷積神經網路(CNNs)，因為它們的計算量相當大。

由於多種原因，包括國防和國家安全AI/ML邊緣應用嚴重依賴於推理，本調查將重點放在用於推理的加速器和處理器上。

我們將考慮加速器支援的所有數值精度型別，但對其中大多數來說，它們的最佳推理效能是int8或fp16/bf16 （IEEE 16位浮點或谷歌的16位腦浮點）。

有許多綜述［13］-［24］和其他論文，涵蓋了AI加速器的各個方面。

例如，這項多年調查的第一篇論文包括某些AI模型的FPGA的峰值效能；然而，上述的一些調查深入地涵蓋了FPGA，因此它們不再包括在本次綜述中。

這項多年的綜述工作和本文的重點是收集

一個全面的人工智慧加速器的列表，其計算能力，電力效率，並最終在嵌入式和資料中心應用中使用加速器的計算效率。

隨著這一重點，本文主要比較神經網路加速器是有用的政府和工業感測器和資料處理應用。在前幾年的論文中包含的一些加速器和處理器在今年的調查中被排除在外。

它們被丟棄了，因為它們被同一家公司的新加速器超越了，它們不再被提供，或者它們不再與主題相關。

處理器概述

人工智慧的許多最新進展至少可以部分歸功於計算硬體［6］、［7］、［25］、［26］的進步，使計算量大的機器學習演算法成為可能，特別是dnn。

這項調研從公開的材料中收集效能和電力資訊，包括研究論文、技術貿易出版物、公司基準等。

雖然有很多途徑可以獲取公司和初創公司（包括那些處於靜默期的公司）的資訊，但這些資訊有意被排除在本次調研之外；當這些資料公開時，將包括在本次調研中。

這些公共資料的關鍵指標如圖2所示，它繪製了最近的處理器能力（截至2022年7月），映射出峰值效能與功耗的關係。虛線框描述了圖3中放大並繪製的非常密集的區域。

觀察與趨勢

Int8繼續是嵌入式、自主和資料中心推理應用的預設數值精度。對於大多數具有合理數量的類的AI/ML應用程式，這種精度是足夠的。但是，有些加速器也使用fp16和/或bf16進行推斷。為了訓練，變成了整數表示。

在這類和嵌入式類別中，釋出片上系統（SoC）解決方案是非常常見的，通常包括低功耗CPU核心、音訊和影片模擬-數字轉換器（adc）、加密引擎、網路介面等。soc的這些附加特性不會改變峰值效能指標，但它們對報告的晶片峰值功率有直接影響，所以在比較它們時請記住這一點。

嵌入式部分的變化不大，這可能意味著計算效能和峰值功率足以滿足該領域的應用程式型別。

在自治和資料中心晶片和卡片領域，密度變得非常擁擠，這需要在圖3中進行放大。在過去的幾年裡，包括德州儀器在內的幾家嵌入式計算微電子公司已經發布了AI加速器，而NVIDIA也釋出並宣佈了幾個更強大的汽車和機器人應用系統。在資料中心卡中，為了突破PCIe v4 300W的功率限制，PCIe v5規格備受期待。

最後，高階訓練系統不僅釋出了令人印象深刻的效能資料，而且這些公司還宣佈了高度可擴充套件的互聯技術，可以將數千張卡片連線在一起。這對於像Cerebras、GraphCore、Groq、Tesla Dojo和SambaNova這樣的資料流加速器尤其重要，這些加速器是顯式/靜態程式設計的，或者是“放置和路由”到計算硬體上的。它使這些加速器能夠適應非常大的模型，如transformer［129］。

參考資料：

https：//mp。weixin。qq。com/s/gT-vtbrIVhTZkZgtmOy8wA

TAG：加速器 AI 嵌入式處理器計算

MIT釋出《人工智慧加速器》2022年度綜述論文，詳解80＋類AI晶片效能優劣

相關推薦