Meta揭幕全球最快AI超算：目標一天之內訓練萬億引數大模型

2022-01-26由機器之心發表于科技

機器之心報道

編輯：蛋醬、澤南

全是英偉達 DGX A100。到今年年中，它將成為全球速度最快的 AI 超級計算機。

最近一段時間，超級計算機是科技公司比拼的重點。昨天商湯科技的 AIDC剛剛啟用，今天又傳來了臉書超算的訊息。

當地時間 1 月 24 日，Meta（原 Facebook）揭幕了其研究團隊的全新人工智慧超級計算機，預計在 2022 年中全部完成後，它將成為世界最快的計算機。

在報道文章中，Meta 表示新超算 AI Research SuperCluster（RSC）將幫助該公司構建更好的 AI 模型，這些模型可以從數萬億個示例中學習，構建跨數百種語言的模型，並同時分析文字內容、影象和影片，確定內容是否有害。當然，RSC 超算也可以用來開發新一代增強現實工具。

Meta 表示，該平臺不僅有助於確保人們今天使用 Facebook 服務的安全性，而且在公司為元宇宙構建的將來也會發揮作用。

社交媒體起家的臉書在去年 10 月更名為 Meta，以反映其對元宇宙的關注，它認為元宇宙將成為移動網際網路的繼承者。

近幾個月，元宇宙當之無愧是科技圈最熱的詞彙之一，這個概念指的是人們可以透過不同的裝置訪問共享的虛擬環境，在該環境里人們可以工作、娛樂和社交。「構建元宇宙需要巨大的計算能力（quintillion 級，10 的 18 次方），」Meta 執行長馬克 · 扎克伯格（Mark Zuckerberg）在 Facebook 上說道：「AI 和 RSC 將使新的人工智慧模型成為可能，它們可以從數以萬億計的例子中學習，理解數百種語言甚至更多。」

Meta 表示，它相信 RSC 是目前執行速度最快的人工智慧超級計算機之一。Meta 的一位發言人說，該公司已經與英偉達、Pure Storage 和 Penguin Computing 的團隊合作，共同構建這臺超級計算機。

高效能計算基礎設施是用於訓練大規模預訓練模型的必要條件。Meta 表示，其 AI 研究團隊一直在構建高效能系統，自研的第一代算力設施設計於 2017 年，在單個叢集中擁有 2。2 萬個英偉達 V100 Tensor Core GPU，每天可執行 3。5 萬個訓練任務。到目前為止，該基礎設施在效能、可靠性和生產力方面為 Meta 研究人員確立了基準。

2020 年初，Facebook 認定加速算力增長的最佳方式是從頭開始設計全新計算基礎架構，以利用新的 GPU 和網路結構技術。該公司希望新 AI 超算能夠在 1 EB 位元組大的資料集上訓練具有超過一萬億個引數的模型——僅從規模上看，這相當於 36000 年時長的高畫質晰度影片。

如此規模的超算肯定不能僅用於科研，Meta 表示，RSC 可以訓練來自 Meta 生產系統的真實示例，確保新研究能有效地轉化為實踐。其推動的新模型可識別社交網路平臺上的有害內容，並推動多模態人工智慧，以幫助改善使用者體驗。Meta 認為，這是第一次有人以如此規模同時解決效能、可靠性、安全性和隱私問題。

RSC 的秘密

AI 超算主要用於人工智慧模型的訓練，是透過將多個 GPU 組合成計算節點來構建的，其透過高效能網路結構連線這些節點，以實現 GPU 之間的快速通訊。

RSC 有 760 個 NVIDIA DGX A100 系統作為其計算節點，總共有 6080 塊 GPU，每塊 A100 GPU 都比 Meta 之前系統中使用的 V100 更強大。每個 DGX 透過沒有超負荷的 NVIDIA Quantum 1600 Gb/s InfiniBand 兩級 Clos 結構進行通訊。RSC 的儲存層具有 175 PB 的 Pure Storage FlashArray、46 PB 的 Penguin Computing Altus 系統中的快取儲存和 10 PB 的 Pure Storage FlashBlade。

與 Meta 的傳統生產和研究基礎設施相比，RSC 的早期基準測試表明，它執行計算機視覺工作流程的速度是之前的 20 倍，執行英偉達多卡通訊框架（NCCL）的速度快了 9 倍，訓練大規模 NLP 模型快了 3 倍。這意味著一個擁有數百億引數的模型可以在 3 周內完成訓練，而之前這一數字是 9 周。

作為參考，在最新一次 MLPerf 神經網路訓練基準中測試的最大生產就緒（production-ready）系統是英偉達部署的 4320-GPU 系統，該系統可以在不到一分鐘的時間內訓練 BERT 。然而，BERT「只有」1。1 億個引數，與 Meta 想要使用的數萬億個引數也無法相比。

RSC 的推出還伴隨著 Meta 使用資料進行研究的方式的變化：

與我們之前僅利用開源和其他公開可用資料集的 AI 研究基礎設施不同，RSC 允許我們在模型訓練中包含來自 Meta 生產系統的真實示例，確保研究有效地轉化為實踐。

研究人員還寫道，RSC 將採取額外的預防措施來加密和匿名這些資料，以防止洩漏。這些步驟包括將 RSC 與更大的網際網路隔離既沒有入站連線也沒有出站連線，RSC 的流量只能從 Meta 的生產資料中心流入。此外，儲存和 GPU 之間的資料路徑是端到端加密的，資料是匿名的，並經過審查過程以確認匿名。

拓展計劃

AI 超算 RSC 已經於昨天正式啟用，但它的開發仍在進行中。Meta 表示，一旦完成構建 RSC 的第二階段，它將可能成為全球最快的 AI 超級計算機，其混合精度計算效能接近 5 exaflops（10 的 18 次方）。

在 2022 年，Meta 正計劃將 GPU 的數量從 6080 個增加到 16000 個，這將使 AI 訓練效能提高 2。5 倍以上。InfiniBand 互聯結構將擴充套件為支援 16000 個埠，採用兩層拓撲結構。該系統的儲存系統將具有 16 TB/s 的目標交付頻寬和 EB 級容量，以滿足不斷增長的需求。

參考連結：

https：//ai。facebook。com/blog/ai-rsc

https：//spectrum。ieee。org/meta-ai-supercomputer

https：//www。reuters。com/technology/meta-introduces-fastest-ai-supercomputer-2022-01-24/

https：//blogs。nvidia。com/blog/2022/01/24/meta-ai-supercomputer-dgx/

https：//www。wsj。com/articles/meta-unveils-new-ai-supercomputer-11643043601

使用Python快速構建基於NVIDIA RIVA的智慧問答機器人

NVIDIA Riva 是一個使用 GPU 加速，能用於快速部署高效能會話式 AI 服務的 SDK，可用於快速開發語音 AI 的應用程式。Riva 的設計旨在輕鬆、快速地訪問會話 AI 功能，開箱即用，透過一些簡單的命令和 API 操作就可以快速構建高級別的對話式 AI 服務。

2022年1月26日19：30-21：00，最新一期線上分享主要介紹：

對話式 AI 與 NVIDIA Riva 簡介

利用NVIDIA Riva構建語音識別模組

利用NVIDIA Riva構建智慧問答模組

利用NVIDIA Riva構建語音合成模組

TAG： Meta AI RSC GPU 構建

Meta揭幕全球最快AI超算：目標一天之內訓練萬億引數大模型

相關推薦