Meta揭幕全球最快AI超算:目標一天之內訓練萬億引數大模型

機器之心報道

編輯:蛋醬、澤南

全是英偉達 DGX A100。到今年年中,它將成為全球速度最快的 AI 超級計算機。

最近一段時間,超級計算機是科技公司比拼的重點。昨天商湯科技的 AIDC剛剛啟用,今天又傳來了臉書超算的訊息。

當地時間 1 月 24 日,Meta(原 Facebook)揭幕了其研究團隊的全新人工智慧超級計算機,預計在 2022 年中全部完成後,它將成為世界最快的計算機。

在報道文章中,Meta 表示新超算 AI Research SuperCluster(RSC)將幫助該公司構建更好的 AI 模型,這些模型可以從數萬億個示例中學習,構建跨數百種語言的模型,並同時分析文字內容、影象和影片,確定內容是否有害。當然,RSC 超算也可以用來開發新一代增強現實工具。

Meta 表示,該平臺不僅有助於確保人們今天使用 Facebook 服務的安全性,而且在公司為元宇宙構建的將來也會發揮作用。

Meta揭幕全球最快AI超算:目標一天之內訓練萬億引數大模型

社交媒體起家的臉書在去年 10 月更名為 Meta,以反映其對元宇宙的關注,它認為元宇宙將成為移動網際網路的繼承者。

近幾個月,元宇宙當之無愧是科技圈最熱的詞彙之一,這個概念指的是人們可以透過不同的裝置訪問共享的虛擬環境,在該環境里人們可以工作、娛樂和社交。「構建元宇宙需要巨大的計算能力(quintillion 級,10 的 18 次方),」Meta 執行長馬克 · 扎克伯格(Mark Zuckerberg)在 Facebook 上說道: 「AI 和 RSC 將使新的人工智慧模型成為可能,它們可以從數以萬億計的例子中學習,理解數百種語言甚至更多。」

Meta 表示,它相信 RSC 是目前執行速度最快的人工智慧超級計算機之一。Meta 的一位發言人說,該公司已經與英偉達、Pure Storage 和 Penguin Computing 的團隊合作,共同構建這臺超級計算機。

高效能計算基礎設施是用於訓練大規模預訓練模型的必要條件。Meta 表示,其 AI 研究團隊一直在構建高效能系統,自研的第一代算力設施設計於 2017 年,在單個叢集中擁有 2。2 萬個英偉達 V100 Tensor Core GPU,每天可執行 3。5 萬個訓練任務。到目前為止,該基礎設施在效能、可靠性和生產力方面為 Meta 研究人員確立了基準。

2020 年初,Facebook 認定加速算力增長的最佳方式是從頭開始設計全新計算基礎架構,以利用新的 GPU 和網路結構技術。該公司希望新 AI 超算能夠在 1 EB 位元組大的資料集上訓練具有超過一萬億個引數的模型——僅從規模上看,這相當於 36000 年時長的高畫質晰度影片。

Meta揭幕全球最快AI超算:目標一天之內訓練萬億引數大模型

如此規模的超算肯定不能僅用於科研,Meta 表示,RSC 可以訓練來自 Meta 生產系統的真實示例,確保新研究能有效地轉化為實踐。其推動的新模型可識別社交網路平臺上的有害內容,並推動多模態人工智慧,以幫助改善使用者體驗。Meta 認為,這是第一次有人以如此規模同時解決效能、可靠性、安全性和隱私問題。

RSC 的秘密

Meta揭幕全球最快AI超算:目標一天之內訓練萬億引數大模型

AI 超算主要用於人工智慧模型的訓練,是透過將多個 GPU 組合成計算節點來構建的,其透過高效能網路結構連線這些節點,以實現 GPU 之間的快速通訊。

RSC 有 760 個 NVIDIA DGX A100 系統作為其計算節點,總共有 6080 塊 GPU,每塊 A100 GPU 都比 Meta 之前系統中使用的 V100 更強大。每個 DGX 透過沒有超負荷的 NVIDIA Quantum 1600 Gb/s InfiniBand 兩級 Clos 結構進行通訊。RSC 的儲存層具有 175 PB 的 Pure Storage FlashArray、46 PB 的 Penguin Computing Altus 系統中的快取儲存和 10 PB 的 Pure Storage FlashBlade。

Meta揭幕全球最快AI超算:目標一天之內訓練萬億引數大模型

與 Meta 的傳統生產和研究基礎設施相比,RSC 的早期基準測試表明,它執行計算機視覺工作流程的速度是之前的 20 倍,執行英偉達多卡通訊框架 (NCCL) 的速度快了 9 倍,訓練大規模 NLP 模型快了 3 倍。這意味著一個擁有數百億引數的模型可以在 3 周內完成訓練,而之前這一數字是 9 周。

作為參考,在最新一次 MLPerf 神經網路訓練基準中測試的最大生產就緒(production-ready)系統是英偉達部署的 4320-GPU 系統,該系統可以在不到一分鐘的時間內訓練 BERT 。然而,BERT「只有」1。1 億個引數,與 Meta 想要使用的數萬億個引數也無法相比。

RSC 的推出還伴隨著 Meta 使用資料進行研究的方式的變化:

與我們之前僅利用開源和其他公開可用資料集的 AI 研究基礎設施不同,RSC 允許我們在模型訓練中包含來自 Meta 生產系統的真實示例,確保研究有效地轉化為實踐。

研究人員還寫道,RSC 將採取額外的預防措施來加密和匿名這些資料,以防止洩漏。這些步驟包括將 RSC 與更大的網際網路隔離既沒有入站連線也沒有出站連線,RSC 的流量只能從 Meta 的生產資料中心流入。此外,儲存和 GPU 之間的資料路徑是端到端加密的,資料是匿名的,並經過審查過程以確認匿名。

拓展計劃

AI 超算 RSC 已經於昨天正式啟用,但它的開發仍在進行中。Meta 表示,一旦完成構建 RSC 的第二階段,它將可能成為全球最快的 AI 超級計算機,其混合精度計算效能接近 5 exaflops(10 的 18 次方)。

在 2022 年,Meta 正計劃將 GPU 的數量從 6080 個增加到 16000 個,這將使 AI 訓練效能提高 2。5 倍以上。InfiniBand 互聯結構將擴充套件為支援 16000 個埠,採用兩層拓撲結構。該系統的儲存系統將具有 16 TB/s 的目標交付頻寬和 EB 級容量,以滿足不斷增長的需求。

參考連結:

https://ai。facebook。com/blog/ai-rsc

https://spectrum。ieee。org/meta-ai-supercomputer

https://www。reuters。com/technology/meta-introduces-fastest-ai-supercomputer-2022-01-24/

https://blogs。nvidia。com/blog/2022/01/24/meta-ai-supercomputer-dgx/

https://www。wsj。com/articles/meta-unveils-new-ai-supercomputer-11643043601

使用Python快速構建基於NVIDIA RIVA的智慧問答機器人

NVIDIA Riva 是一個使用 GPU 加速,能用於快速部署高效能會話式 AI 服務的 SDK,可用於快速開發語音 AI 的應用程式。Riva 的設計旨在輕鬆、快速地訪問會話 AI 功能,開箱即用,透過一些簡單的命令和 API 操作就可以快速構建高級別的對話式 AI 服務。

2022年1月26日19:30-21:00,最新一期線上分享主要介紹:

對話式 AI 與 NVIDIA Riva 簡介

利用NVIDIA Riva構建語音識別模組

利用NVIDIA Riva構建智慧問答模組

利用NVIDIA Riva構建語音合成模組

TAG: MetaAIRSCGPU構建