曾繁日-竞彩足球玩法规则大全-c罗欧洲杯夺冠-棒球比赛视频|www.sdydsy.com

鐵三角
AMX
偉成資訊
當前位置:中國數字視聽網首頁 > 中控系統 > 動態 > 正文
快速搜索:

NVIDIA 以太網加速 xAI 構建 AI 超級計算機

2024年11月01日 12:54  來源:中國數字視聽網  字體【   

 

2024 年 10 月 28 日—NVIDIA 宣布,xAI 位于田納西州孟菲斯市的 Colossus 超級計算機集群達到了 10 萬顆 NVIDIA® Hopper GPU 的巨大規模。該集群使用了 NVIDIA Spectrum-X™ 以太網網絡平臺,該平臺是專為多租戶、超大規模的 AI 工廠提供卓越性能而設計的 RDMA(Remote Direct Memory Access)網絡。

Colossus 是世界上最大的 AI 超級計算機,目前正被用于訓練 xAI 的 Grok 系列大語言模型,以及作為 X Premium 用戶功能之一的聊天機器人(Chatbot)。xAI 正在將 Colossus 的規模進一步擴大一倍至 20 萬顆 NVIDIA Hopper GPU。

xAI 和 NVIDIA 僅用了 122 天就建成了所有配套設施和這臺最先進的超級計算機,從第一個機架落地到開始訓練任務,只用了 19 天。而建造這種規模的系統通常需要數月乃至數年的時間。

在訓練 Grok 這種超大型模型時,Colossus 實現了空前的網絡性能,在三層網絡架構下,整個系統未出現任何因流量沖突而造成的應用延遲增加或數據包丟失的情況。憑借 Spectrum-X 先進的擁塞控制功能,系統數據吞吐量一直保持在 95%。

這一性能水平是傳統以太網在大規模的情況下根本無法實現的,傳統以太網在數千條流發生沖突時,只能提供 60% 的數據吞吐量。

NVIDIA 網絡高級副總裁 Gilad Shainer 表示:“AI 正變得至關重要,對性能、安全性、可擴展性和成本效益提出了更高的要求。NVIDIA Spectrum-X 以太網網絡平臺專為那些如 xAI 一樣的創新企業提供更快的處理、分析和執行 AI 工作負載的速度,進而加速 AI 解決方案的開發、部署和上市。”

埃隆·馬斯克在 X 上表示:“Colossus 是世界上最強大的訓練系統。xAI 團隊、NVIDIA 和我們的眾多合作伙伴及供應商干得漂亮。”

xAI 發言人表示:“xAI 構建了全球規模最大、性能最強的超級計算機。借助 NVIDIA Hopper GPU 和 Spectrum-X,我們得以突破大規模 AI 模型訓練的邊界,打造基于以太網標準并經過超級加速和優化的 AI 工廠。”

Spectrum-X 平臺的核心是 Spectrum SN5600 以太網交換機,它支持高達 800Gb/s 的端口速度,采用了 Spectrum-4 交換機 ASIC。xAI 采用了 Spectrum-X SN5600 交換機與 NVIDIA BlueField-3® SuperNIC 的端到端解決方案,實現了前所未有的性能。

專門面向 AI 的 Spectrum-X 以太網網絡具有先進的功能,可在提供高效、可擴展的帶寬的同時,實現低延遲和短尾延遲,而這些功能之前是 InfiniBand 網絡所獨有的。Spectrum-X 的功能包括基于 NVIDIA DDP(Direct Data Placement)技術的動態路由、擁塞控制計算,以及增強了 AI 網絡的可視性和性能隔離,所有這些功能都是多租戶生成式 AI 云和大型企業應用環境的關鍵要求。

關于 NVIDIA

NVIDIA(NASDAQ:NVDA)是加速計算領域的全球領導者。

(編輯:daisy)

中國數字視聽網微信公眾平臺:
搜索“數字視聽網”或掃描下面的二維碼,關注官方微信平臺,開啟視聽行業新聞資訊新旅程!
明基
MAXHUB
快捷
產品關注排行
"掃一掃"關注我