ADVERTISEMENT
在今年11月於美國亞特蘭大舉行的SC24會議上公布的Top500超級電腦排名中,比起今年6月在德國漢堡的ISC24會議中發表的榜單,出現了更多的變動,尤其值得關注的是新系統的部署和發展趨勢。
最大的新聞是由惠普企業(Hewlett Packard Enterprise)構建、搭載 AMD 混合 CPU-GPU 運算引擎的 El Capitan 系統正式上線運行,並且如預期般地奪下榜首,其算力大幅領先美國的其他競爭對手,以及傳聞中中國的超級電腦。
El Capitan 算力驚人,AMD Instinct MI300A 功不可沒
ADVERTISEMENT
El Capitan 系統的部分算力(目前尚未公布具體規模)已由勞倫斯利佛摩國家實驗室進行測試,其中包含 43,808 個 AMD Instinct MI300A 加速器,並在多項基準測試中取得優異成績,包括自 1993 年以來用於超級電腦排名的 HPL 測試。El Capitan 參與 HPL 測試的部分峰值理論性能達到 2,746.4 petaflops,遠超先前預期的 2.3 exaflops 至 2.5 exaflops。(此處指的是 64 位元精度浮點運算。)其 HPL 測試的峰值持續性能為 1,742 petaflops,計算效率達到 63.4%。這符合新加速系統上市時的預期效率水準(通常以 65% 為基準),預計 El Capitan 在 2025 年的後續排名中,隨著系統逐步通過勞倫斯利佛摩實驗室的驗收,將會展現更強的理論算力。
AMD Instinct MI300A 架構回顧
AMD Instinct MI300A 於 2023 年 12 月與其兄弟產品 MI300X(搭載 8 個 GPU 晶片,不含 CPU 核心)一同亮相。MI300A 擁有 3 個晶片,共包含 24 個 Genoa Epyc 核心,以及 6 個 Antares GPU 串流處理器晶片,運行頻率為 1.8 GHz。在 Cray EX 系統中,所有 MI300A 運算引擎都透過 HPE 的 Rosetta Slingshot 11 Ethernet 互連技術相互連接。據測試結果顯示,El Capitan 系統中共有 105 萬個 Genoa 核心和近 1000 萬個 GPU 串流處理器。這無疑需要管理龐大的並行運算能力,但也並非遙不可及。例如,位於中國無錫國家超級計算中心的「神威·太湖之光」超級電腦自 2016 年以來一直位居 Top500 榜單,目前仍是全球第 15 強的超級電腦(至少在參與 HPL 測試的系統中),其核心總數達到 1065 萬個。
ADVERTISEMENT
Top500 排名新趨勢:AMD 崛起
每一期 Top500 榜單都包含新舊系統,隨著新系統通過 HPL 測試並提交結果,算力較低的舊系統將會跌出榜單,即使它們仍在使用中。此外,許多位於美國、歐洲和中國的系統並非以 HPC 模擬和建模為主要任務,卻也參與排名,因為相關企業及其 OEM 合作夥伴希望藉此提升排名。雖然電腦集群的 HPL 資訊很有參考價值,但這會扭曲超級電腦的排名。事實上,長期以來,只有 Top50 的系統才被視為真正的超級電腦,因此需要尋找更有效的排名方式。
今年 6 月,我們開始只看榜單中新進入的機器,以此來衡量 HPC 領域的發展趨勢。本次我們將再次分析 2024 年 11 月的 Top500 排名,觀察近期使用者的採購和測試情況。目前已出現一些有趣的趨勢,我們將持續關注這些變化。
ADVERTISEMENT
在 2024 年 6 月的 Top500 榜單中,共有 49 台新系統上榜,這些系統的 64 位元浮點精度峰值總性能達到 1,226.7 petaflops,其中 7 台基於 Nvidia Grace Arm 伺服器 CPU 和 Hopper H100 GPU 加速器的新超級電腦(它們確實是用於 HPC 工作的超級電腦)貢獻了 663.7 petaflops 的峰值性能,佔 2024 年 6 月榜單新增算力的 54.1%。採用 AMD Epyc 處理器搭配 Nvidia GPU 的系統佔新增算力的 8.1%,而採用 Intel Xeon 處理器搭配 Nvidia GPU 的系統則佔 17.5%。此外還有 23 台全 CPU 系統,這些系統在許多 HPC 環境中仍然是必要的,以確保軟體相容性,但這些系統的總算力僅佔新增 64 位元浮點運算能力的 12.1%。
而在 2024 年 11 月的 Top500 排名中,AMD 成為 HPC 領域新增算力的最大贏家。本次共有 61 台新系統上榜,以下是按運算引擎架構分類的結果:
- AMD CPU + AMD GPU: 17 台,3,753.9 petaflops
- Intel CPU + Nvidia GPU: 25 台,969.6 petaflops
- AMD CPU + Nvidia GPU: 11 台,247.7 petaflops
- Nvidia CPU + Nvidia GPU: 4 台,128.4 petaflops
- 其他: 4 台,112 petaflops
ADVERTISEMENT
本次只有 4 台新的 Grace-Hopper 系統上榜,且規模相對較小,僅佔新系統總峰值性能 5,211.6 petaflops 的 3.8%。
然而,有 25 台新系統採用 Intel Xeon CPU 作為主機,Nvidia GPU 作為解除安裝引擎,這些系統的總算力達到 969.6 petaflops,佔新增總算力的 18.6%。有趣的是,戴爾為其自身使用構建了一台名為 IronMan 的 5.3 petaflops 超級電腦,採用 AMD Instinct MI300A 加速器搭配 Intel Xeon CPU。(原因不明。)此外,還有 11 台系統採用 AMD Epyc CPU 主機搭配 Nvidia GPU 加速器,總峰值性能為 247.7 petaflops。所有搭載 Nvidia GPU 的系統佔 2024 年 11 月 Top500 新增總算力的 39%。
El Capitan 及其 4 個搭載 MI300A 混合運算引擎的兄弟系統在本輪排名中徹底擊敗 Nvidia,貢獻了 3,134.6 petaflops 的 FP64 算力,佔新增總算力的 60.1%。此外,由於 Eni SpA 在義大利部署的 HPC6 系統(該系統於今年 1 月報導過,基本上是美國橡樹嶺國家實驗室 Frontier 超級電腦的縮小版),以及其他 2 台採用 AMD CPU 搭配 AMD MI250X GPU 的系統,新增算力又增加了 619.3 petaflops。
綜上所述,AMD GPU 驅動了 2024 年 11 月 Top500 新增算力的 72.1%。
AMD GPU 算力佔比首超 Nvidia
現在,讓我們將視野擴展到 11 月 Top500 榜單中的所有 209 個加速系統。以下樹狀圖顯示了這些系統的算力分佈:
上圖中方塊的大小代表 HPL 測試的總持續性能。左上角的綠色區域以 El Capitan 和 Frontier 為首,包含所有採用 AMD CPU 和 GPU 組合的系統。右上角是 Nvidia Grace-Hopper 系統,藍色、灰色和紅色方塊代表採用各種 Nvidia GPU 的系統;右下角的青色代表 Intel GPU 系統(數量很少),而 burnt orange 色代表純 CPU 系統。
我們還按加速器類型對榜單上的 209 個加速系統進行排序,並彙總了各架構的系統數量、峰值 teraflops 和核心總數:
目前,採用 Intel Ponte Vecchio Max GPU 加速器的系統只有 4 個(佔 Top500 的 1.9%),但其峰值性能佔比達到 14%,其中絕大部分來自部署在阿貢國家實驗室的 Aurora 系統。
採用 Nvidia GPU 的系統共有 183 個,佔 2024 年 11 月 Top500 加速系統總數的 87.6%,但其 FP64 精度總峰值算力佔比僅為 40.3%。採用 AMD GPU 進行主要運算的系統有 19 個,僅佔加速系統總數的 9.1%,但其 FP64 峰值總算力佔比高達 44.9%。得益於 El Capitan、Frontier、HPC6 和其他 16 個系統,AMD 在 Top500 榜單的算力佔比上成功超越 Nvidia。
縱觀 Top500 榜單上的所有 500 個系統,加速系統佔 41.8%,貢獻了 17,705 petaflops 總算力的 83.4%,以及 1.286 億個核心(包括串流處理器)的 55.4%。
展望未來:突破 exascale 瓶頸,迎接雲端 HPC 時代
突破百億億次等級的算力比預期更具挑戰性,這主要是受限於預算和功耗,而非任何技術上的問題。中國的每秒百億億次浮點運算超級電腦「天河三號」和「海洋之光」尚未向 Top500 組織者提交正式的 HPL 性能結果,因此未參與排名,但它們證明,如果不考慮功耗和成本,那麼幾年前就能達到百億億次等級的超級電腦。(根據我們一年前的估計,天河三號的 FP64 峰值性能為 2.05 exaflops,海洋之光為 1.5 exaflops。)
Top500 榜單的算力增長速度正在放緩,入門門檻也越來越高。本次榜單的最低算力要求為 2.31 petaflops,而進入 Top100 則需要 12.8 petaflops。儘管 El Capitan 等大型系統的出現拉高了整體算力,但小型 HPC 中心的算力增長速度不足以維持 Top500 算力每兩年增加一倍的趨勢。這可能與雲端 HPC 的興起有關,但目前尚缺乏相關數據支持。
結論
AMD 在本次 Top500 超級電腦排名中表現亮眼,El Capitan 系統的成功以及 AMD GPU 算力的提升,都顯示出 AMD 在 HPC 領域的競爭力。未來,隨著更多搭載 AMD Instinct MI300A 的系統上線,AMD 有望在 Top500 排名中繼續保持領先地位,並推動 HPC 領域的發展。
ADVERTISEMENT