NVIDIA的「世界上最強大AI晶片」Blackwell B200 GPU 強在哪裡？

NVIDIA在2024年3月18日的GTC主題演講發表了最新的Blackwell GPU，單顆B200 GPU就能帶來高達20PFLOPS的FP4資料類型運算效能，還可搭配NVLink交換器晶片組織由36顆CPU、72顆GPU構成的機櫃。

NVIDIA的 H100 AI 晶片使其成為價值數億美元的公司，其價值可能超過 Alphabet 和亞馬遜。儘管競爭對手一直在奮力追趕，但也許 NVIDIA 即將擴大其領先優勢--憑藉新的 Blackwell B200 GPU 和 GB200 超級晶片。

▲ NVIDIA 首席執行長黃仁勳在 GTC 現場直播中舉起他的新 GPU（左邊），右邊是 H100。

B200 GPU 強在哪裡？

NVIDIA 表示，新的 B200 GPU 擁有 2080 億個電晶體，可提供高達 20petaflops 的 FP4 算力，而 GB200 將兩個 GPU 和一個 Grace CPU 結合在一起，可為 LLM 推理工作負載提供 30 倍的性能，同時還可能大大提高效率。NVIDIA 表示，與 H100 相比，它的成本和能耗"最多可降低 25 倍"。

NVIDIA 聲稱，訓練一個 1.8 兆個參數的模型以前需要 8000 個 Hopper GPU 和 15 兆瓦的電力。如今，NVIDIA 首席執行長表示，2000 個 Blackwell GPU 就能完成這項工作，耗電量僅為 4 兆瓦。

NVIDIA 表示，在具有 1750 億個參數的 GPT-3 LLM 基準測試中，GB200 的性能是 H100 的 7 倍，而 NVIDIA 稱其訓練速度是 H100 的 4 倍。

▲ 這就是 GB200 的樣子。兩個 GPU、一個 CPU、一塊電路板

NVIDIA 介紹說，其中一項關鍵改進是採用了第二代變壓器引擎，通過為每個神經元使用四個位元而不是八個位元，將計算能力、頻寬和模型大小提高了一倍（前面提到的 FP4 的 20 petaflops）。第二個關鍵區別只有在連接大量 GPU 時才會出現：新一代 NVLink 交換機可讓 576 個 GPU 相互連接，雙向頻寬達到每秒 1.8 TB。

這就要求 NVIDIA 打造一個全新的網路交換晶片，其中包含 500 億個電晶體和一些自己的板載計算：NVIDIA 表示，該晶片擁有 3.6 teraflops 的 FP8 處理能力。

▲ NVIDIA 表示將通過 Blackwell 增加 FP4 和 FP6

NVIDIA 表示，在此之前，由 16 個 GPU 組成的叢集有 60% 的時間用於相互通訊，只有 40% 的時間用於實際計算。

當然，NVIDIA 還指望企業大量購買這些 GPU，並將它們包裝成更大的設計，比如 GB200 NVL72，它將 36 個 CPU 和 72 個 GPU 內建到一個液冷機架中，可實現總計 720 petaflops 的 AI 訓練性能或 1440 petaflops（又稱 1.4exaflops）的推理性能。它內部有近兩英里長的電纜，共有 5000 條獨立電纜。

▲ GB200 NVL72

機架上的每個托盤包含兩個 GB200 晶片或兩個 NVLink 交換機，每個機架有 18 個前者和 9 個後者。NVIDIA 稱，其中一個機架總共可支援 27 兆個參數模型。據傳，GPT-4 的參數模型約為 1.7 兆。

該公司表示，亞馬遜、Google、微軟和甲骨文都已計畫在其雲端服務產品中提供 NVL72 機架，但不清楚它們將購買多少。

當然，NVIDIA 也樂於為公司提供其他解決方案。下面是用於 DGX GB200 的 DGX Superpod，它將八個系統合而為一，總共擁有 288 個 CPU、576 個 GPU、240TB 記憶體和 11.5 exaflops 的 FP4 計算能力。

NVIDIA 稱，其系統可擴充到數萬 GB200 超級晶片，並透過其新型 Quantum-X800 InfiniBand（最多 144 個連接）或 Spectrum-X800 乙太網路（最多 64 個連接）與 800Gbps 網路連線在一起。

我們預計今天不會聽到任何關於新遊戲 GPU 的消息，因為這一消息是在 NVIDIA 的 GPU 技術大會上發表的，而該大會通常幾乎完全專注於 GPU 計算和人工智慧，而不是遊戲。不過，Blackwell GPU 架構很可能也會為未來的 RTX 50 系列桌面顯示卡提供算力。

延伸閱讀：NVIDIA於GTC 2024春季場發表Blackwell GPU與NVLink交換器晶片，單顆GPU效能高達20PFLOPS

延伸閱讀：NVIDIA於GTC 2024春季場發表Blackwell GPU與NVLink交換器晶片，單顆GPU效能高達20PFLOPS

延伸閱讀：B200 GPU單卡功耗可達1400W，黃仁勳：下代GPU伺服器必須水冷