當時以 CUDA 為基礎的應用程式主要集中在加速科學模擬,而 AI 和深度學習的興起還遙遙無期。此後 AWS 又陸續加入穩定的雲端 GPU 執行個體,包括 K80 (p2)、K520 (g3)、M60 (g4)、V100 (p3/ p3dn) 和T4 (g4)。隨著全新 P4d 執行個體今日正式上路,AWS 將在最新 NVIDIA A100 Tensor Core GPU 的支援下,為加速運算領域的下一個十年打穩基礎。
全新 P4d 執行個體為機器學習訓練與高效能運算應用程式,提供 AWS 上採用 GPU 之最高效能、最具成本效益的平台。與預設的 FP32 精準度相比,使用 FP16 的執行個體訓練機器學習模型的時間縮短了三倍,使用 TF32 進行訓練的時間縮短了六倍。
這些執行個體亦提供了極為卓越的推論表現。上個月,NVIDIA A100 GPU 於 MLPerf Inference 基準測試項目中所向披靡,其效能較 CPU 快上 237 倍。每個 P4d 執行個體皆搭載 8 個 NVIDIA A100 GPU,客戶可以透過 AWS UltraClusters 使用 AWS Elastic Fabric Adaptor (EFA),以及提供可擴展高效能儲存裝置的 Amazon FSx,每次依需求調整規模以取得超過 4,000 個GPU。
P4d 提供 400Gbps 網路,並且使用 NVIDIA 的 NVLink、NVSwitch、NCCL 及 GPUDirect RDMA 等技術,進一步加速處理深度學習訓練的作業負載。EFA 上的 NVIDIA GPUDirect RDMA 在伺服器之間將資料從 GPU 傳遞到GPU,無需通過 CPU 和系統記憶體,確保低延遲的網路。
此外,許多 AWS 服務都支援 P4d 執行個體,包括 Amazon Elastic Container Services、Amazon Elastic Kubernetes Service、AWS ParallelCluster 及 Amazon SageMaker。P4d 還能使用 NGC 所提供的各種經過優化的容器化軟體,包括高效能運算應用程式、AI 框架、預先訓練模型、Helm chart,以及 TensorRT 和 Triton 推論伺服器等推論軟體。
現在可於美國東部和西部地區使用 P4d 執行個體,很快地將會開放給其它地區使用。用戶能夠以隨需執行個體(On-Demand)、Savings Plans、預留執行個體 (Reserved Instance) 或 Spot 執行個體等方式來購買。
GPU 雲端運算的第一個十年,已經將超過 100 exaflops 的 AI 運算能力帶入市場。現在有了 NVIDIA A100 GPU支持的 Amazon EC2 P4d 執行個體,將為 GPU 雲端運算領域的下一個十年開創美好的開端。
請注意!留言要自負法律責任,相關案例層出不窮,請慎重發文!