微軟開始打造自己的晶片Azure Maia 100 和 Cobalt 100，這兩塊晶片都和人工智慧有關

傳聞是真的：微軟已經打造了自己的AI晶片，可用於訓練大型語言模型，並可能避免對Nvidia的高成本依賴。微軟還建造了自己的基於Arm的CPU，用於雲端工作負載。這兩款自訂晶片旨在為其Azure數據中心提供動力，並為公司及其客戶迎接充滿人工智慧的未來做好準備。

微軟的Azure Maia AI晶片和基於Arm的Azure Cobalt CPU將於2024年推出，這是因為今年對Nvidia的H100 GPU的需求激增，這些GPU廣泛用於訓練和運行生成圖像工具及大型語言模型。這些GPU的需求太高，以至於在eBay上有些售價甚至超過4萬美元。

▲ 微軟的新 Azure Maia 100 GPU。圖片來源：微軟

延伸閱讀：NVIDIA於Microsoft Ignite 2023大會發表多項合作項目，也將為Azure雲端運算搭載H100、H200 GPU

「微軟其實在晶片開發上有著悠久的歷史，」微軟Azure硬體系統和基礎設施部門主管Rani Borkar在接受訪問時解釋說。微軟在20多年前就合作開發了Xbox的晶片，甚至還為Surface設備聯合設計開發晶片。「這些努力都是基於那些經驗，」 Borkar說。「2017年，我們開始設計雲端硬體堆疊，因為有了這些經驗，使我們能夠製造新的自訂晶片。」

新的Azure Maia AI晶片和Azure Cobalt CPU都是在微軟內部製造的，結合了對整個雲端伺服器堆疊的深度改造，以最佳化性能、功耗和成本。「我們正在為AI時代重新思考雲端基礎設施，並且實際上正在最佳化該基礎設施的每一層，」 Borkar說

▲ 微軟為其雲端基礎設施設計的前兩個客製化晶片。圖片來源：微軟

Azure Cobalt CPU 以藍色顏料命名，是一款128核心晶片，基於Arm Neoverse CSS設計，並為微軟量身定制。它旨在為Azure上的一般雲端服務提供支援。我們投入了大量的精力，不僅讓它具有高性能，而且還確保我們專注功耗管理，」 Borkar解釋說。「我們做了一些非常有意義的設計選擇，包括能夠控制每個核心以及每台虛擬機器的性能和功耗。」

微軟目前正在對Microsoft Teams和SQL伺服器等工作負載進行Cobalt CPU的測試，並計劃明年為各種工作負載的客戶提供虛擬機器。雖然Borkar沒有直接和亞馬遜AWS上提供的Graviton 3伺服器進較，但相較於微軟目前在Azure上使用的基於Arm的伺服器，應該會有一些明顯的性能提升。「我們的初步測試顯示，我們的性能比我們數據中心目前使用的商用Arm伺服器高出40%左右，」 Borkar說。微軟尚未分享完整的系統規格或基準測試。

延伸閱讀：NVIDIA推出「最強AI晶片」H200，性能比H100提升60%至90%將成為下一代最賺錢產品

以明亮的藍星命名的Microsoft Maia 100 AI加速器，旨在用於運行雲端AI工作負載，如大型語言模型的訓練和推論。它將用於驅動該公司在Azure上的一些最大型的AI工作負載，包括與OpenAI多億美元合作關係的部分內容，其中微軟為OpenAI的所有工作負載提供支援。這家軟體巨頭一直在與OpenAI合作設計和測試Maia階段。

OpenAI的首席執行長Sam Altman說：「當微軟首次分享他們的Maia晶片設計時，我們很興奮，我們一起合作對其進行了改進和測試，以適應我們的模型。」「Azure 的端到端 AI 架構現已透過 Maia 優化至晶片，為訓練功能更強大的模型並使這些模型對我們的客戶來說更便宜鋪平了道路。」

使用5奈米台積電製程製造的Maia擁有1050億個電晶體 — 大約比AMD自家的Nvidia競爭對手，MI300X AI GPU上的1530億個電晶體少了30%。「Maia支持我們的第一個實現小於8位元資料類型（MX數據類型），以便共同設計硬體和軟體，」 Borkar說。「這有助於我們做到更快的模型訓練和推論時間。」

微軟是一個包括AMD、Arm、Intel、Meta、Nvidia和Qualcomm的團體的成員，這個團體正在為AI模型標準化下一代資料格式。微軟正在基於Open Compute Project（OCP）的協作和開放工作，調整整個系統以滿足AI的需求。

延伸閱讀：AMD預估明年 AI 晶片銷售20億美元， MI300A、MI300X 晶片預計搶下NVIDIA市場的10%

▲ 用於測試 Microsoft Azure Cobalt 系統單晶片的探針站。圖片來源：微軟

「Maia是微軟製造的第一款完整的液體冷卻伺服器處理器，」 Borkar透露。「這裡的目標是實現更高效率下的更高密度伺服器。因為我們正在重新構想整個堆疊，所以我們特意思考每一層，因此這些系統實際上將適合我們當前的數據中心的佔地面積。」

對於微軟來說，更快啟動這些人工智慧伺服器而無需在世界各地的資料中心為其騰出空間是關鍵。微軟建造了一個獨特的機架來容納 Maia 伺服器主機板，並配有一個「助手」液體冷卻器，其工作原理就像汽車或高檔遊戲 PC 中的散熱器一樣，用於冷卻 Maia 晶片的表面。

除了分享MX數據類型，微軟還與其合作夥伴共享其機架設計，使他們可以在其他晶片的系統上使用它們。但Maia晶片的設計將不會被更廣泛地共享，微軟將這些保留在內部。

Maia 100 目前正在 GPT 3.5 Turbo 上進行測試，該模型也為 ChatGPT、Bing AI 工作負載和 GitHub Copilot 提供支援。Microsoft 正處於部署的早期階段，就像 Cobalt 一樣，它還不願意發布確切的 Maia 規格或效能基準。

▲ Maia 100 伺服器機架和「夥伴」冷卻。圖：微軟

這使得我們很難準確地解讀 Maia 與 Nvidia 流行的H100 GPU、最近發布的 H200，甚至 AMD 最新的MI300X相比如何。Borkar 不想討論比較，而是重申與 Nvidia 和 AMD 的合作關係對於 Azure 人工智慧雲端的未來仍然非常關鍵。「在雲端運行的規模上，最佳化和整合堆疊的每一層、最大限度地提高效能、實現供應鏈多樣化以及坦白為我們的客戶提供基礎設施選擇非常重要，」Borkar 說。

這種供應鏈的多樣化對微軟來說很重要，尤其是當Nvidia目前是AI伺服器晶片的主要供應商，各公司一直在爭相購買這些晶片。估計OpenAI需要超過30,000顆Nvidia舊型號的A100 GPU來商業化ChatGPT，所以微軟自己的晶片可以幫助降低客戶的AI成本。微軟還為自己的Azure雲端工作負載開發了這些晶片，而不是像Nvidia、AMD、Intel和Qualcomm那樣出售給其他人。

Borkar堅持認為，「我更將這視為互補，而不是與它們競爭。我們今天在雲端運算中擁有Intel和AMD，同樣在AI領域，我們正在宣布AMD，而我們今天已經有Nvidia。這些夥伴對我們的基礎設施非常重要，我們真的想給我們的客戶選擇。」

你可能已經注意到Maia 100和Cobalt 100的命名，這表明微軟已經在設計這些晶片的第二代版本。「這是一個系列，不僅僅是100而已...但我們不會告訴大家我們的規劃藍圖，」 Borkar說。目前還不清楚微軟將多久推出Maia和Cobalt的新版本，但鑑於AI的速度，如果看到Maia 100的繼任者以類似於Nvidia H200宣布的速度（大約20個月）到來，也不會讓人驚訝。

現在的關鍵是微軟打算以多快的速度讓 Maia 付諸行動，以加快其廣泛的人工智慧雄心的推出，以及這些晶片將如何影響人工智慧雲端服務的使用定價。微軟尚未準備好談論這款新伺服器的定價，但我們已經看到該公司悄悄推出了適用於 Microsoft 365 的 Copilot，每位使用者每月要支付 30 美元。

延伸閱讀：Windows 11 Copilot持續改善還將要支援外掛，但仍非人人可用

Microsoft 365 的 Copilot 目前僅限於微軟最大的客戶，企業用戶必須承諾至少 300 名使用者才能進入其新的人工智慧 Office 助理的名單。隨著微軟本週推出更多 Copilot 功能以及 Bing Chat 品牌重塑，Maia 很快就能幫助平衡對支援這些新體驗的人工智慧晶片的需求。

延伸閱讀：NVIDIA發表搭載HBM3e記憶體的H200 GPU，同時帶來4連裝水冷版Quad GH200