2024.11.15 09:00

從巨人電腦到超級AI,資料中心百年進化之路大公開!核能、太陽能誰能贏得AI資料中心青睞?

ADVERTISEMENT

目前美國這一波運算基礎設施的建設,算是史上規模最大之一了。 

100多年前,我們見證了類似電網這樣的建設(諷刺的是,這正是當今美國基礎設施建設的瓶頸)。在電網建立初期,我們目睹了電廠的規模化(將電廠建得盡可能大以提高性能)、「天文數字般」的資本支出(CapEx)投資,以及電力成本的急劇下降。 

現如今,我們正目睹資料中心的規模化、超大規模雲端運算公司的巨額資本支出,以及AI運算成本的急劇下降:

ADVERTISEMENT

本文的關注重點是構建AI專用資料中心所需的基礎設施。 

AI資料中心簡介

「資料中心」這個詞沒法完全形容這些「AI工廠」的龐大規模。最大型的資料中心在土地、電力和冷卻設備、建設成本、GPU和其他運算基礎設施方面的花費可達數十億美元。 

ADVERTISEMENT

這還沒包括能源的成本。新的、最大型的超大規模資料中心消耗的電力高達1GW。要知道,紐約市的用電量也才是5.5GW。也就是說,每五個這樣的超級資料中心,就等於為電網增加一個紐約市的用電負擔。 

資料中心的價值鏈大致可分為幾個部分:資料中心的初始建設、支援資料中心的工業設備、資料中心的運算基礎設施,以及為資料中心供電的能源。此外,還有一些公司擁有或租賃資料中心,為消費者提供最終服務。

ADVERTISEMENT

在深入研究之前,我們應該瞭解一點資料中心的歷史。 

資料中心簡史

資料中心很大程度上是伴隨著電腦和網際網路而崛起的。以下介紹部分趨勢的歷史概覽以及我們是如何走到今天這一步的。 

資料中心的早期歷史

最早期的運算模式跟今天的資料中心類似:有一台集中式的電腦,主要是用來解決運算密集型任務以及關鍵任務。 

ADVERTISEMENT

這裡是兩個早期的例子: 

  1. 巨人電腦(Colossus):由艾倫·圖靈(Alan Turing)為破解Enigma機而建造的電腦。(注:圖靈還被認為是人工智慧和電腦科學之父。他提出了圖靈測試,用來測試AI是否具有真正的智慧,去年ChatGPT通過了這一測試)。 
  2. ENIAC:由美國軍方在二戰期間設計的電腦,但直到1946年才完成。儘管巨人電腦早於ENIAC建成,但由於巨人電腦的機密性,ENIAC通常被視為第一台電腦。 

兩者都位於可以被視為「最早的資料中心」的設施內。

1950年代,IBM崛起並統治了運算領域,該公司推出了大型電腦,從而引領了其在科技領域的數十年主導地位,而AT&T是當時另一家佔據主導地位的科技公司。 

1969年,ARPANET發佈,這個網路的目標是連接美國日益增多的電腦。ARPANET現在被認為是網際網路的早期版本。由於是政府專案,所以其最密集的連接位於華盛頓特區附近。 

網際網路與雲端運算的崛起

在1990年代,隨著網際網路的發展,我們需要越來越多的物理基礎設施來處理急劇增長的網際網路資料流程量,其中的一部分需求透過作為連接點的資料中心來滿足。像AT&T這樣的電信公司已經建立了通信基礎設施,資料中心業務的擴展對它們來說是順理成章的事情。 

不過,在資料傳輸方面,這些電信公司的關係跟當前垂直整合的雲服務提供者的「競合」有點類似。AT&T既擁有其基礎設施上傳輸的資料,也擁有傳輸該資料的設備。所以,在傳輸容量有限的情況下,AT&T會優先傳輸自身的資料。其他公司對此很警惕,所以後來才有了Digital Realty與Equinix等資料中心公司的崛起。 

在網路泡沫期間,資料中心獲得了大量投資,但隨著泡沫破裂,這種增長顯著放緩(這也是我們在推測未來資料時應謹記的教訓)。

 

直到2006年,隨著AWS的發表,資料中心需求才逐漸恢復增長。從那時起,美國的資料中心規模便保持著穩定的增長。

AI資料中心的崛起

這種穩步的增長一直持續到2023年,這一年AI熱潮席捲全球。據估算,到2030年資料中心的容量將會增加一倍(需謹記,這只是估算)。

 

訓練AI的工作負載引發了對資料中心規模的新關注。運算基礎設施之間的距離越近,性能表現越好。此外,當資料中心被設計成運算單元而不僅僅是裝伺服器的設施時,公司還可以獲得額外的整合收益。 

最後,由於AI訓練不需要靠近終端使用者,所以資料中心可以建在任何地方。 

總結一下,當今的AI資料中心關注規模、性能和成本,並且幾乎可以建在任何地方。 

AI資料中心的建設要素

建設AI資料中心

運算提供商(超大規模提供商、AI公司或GPU雲端提供商)要嘛自己建造資料中心,要嘛跟Vantage、QTS或Equinix等資料中心開發商合作,去找到電力充足的土地。 

然後,他們會雇用總承包商管理建設過程,總承包商則會再雇幾家分包商負責各個功能(如電力、管道、暖通空調等)並採購原材料。專案期間,工人會遷移到該區域。在大樓主體結構完成後,下一步就是安裝設備。

資料中心的工業設備可以大致分為電力設備和冷卻設備。電力設備從主開關設備開始,這是用來連接外部電源的,然後連接到配電單元、不斷電供應系統(UPS)以及連接伺服器機架的電纜。大多數資料中心還會備有柴油發電機,以備停電的不時之需。 

第二類是機械和冷卻設備,包括冷水機、冷卻塔、暖通空調設備以及連接到伺服器的液體或空氣冷卻系統。 

AI資料中心的運算設備

運算基礎設施包括運行AI訓練和推理工作負載的設備。主要設備是GPU或加速器。除Nvidia、AMD及超大規模提供商外,眾多新創公司也在爭奪AI加速器的市場占有率。 

 

雖然CPU的重要性已不如從前,但它們在完成複雜操作和任務分配方面仍發揮著重要作用。存放裝置用於存放晶片之外的資料,而記憶體則用來儲存需頻繁存取的資料。網路負責連接所有元件,包括伺服器內外部的連接。 

最後,這些設備將被安裝在資料中心的伺服器內。

為AI資料中心提供能源

能源供應鏈可分為以下幾個部分: 

  1. 能源來源──化石燃料、可再生能源和核能,能夠產生電力的能源。 
  2. 發電──發電廠將化石燃料轉化為電能;而可再生能源則在更接近能源源頭的地方發電。 
  3. 輸電──電力透過高壓線路傳輸至目的地附近。變壓器和變電站會將高壓電力降低到適合消費的電壓。 
  4. 公用事業/配電──公用事業公司管理最後一公里的配電,並透過電力購買協議(PPA)管理電力輸送。

 

通常所謂的「電網」就是指傳輸和配電系統,由地方管理。根據位置不同,這兩處都可能成為電力傳輸的瓶頸。 

能源成為AI資料中心擴展的關鍵瓶頸。 

電力擴容並不容易,資料中心有兩種選擇:併網與離網。併網是通過電網輸電,由公用事業公司分配。離網則繞開電網,比如現場用太陽能、風能和電池發電。更理想的情況是,在2.5 GW的核電站旁邊建一座GW級資料中心! 

併網的問題是電力擴容需要時間。下圖顯示了從源頭申請電量到實際投入使用所需的等待時間。 

解決這些挑戰不可避免需要採用多種組合方案。我們會在最後一節進一步討論。 

AI資料中心的新特點

新一代的資料中心在規模、密度、速度和能耗方面都有顯著提升。 

「超大規模」資料中心不是什麼全新概念。幾乎每隔幾年,就會有關於資料中心規模擴大的報導,從2001年的幾兆瓦到2010年代的50兆瓦,再到2020年的「巨型120兆瓦」資料中心,如今則發展到了數吉瓦(註: 1 吉瓦等於 10 億瓦特)的超大規模。 

這些吉瓦級資料中心不僅規模大,密度也更高,這樣的系統要按照系統角度來設計。其核心問題在於摩爾定律放緩,也就是半導體在電晶體密度方面的性能提升難度逐漸增加了。因此,解決之道是將伺服器,甚至將整個資料中心的組件儘量整合在一起。 

實際上,這意味著資料中心被設計成一個整合系統,而不是由單太伺服器組成的機房。這些伺服器也要被設計成緊密結合的整合系統。 

所以NVIDIA也賣伺服器和POD系統,所以超大規模公司要建設系統級的資料中心,同時這可能也解釋了AMD要做出收購ZT系統的戰略選擇。 

看看NVIDIA的DGX H100系統,它既可作為單獨的伺服器使用,也可連接至其他GPU形成POD,甚至可連接至SuperPOD來增加連接數量:

NVIDIA還引領了「加速運算」趨勢,也就是將任務從CPU轉移出去,從而提升GPU、網路以及軟體等元件的作用。 

此外,AI的獨特需求要求處理大量資料,所以資料儲存能力(記憶體/儲存)和快速傳輸大量資料(網路)變得至關重要。這就像心臟要泵血一樣,GPU就是心臟,而資料是血液(所以Google TPU架構又被叫做「脈動陣列」)。 

所有這些趨勢共同構成了全球最強大的運算設備。這種運算能力帶來了更大能耗、更大的熱量產生以及對每個伺服器更高的冷卻需求。隨著我們對運算能力需求的增加,這種能耗只會越來越大。

瓶頸與受益者

以下列舉了會從中受益的名單(不詳盡),以及部分目前備受關注的領域。從建設變壓器的技術工人短缺,到許可流程的自動化,各方面都存在瓶頸,整個供應鏈都很緊張。 

電網擴容還是繞開電網

顯然,為支援此次擴充,能源基礎設施需要提升。幾乎每家科技公司都更傾向用併網的方式:這種方式更可靠且管理方便。不過,如果併網電力不可用,超大規模公司會考慮自給自足。比方說,AWS正在印第安那州投資110億美元設立一個資料中心園區,建設四個太陽能發電場和一個風力發電場(600兆瓦)來為資料中心供電。 

從中長期看,我對兩種能源瓶頸階級方式最為樂觀:核能與電池。這兩者都可以為資料中心提供更具可持續性的能源來源。 

核能的優點眾所周知:清潔且穩定。不過,如何經濟可行地建設核能是一大挑戰,目前一些極具潛力的新創企業正在解決這一難題。 

長時電池的創新會是可再生能源發展的重要一步。太陽能和風能的不足在於其間歇性,只有在風力或日照充足時才能發電。透過儲存多餘電力,在電力短缺時釋放能量,長時電池可以緩解這一問題。 

建設許可與液體冷卻技術

在工業領域,兩種趨勢尤其值得關注:許可管理的自動化以及液體冷卻技術。很多人反映,拿到開工許可是擴容的瓶頸之一。 

要想對資料中心和電力擴容,開發商需要拿到建築、環境、城區、雜訊等方面的許可,還可能需要地方、州以及國家各級機構的批准。此外,他們還需應對各地的優先購買權法律規定。在能源基礎設施領域,這個流程更加複雜。許可管理軟體公司如PermitFlow等在緩解這些問題方面大有可為。 

AI資料中心的新一代技術的顯著區別之一是伺服器產生的熱量增加。因此,新一代資料中心將採用液體冷卻技術,而下一代可能會採用更為先進的浸入式冷卻技術。 

向運算公司脫帽致敬

我們不得不承認,NVIDIA在構建生態體系方面取得了巨大成功,AMD在鞏固其作為替代方案的地位方面也取得了顯著成績。從應用到軟體基礎設施,再到雲端運算、系統和晶片,NVIDIA在為AI構建技術浪潮方面做得極為出色。 

提供AI運算和能源服務的Crusoe將是另一家會處在有利位置的公司。 

最後,受益於資料中心擴容的運算公司應該可以繼續在價值鏈中獲得可觀收入。從網路、儲存到伺服器,如果能夠提供頂級性能,公司就會從此次大擴容中受益。 

最後思考

關於資料中心擴展的最終思考是:儘管這看似是一種新趨勢,但其實這不過是運算發展史更長脈絡的一部分而已。AI、資料中心和運算不應被看作是分割的議題。 

就像山姆·阿特曼所說那樣: 

「人類歷史可以簡化為:經過數千年的科學發現和技術進步,我們終於學會了如何熔化沙子,加入一些雜質,以極其精確的方式在微觀尺度上進行排列,形成電腦晶片,並用電去驅動,進而創建出能夠生成越來越強大人工智慧的系統。」 

艾倫·圖靈不僅是現代電腦的奠基人,也是電腦科學和人工智慧的奠基者,這一點絕非偶然。這個趨勢在過去100年創造智慧的時間裡一以貫之。而今天,資料中心正處在這一趨勢的中心。

 

ADVERTISEMENT