Intel Innovation Taipei 2023:透過Gaudi 2訓練與最佳化大型語言模型,還有醫療影像辨識實際展示

Intel Innovation Taipei 2023:透過Gaudi 2訓練與最佳化大型語言模型,還有醫療影像辨識實際展示

ADVERTISEMENT

Intel於11月7日在台北舉辦今年度亞太暨日本區唯一的實體系列活動Intel Innovation Taipei 2023科技論壇,並於「透過Intel Gaudi 2訓練與優化大型語言模型」講座分享AI運算的科技應用與觀點。

企業可在基礎模型上進行微調

透過Intel Gaudi 2訓練與優化大型語言模型講座由Intel Habana Labs台灣區總經理胡瑛敏主持,她先說明訓練大型語言模型(LLM)的運算成本相當高,而且還需要準備龐大的訓練資料(筆者註:對企業而言可能也需要延攬對應的人才與負擔人事成本),將花費相當多的時間與金錢。舉例來說,OpenAI的GPT-3 175B模型的規模為1,750億組參數,訓練的運算成本高達美金841,346元。

為了降低導入AI的時間與成本,企業可以考慮以預先訓練的大型語言模型為基礎,並對其進行微調,例如針對應用需求強化模型在特定領域的知識、強化效能、縮小量體(以利在小型裝置執行)、強化管理,以在生態系統中發揮簡化開發與降低整體成本的優勢。

然而無論是從頭開始訓練模型,或是在現有模型上進行微調,都會消耗龐大的運算資源。從Intel產品組合來看,代號為Emerald Rapids的第5代Xeon Scalable處理器雖然加入Matrix Engine運算單元並支援FP16資料類型以,有助於提升AI運算效能,但它仍只適合用於進行運算需求較小的AI推論工作,運算需求更大的AI訓練仍有賴Gaudi 2這類AI加速器,以縮短工作流程所花費的時間。

透過Intel Gaudi 2訓練與優化大型語言模型講座由Intel Habana Labs台灣區總經理胡瑛敏主持。

隨著生成式AI與大型語言模型的興起,許多企業都將這些技術導入應用,並創造更多機會與收益。(投影片於會場翻拍,畫質較差敬請見諒,下同)

訓練大型語言模型不但花費相當多金錢,也需許多心力與時間。

企業可以取得開放模型的授權,並在基礎模型上進行微調以降低成本。

Gaudi 2滿足AI訓練需求

胡瑛敏說明,Gaudi 2晶片的硬體具有24組張量處理器(Tensor Processor Core)與2組矩陣乘法引擎(Matrix Multiplication Engine),內建48MB SRAM快取記憶體與96GB HBM2e高頻寬記憶體,並具有24組100GbE RDMA網路卡(Remote Direct Memory Access,可以略過處理器直接與另一組網路卡傳輸資料),不但本體就有充沛的AI運算效能,也具有高效率的Scale-Out擴充能力,透過串接多組Gaudi 2提升整體效能。胡瑛敏補充說明由256組晶片擴充至384組後,在訓練GPT-3模型時能保有95%的線性效能增益。

Gaudi 2的參考設計以8組晶片為單位,叢集內的每組Gaudi 2透過PCIe Gen 4x16介面經由交換器連接至伺服器的處理器,並使用21組網路卡與其他7組Gaudi 2互連,剩餘3組網路卡則透過QSFP-DD光纖模組與外部節點互連。另一方面,Gaudi 2採用RoCE協定與乙太網路介面,不同於競爭對手使用專有網路介面,具有更廣泛的相容性,也有利於系統Scale-Out擴充的建置。

Gaudi 2的AI訓練與推論等運算的效能,介於競爭對手的前代A100與最新H100等晶片之間,但是擁有更出色的效能-價格比,對於以總擁有成本(TCO)為考量的企業來說,也是相當重要的考量因素。

胡瑛敏也提到下代Gaudi 3晶片將有4倍於Gaudi 2的BF16資料類型運算效能,並具有2倍網路頻寬與1.5倍記憶體容量,表現值得期待。

Gaudi 2具有24組張量處理器與2組矩陣乘法引擎。

Gaudi 2的參考設計以8組晶片為單位,叢集內的每組Gaudi 2晶片透過PCIe Gen 4x16介面經由交換器連接至伺服器的處理器,並使用21組網路卡與其他7組晶片互連,剩餘3組網路卡則透過QSFP-DD光纖模組與外部節點互連。

以FP8資料類型執行GPT-J模型的MLPerf測試中,Gaudi 2在Server與Offline等環境下分別落後H100約9%與28%,但大幅領先A100超過1倍。

Intel與NVIDIA是唯2於MLPerf提交AI訓練的公司,以384組Gaudi 2訓練GPT-3模型花費311.9分鐘,若改用FP8資料類型,預期效能-價格比將高於H100。

Gaudi 2執行多種AI運算的效能皆高於A100,微調後執行BridgeTower模型的效能領先H100達40%。

總結來說,Gaudi 2具有比A100、H100等競爭對手產品更高的成本效益。

在相同測試環境下,Gaudi 2比A100節省14%能源,與H100相比更是節省50%,Gaudi 2也具有更出色的電力效率(效能-功耗比)。

下代Gaudi 3晶片將有4倍於Gaudi 2的BF16資料類型運算效能,並具有2倍網路頻寬與1.5倍記憶體頻寬。[刊誤更正:原本投影片中提到1.5倍記憶體容量為誤植,正確為1.5倍記憶體頻寬] 下代Gaudi 3晶片將有4倍於Gaudi 2的BF16資料類型運算效能,並具有2倍網路頻寬與1.5倍記憶體頻寬。[刊誤更正:原本投影片中提到1.5倍記憶體容量為誤植,正確為1.5倍記憶體頻寬]

Gaudi 2也將於Intel Developer Cloud服務提供使用。

醫療領域的AI應用

講座中也介紹了Wiwynn(緯穎科技)開發的SV600G2伺服器,它具有8組Gaudi 2晶片,伺服器中也搭載2組第3代Xeon Scalable處理器,並具有32組DDR4 RDIMM記憶體插槽,以及6組400GbE頻寬的QSFP-DD光纖模組,提供高達400GbE的RDMA對外頻寬。

活動的展示區也展出Wiwynn與JelloX(捷絡生技)合作的成果,利用Gaudi 2強化醫學方面的AI應用,現場產出的範例為訓練用於分析與偵測乳癌組織的免疫螢光影像AI模型,以及病患的聲音分辨是否罹患喉癌等技術。

Wiwynn展示具有8組Gaudi 2晶片的SV600G2伺服器。

每台SV600G2伺服器總共具有6組400GbE頻寬的QSFP-DD光纖模組,具有高達2400GbE的RDMA對外頻寬。

SV600G2伺服器的尺寸為6U,除了有8組Gaudi 2晶片之外,還有2組處理器與32組記憶體模組。

Wiwynn與JelloX合作,利用Gaudi 2強化醫學影像的深度學習模型應用。圖為訓練用於分析與偵測乳癌組織的免疫螢光影像AI模型。

JelloX的另一個展示項目為透過病患的聲音就可分辨是否罹患喉癌,能夠免去病患接受侵入性檢查之苦。

根據Intel目前的產品路線規劃,在Gaudi 3之後的AI運算產品將以代號為Falcon Shore的GPU解決方案為主,屆時也可預計將帶來許多創新設計。

國寶大師 李文恩
作者

電腦王特約作者,專門負責硬派內容,從處理器、主機板到開發板、零組件,尖端科技都一手包辦,最近的研究計畫則包括Windows 98復活與AI圖像生成。

使用 Facebook 留言
發表回應
謹慎發言,尊重彼此。按此展開留言規則