Intel Innovation Taipei 2023：透過Gaudi 2訓練與最佳化大型語言模型，還有醫療影像辨識實際展示

Intel於11月7日在台北舉辦今年度亞太暨日本區唯一的實體系列活動Intel Innovation Taipei 2023科技論壇，並於「透過Intel Gaudi 2訓練與優化大型語言模型」講座分享AI運算的科技應用與觀點。

企業可在基礎模型上進行微調

透過Intel Gaudi 2訓練與優化大型語言模型講座由Intel Habana Labs台灣區總經理胡瑛敏主持，她先說明訓練大型語言模型（LLM）的運算成本相當高，而且還需要準備龐大的訓練資料（筆者註：對企業而言可能也需要延攬對應的人才與負擔人事成本），將花費相當多的時間與金錢。舉例來說，OpenAI的GPT-3 175B模型的規模為1,750億組參數，訓練的運算成本高達美金841,346元。

延伸閱讀：Intel Innovation Taipei 2023台灣巡迴場，執行長Pat Gelsinger暢談AI無所不在

為了降低導入AI的時間與成本，企業可以考慮以預先訓練的大型語言模型為基礎，並對其進行微調，例如針對應用需求強化模型在特定領域的知識、強化效能、縮小量體（以利在小型裝置執行）、強化管理，以在生態系統中發揮簡化開發與降低整體成本的優勢。

然而無論是從頭開始訓練模型，或是在現有模型上進行微調，都會消耗龐大的運算資源。從Intel產品組合來看，代號為Emerald Rapids的第5代Xeon Scalable處理器雖然加入Matrix Engine運算單元並支援FP16資料類型以，有助於提升AI運算效能，但它仍只適合用於進行運算需求較小的AI推論工作，運算需求更大的AI訓練仍有賴Gaudi 2這類AI加速器，以縮短工作流程所花費的時間。

▲ 透過Intel Gaudi 2訓練與優化大型語言模型講座由Intel Habana Labs台灣區總經理胡瑛敏主持。

▲ 隨著生成式AI與大型語言模型的興起，許多企業都將這些技術導入應用，並創造更多機會與收益。（投影片於會場翻拍，畫質較差敬請見諒，下同）

▲ 訓練大型語言模型不但花費相當多金錢，也需許多心力與時間。

▲ 企業可以取得開放模型的授權，並在基礎模型上進行微調以降低成本。

Gaudi 2滿足AI訓練需求

胡瑛敏說明，Gaudi 2晶片的硬體具有24組張量處理器（Tensor Processor Core）與2組矩陣乘法引擎（Matrix Multiplication Engine），內建48MB SRAM快取記憶體與96GB HBM2e高頻寬記憶體，並具有24組100GbE RDMA網路卡（Remote Direct Memory Access，可以略過處理器直接與另一組網路卡傳輸資料），不但本體就有充沛的AI運算效能，也具有高效率的Scale-Out擴充能力，透過串接多組Gaudi 2提升整體效能。胡瑛敏補充說明由256組晶片擴充至384組後，在訓練GPT-3模型時能保有95%的線性效能增益。

Gaudi 2的參考設計以8組晶片為單位，叢集內的每組Gaudi 2透過PCIe Gen 4x16介面經由交換器連接至伺服器的處理器，並使用21組網路卡與其他7組Gaudi 2互連，剩餘3組網路卡則透過QSFP-DD光纖模組與外部節點互連。另一方面，Gaudi 2採用RoCE協定與乙太網路介面，不同於競爭對手使用專有網路介面，具有更廣泛的相容性，也有利於系統Scale-Out擴充的建置。

Gaudi 2的AI訓練與推論等運算的效能，介於競爭對手的前代A100與最新H100等晶片之間，但是擁有更出色的效能-價格比，對於以總擁有成本（TCO）為考量的企業來說，也是相當重要的考量因素。

胡瑛敏也提到下代Gaudi 3晶片將有4倍於Gaudi 2的BF16資料類型運算效能，並具有2倍網路頻寬與1.5倍記憶體容量，表現值得期待。

▲ Gaudi 2具有24組張量處理器與2組矩陣乘法引擎。