NVIDIA推出TensorRT-LLM運算框架,最高帶來8倍大型語言模型推論效能

NVIDIA推出TensorRT-LLM運算框架,最高帶來8倍大型語言模型推論效能

ADVERTISEMENT

TensorRT-LLM能夠支援多種大型語言模型,並在新世代軟硬體整合的助力下,最高可帶來8倍AI推論效能。

軟硬體雙管齊下

NVIDIA預測大型語言模型(Large Language Model,以下簡稱LLM)的應用將沿伸至各行各業,其技術發展也相當快速,不過隨著模型的量體持續擴大,AI模型的部署也變的更加複雜,且需花費更多運算資源進行推論。

為了改善這個狀況,NVIDIA推出TensorRT-LLM運算框架,它具有高度最佳化與開源等特性,並支援GPT-3、Llama、Flacon 180B、BLOOM等LLM,以及SmoothQuant、FlashAttention、fMHA等AI核心(AI Kernel)。

此外TensorRT-LLM也支援多GPU、多結點運算,並導入能夠最佳化工作排程的In-Flight Batching技術,還能透過Transformer引擎自動將模型轉換為FP8資料格式,都對效能表現有所幫助。

NVIDIA預測金融、醫療、零售、電訊、媒體、娛樂、製造、能源等產業都會導入大型語言模型(Large Language Model,LLM)。

LLM的發展相當快速,然而也面臨部署更複雜、運算更吃資源等問題。

TensorRT-LLM是款高度最佳化的開源運算框架。

它支援多種LLM,並可支援多GPU、多結點運算,以及工作排程、資料格式最佳化。

根據NVIDIA提供的數據,H100 GPU搭配TensorRT-LLM能帶來8倍於A100 GPU的GPT-J 6B推論效能表現。至於Llama 2部分,H100 GPU搭配TensorRT-LLM則能帶來4.6倍於A100 GPU的推論效能。

雖然說上述效能數據所使用的GPU屬於不同世代產品,但看到。H100 GPU搭配TensorRT-LLM與單純使用H100,也能帶來約略1倍的效能增益,可見其軟體最佳化還是能帶來長足效能進步。

國寶大師 李文恩
作者

電腦王特約作者,專門負責硬派內容,從處理器、主機板到開發板、零組件,尖端科技都一手包辦,最近的研究計畫則包括Windows 98復活與AI圖像生成。

使用 Facebook 留言
發表回應
謹慎發言,尊重彼此。按此展開留言規則