NVIDIA推出TensorRT-LLM運算框架，最高帶來8倍大型語言模型推論效能

TensorRT-LLM能夠支援多種大型語言模型，並在新世代軟硬體整合的助力下，最高可帶來8倍AI推論效能。

軟硬體雙管齊下

NVIDIA預測大型語言模型（Large Language Model，以下簡稱LLM）的應用將沿伸至各行各業，其技術發展也相當快速，不過隨著模型的量體持續擴大，AI模型的部署也變的更加複雜，且需花費更多運算資源進行推論。

為了改善這個狀況，NVIDIA推出TensorRT-LLM運算框架，它具有高度最佳化與開源等特性，並支援GPT-3、Llama、Flacon 180B、BLOOM等LLM，以及SmoothQuant、FlashAttention、fMHA等AI核心（AI Kernel）。

此外TensorRT-LLM也支援多GPU、多結點運算，並導入能夠最佳化工作排程的In-Flight Batching技術，還能透過Transformer引擎自動將模型轉換為FP8資料格式，都對效能表現有所幫助。

▲ NVIDIA預測金融、醫療、零售、電訊、媒體、娛樂、製造、能源等產業都會導入大型語言模型（Large Language Model，LLM）。

▲ LLM的發展相當快速，然而也面臨部署更複雜、運算更吃資源等問題。

▲ TensorRT-LLM是款高度最佳化的開源運算框架。

▲ 它支援多種LLM，並可支援多GPU、多結點運算，以及工作排程、資料格式最佳化。

▲ 根據NVIDIA提供的數據，H100 GPU搭配TensorRT-LLM能帶來8倍於A100 GPU的GPT-J 6B推論效能表現。至於Llama 2部分，H100 GPU搭配TensorRT-LLM則能帶來4.6倍於A100 GPU的推論效能。

雖然說上述效能數據所使用的GPU屬於不同世代產品，但看到。H100 GPU搭配TensorRT-LLM與單純使用H100，也能帶來約略1倍的效能增益，可見其軟體最佳化還是能帶來長足效能進步。