ADVERTISEMENT
Hugging Face 本週宣布推出 HUGS,這是它針對 Nvidia 推出的 Inference Microservices(NIMs)的對應方案。這個 AI 倉庫聲稱,HUGS 將讓客戶能夠在更多類型的硬體上部署和運行大型語言模型(LLMs)和其他模型。
與 Nvidia 之前宣布的 NIMs 類似,Hugging Face 的生成式 AI 服務(HUGS)實際上是容器化的模型映像檔,其中包含使用者部署模型所需的一切。其理念是,使用者無需再費力地使用 vLLM 或 TensorRT LLM 來大規模地最佳化運行大型語言模型,而是可以在 Docker 或 Kubernetes 中啟動預先配置的容器映像檔,並透過標準的 OpenAI API 呼叫來連接它。
HUGS 基於 Hugging Face 的開源 Text Generation Inference(TGI)和 Transformers 框架及庫建構,可部署於多種硬體平台上,包括 Nvidia 和 AMD 的 GPU,未來將擴充支援更多專用的 AI 加速器,如 Amazon 的 Inferentia 或 Google 的 TPU。不過,目前尚未支援 Intel 的 Gaudi。
儘管基於開源技術,但 HUGS 與 NIMS 一樣並非免費。如果部署在 AWS 或 Google Cloud 上,每個容器每小時的運行成本約為 1 美元。
相比之下,Nvidia 對在雲端部署的 NIMs 每個 GPU 每小時收費 1 美元,或在本地部署每個 GPU 每年收費 4,500 美元。如果您要部署一個更大的模型,例如橫跨八個 GPU 的 Meta Llama 3.1 405B,那麼 Hugging Face 的產品部署起來將會便宜得多。此外,對其他硬體類型的支援意味著客戶不會受限於 Nvidia 的硬體生態系統。
HUGS 是否會比 NIMs 更高效或更具最佳化,還有待觀察。
對於那些希望以較小規模部署 HUGS 的使用者,Hugging Face 也將在 DigitalOcean 的雲端平台上提供映像檔,無需額外費用,但仍然需要支付運算費用。
DigitalOcean 最近宣布推出基於 Nvidia H100 加速器的 GPU 加速虛擬機,每個 GPU 的價格根據是否選擇單一加速器或簽訂 12 個月承諾訂購八個加速器,介於每小時 2.5 至 6.74 美元之間。
最後,那些為 Hugging Face 的 Enterprise Hub 訂閱者每月支付每位使用者 20 美元的使用者,將可以選擇在自己的基礎架構上部署 HUGS。
在模型方面,Hugging Face 相當保守,專注於一些最流行的開放模型,包括:
- Meta 的 Llama 3.1 8B、70B 和 405B (FP8)
- Mistral AI 的 Mixtral 8x7B、8x22B 和 Mistral 7B
- Nous Research 對以下模型的 Hermes 微調:Meta 的三個 Llama 3.1 模型和 Mistral 的 Mixtral 8x7B
- Google 的 Gemma 2 9B 和 27B
- 阿里巴巴的 Qwen 2.5 7B
- 預計 Hugging Face 將在不久的將來快速擴充對其他模型的支援,例如微軟的 Phi 系列 LLM。
但是,如果使用者不願意為基本上只是一些綁在一起開源軟體和模型檔案的東西付費,那麼任何人都可以自由地使用 vLLM、Llama.cpp、TGI 或 TensorRT LLM 建立自己的容器化模型。
話雖如此,無論是選擇 Hugging Face 的 HUGS 還是 Nvidia 的 NIMs,實際上所支付的,是調整和優化這些容器以獲得最佳效能的時間和精力。
請注意!留言要自負法律責任,相關案例層出不窮,請慎重發文!