Hugging Face 宣佈旗下高效能大語言模型推理框架 Text Generation Inference (TGI) 正式支援 AWS Inferentia2 (Inf2) 執行個體。透過與 AWS Neuron SDK 的整合,開發者現在能以極具性價比的方式在 AWS 上部署 Llama 2、Mistral 等主流開源模型。此舉不僅簡化了專用硬體上的部署流程,更可望降低高達 50% 的推理成本。
Hugging Face 介紹如何使用 AWS Inferentia2(Inf2 執行個體)來加速 Llama 2 模型的推理。透過 Optimum Neuron 整合庫,開發者可以輕鬆將 Llama 2 編譯並部署至 AWS 自研晶片上。這不僅能顯著提升文字生成速度(降低延遲),還能大幅降低雲端部署的硬體成本,是 NVIDIA GPU 之外的高性價比替代方案。