隨著大語言模型(LLM)處理的上下文長度不斷增加,KV Cache(鍵值快取)已成為記憶體與推理速度的主要瓶頸。NVIDIA 與 Hugging Face 合作推出了開源庫 KVPress,旨在簡化各種 KV Cache 壓縮技術的實現與評估。KVPress 提供統一的 API,支援多種剪枝與壓縮策略,能有效降低長文本推理時的硬體門檻,並與 Hugging Face transformers 生態系無縫整合。
Hugging Face 宣布與 FriendliAI 建立合作夥伴關係,旨在加速 Hugging Face Hub 上的模型部署。透過整合 FriendliAI 的高效能推理技術,開發者將能以更低的延遲和更低的成本部署大型語言模型(LLM)。此合作簡化了從 Hub 到生產環境的部署流程,為企業提供更具成本效益的 AI 服務方案。
Hugging Face 介紹了在 transformers 庫中實現的「動態投機(Dynamic Speculation)」技術。傳統的輔助生成(Assisted Generation)使用固定長度的草稿 Token 進行驗證,而動態投機則會根據草稿模型的即時接受率,動態調整預測長度(K 值)。這項改進能在不犧牲生成品質的前提下,顯著減少不必要的計算並提升推理速度,讓開發者更輕鬆地優化 LLM 部署。
Hugging Face 宣布與 AMD 展開深度合作,全面優化 AMD Instinct MI300X GPU。透過 AMD ROCm 軟體棧與 Hugging Face 核心庫(如 Transformers、TGI)的無縫整合,開發者無需修改程式碼即可在 MI300X 上運行 Llama 3 等大型模型。MI300X 憑藉 192GB HBM3 超大記憶體,為企業提供極具性價比且能擺脫單一晶片供應商依賴的高效能 AI 算力選擇。
隨著 LLM 上下文長度增加,KV Cache 佔用的記憶體成為推論瓶頸。Hugging Face 探討了 KV Cache 量化技術(如 INT8 和 INT4),這項技術能減少高達 75% 的快取記憶體佔用。這不僅能顯著提升推論的批次大小(Batch Size),還能在不犧牲太多精度的情況下,讓消費級顯卡也能運行超長文本生成。
Hugging Face 宣布在 optimum-habana 中支援文字生成 Pipeline,使開發者能輕鬆在 Intel Gaudi 2 AI 加速器上部署大語言模型。此更新簡化了程式碼,並針對 Gaudi 2 硬體進行優化,提供極佳的推理效能與性價比,是 NVIDIA GPU 之外的強大替代方案。
Hugging Face 宣佈旗下高效能大語言模型推理框架 Text Generation Inference (TGI) 正式支援 AWS Inferentia2 (Inf2) 執行個體。透過與 AWS Neuron SDK 的整合,開發者現在能以極具性價比的方式在 AWS 上部署 Llama 2、Mistral 等主流開源模型。此舉不僅簡化了專用硬體上的部署流程,更可望降低高達 50% 的推理成本。
Hugging Face 宣布與 AMD 深度合作,推出 optimum-amd 套件,旨在簡化 AMD GPU(如 Instinct 與 Radeon 系列)上的模型部署與加速。該套件整合了 AMD ROCm 軟體平台,開發者只需修改幾行程式碼,即可在 AMD 硬體上無縫運行並加速主流的大語言模型(LLM)。此舉打破了過去 NVIDIA CUDA 在 AI 訓練與推理上的壟斷,為企業與開發者提供更具性價比的硬體選擇。
本指南深入探討如何在實際生產環境中優化大語言模型(LLM)的部署。內容涵蓋降低顯示記憶體(vRAM)佔用的關鍵技術,如 KV 快取、4-bit/8-bit 量化(GPTQ、AWQ)與 FlashAttention;並介紹提升推論吞吐量的進階方法,包括連續批次處理(Continuous Batching)、投機解碼(Speculative Decoding)以及多 GPU 分散式推論。這是一份針對開發者將開源模型落地的必讀實戰手冊。
Hugging Face 正式將 AutoGPTQ 整合進 transformers 生態系,支援直接載入與運行 4-bit GPTQ 量化模型。此更新大幅降低了 LLM 的 GPU 記憶體門檻(如 70B 模型可在單張消費級 GPU 運行),並提供極佳的推理加速。開發者只需簡單修改程式碼即可啟用,並能無縫使用 Hub 上數千個現成的 GPTQ 模型。
Hugging Face 與密碼學安全公司 Zama 合作,發表了利用全同態加密(FHE)運行大語言模型(LLM)的技術方案。該技術允許用戶將加密的 Prompt 發送到雲端,雲端模型在完全不解密的情況下進行推論並返回加密結果,確保數據隱私。雖然目前面臨運算延遲高與需要極低位元量化等挑戰,但這為金融與醫療等高隱私需求領域開闢了全新可能。
本文探討 Hugging Face 優化 1760 億參數大模型 BLOOM 推理的技術細節。面對 FP16 下高達 352GB 的顯示記憶體需求,團隊結合了 8-bit 量化(LLM.int8())、Tensor Parallelism(張量並行)以及 Hugging Face Accelerate 的 CPU/NVMe 卸載技術。這些優化成功將記憶體需求減半,並顯著提升吞吐量,降低了開源社群部署超大型語言模型的門檻。