本文介紹 Hugging Face Transformers 庫中原生整合的量化方案。主要涵蓋 bitsandbytes(包含 8-bit 與用於 QLoRA 的 4-bit 量化)以及 GPTQ 技術。文章詳細解析了各量化方案的運作原理、記憶體節省幅度、推論速度表現,並提供對應的程式碼範例,幫助開發者在有限的硬體資源下部署與微調大型語言模型。
Hugging Face 正式將 AutoGPTQ 整合進 transformers 生態系,支援直接載入與運行 4-bit GPTQ 量化模型。此更新大幅降低了 LLM 的 GPU 記憶體門檻(如 70B 模型可在單張消費級 GPU 運行),並提供極佳的推理加速。開發者只需簡單修改程式碼即可啟用,並能無縫使用 Hub 上數千個現成的 GPTQ 模型。