A Gentle Introduction to 8-bit Matrix Multiplication for transformers at scale using transformers, accelerate and bitsandbytes★ 80
Hugging Face Blog·1385d ago·Release
Hugging Face 宣布與 bitsandbytes 深度整合,支援 LLM.int8() 8-bit 量化技術。此技術透過混合精度分解,將極端值保留在 FP16,其餘進行 8-bit 量化,成功讓大模型(如 BLOOM-176B)的記憶體需求減半。開發者現在只需在 from_pretrained 中加入 load_in_8bit=True,即可在消費級 GPU 上運行原本需要多張顯卡的大型語言模型。