Hugging Face BlogAug 17, 2022, 12:00 AM重要 80
A Gentle Introduction to 8-bit Matrix Multiplication for transformers at scale using transformers, accelerate and bitsandbytes
Hugging Face 整合 bitsandbytes,推出 load_in_8bit 功能,讓大語言模型記憶體需求減半且幾乎不失真。
Hugging Face 宣布與 bitsandbytes 深度整合,支援 LLM.int8() 8-bit 量化技術。此技術透過混合精度分解,將極端值保留在 FP16,其餘進行 8-bit 量化,成功讓大模型(如 BLOOM-176B)的記憶體需求減半。開發者現在只需在 from_pretrained 中加入 load_in_8bit=True,即可在消費級 GPU 上運行原本需要多張顯卡的大型語言模型。
想看英文原文 / 完整內容?
前往 Hugging Face Blog 原文 →摘要由 AI 整理,以原文為準。