Hugging Face BlogMay 24, 2023, 12:00 AM重要 90
Making LLMs even more accessible with bitsandbytes, 4-bit quantization and QLoRA
Hugging Face 整合 4-bit 量化與 QLoRA 技術,讓開發者能在單張消費級 GPU 上微調與運行數百億參數的 LLM。
Hugging Face 宣布與 bitsandbytes 合作,將 4-bit 量化技術直接整合至 Transformers 庫中,並支援全新的 QLoRA 微調方法。這項技術透過 NF4 格式、雙重量化與分頁優化器,大幅降低顯存需求,使 65B 參數模型能在單張 48GB GPU 上進行微調,且幾乎不損失精度。這為資源有限的開發者與研究人員開啟了本地部署與客製化大模型的大門。
想看英文原文 / 完整內容?
前往 Hugging Face Blog 原文 →摘要由 AI 整理,以原文為準。