Hugging Face BlogAug 23, 2023, 12:00 AM重要 85

Making LLMs lighter with AutoGPTQ and transformers

Hugging Face 宣布將 AutoGPTQ 整合至 transformers,讓開發者能輕鬆以 4-bit 載入與運行量化 LLM,大幅降低顯存門檻。

Hugging Face 正式將 AutoGPTQ 整合進 transformers 生態系,支援直接載入與運行 4-bit GPTQ 量化模型。此更新大幅降低了 LLM 的 GPU 記憶體門檻(如 70B 模型可在單張消費級 GPU 運行),並提供極佳的推理加速。開發者只需簡單修改程式碼即可啟用,並能無縫使用 Hub 上數千個現成的 GPTQ 模型。

想看英文原文 / 完整內容?

前往 Hugging Face Blog 原文 →

摘要由 AI 整理,以原文為準。