Hugging Face BlogSep 18, 2024, 12:00 AM重要 85

Fine-tuning LLMs to 1.58bit: extreme quantization made easy

Hugging Face 推出全新指南,教你如何將現有 LLM 微調至 1.58-bit(三進制),大幅降低記憶體需求並保持模型性能。

Hugging Face 釋出最新指南,介紹如何將現有的預訓練大語言模型(LLM)微調至 1.58-bit(三進制模型)。傳統的 BitNet 1.58B 需要極為昂貴的從頭預訓練,而此方法允許開發者直接對現有開源模型(如 Llama)進行極限非線性量化微調。這項技術將權重限制在 -1、0、1 三個值,極大降低了顯存佔用與計算頻寬,讓大模型在消費級硬體甚至 CPU 上也能高效運行。

想看英文原文 / 完整內容?

前往 Hugging Face Blog 原文 →

摘要由 AI 整理,以原文為準。