Fine-tuning LLMs to 1.58bit: extreme quantization made easy★ 85
Hugging Face Blog·622d ago·Tutorial
Hugging Face 釋出最新指南,介紹如何將現有的預訓練大語言模型(LLM)微調至 1.58-bit(三進制模型)。傳統的 BitNet 1.58B 需要極為昂貴的從頭預訓練,而此方法允許開發者直接對現有開源模型(如 Llama)進行極限非線性量化微調。這項技術將權重限制在 -1、0、1 三個值,極大降低了顯存佔用與計算頻寬,讓大模型在消費級硬體甚至 CPU 上也能高效運行。