Hugging Face BlogMar 20, 2024, 12:00 AM重要 85

GaLore: Advancing Large Model Training on Consumer-grade Hardware

GaLore 技術讓開發者能在單張 RTX 4090 顯卡上預訓練 7B 大模型,大幅降低 AI 訓練門檻。

Hugging Face 介紹了 GaLore(梯度低秩投影)技術,這是一種新型的記憶體優化訓練方法。與 LoRA 不同,GaLore 透過將梯度投影到低秩空間,大幅減少了優化器狀態的記憶體佔用。這使得開發者可以直接在單張 24GB 記憶體的消費級顯卡(如 RTX 4090)上,進行 7B 模型的全參數微調甚至從頭預訓練。

想看英文原文 / 完整內容?

前往 Hugging Face Blog 原文 →

摘要由 AI 整理,以原文為準。