Hugging Face BlogJan 19, 2021, 12:00 AM重要 80
Fit More and Train Faster With ZeRO via DeepSpeed and FairScale
Hugging Face 整合 DeepSpeed 與 FairScale 的 ZeRO 技術,讓開發者能用更少顯存訓練超大模型並提升速度。
Hugging Face 宣布在其 Trainer 中整合 Microsoft DeepSpeed 與 Facebook FairScale 的 ZeRO(零冗餘優化器)技術。這項技術透過將優化器狀態、梯度和模型參數分片到多個 GPU 上,顯著降低顯存佔用。開發者現在可以輕鬆在有限的硬體資源下,訓練原本無法容納的超大型 Transformer 模型,並大幅提升訓練效率。
想看英文原文 / 完整內容?
前往 Hugging Face Blog 原文 →摘要由 AI 整理,以原文為準。