Hugging Face 釋出最新指南,介紹 `accelerate` 的 N 維並行(ND-Parallel)技術,解決單一並行模式在超大模型訓練時的瓶頸。 文章深入探討如何有機結合數據並行(DP)、張量並行(TP)與流水線並行(PP),並透過簡單的設定檔啟用。 本指南特別適合需要跨多節點、多 GPU 進行 LLM 微調或預訓練的開發者與研究人員,能顯著提升硬體利用率(MFU)。
Hugging Face 詳細公開了 1760 億參數開源模型 BLOOM 的訓練技術細節。該模型在法國 Jean Zay 超級電腦上,利用 384 張 NVIDIA A100 80GB GPU 進行了為期 117 天的訓練。核心技術採用 Megatron-DeepSpeed 框架,結合了張量並行、流水線並行與數據並行的「3D 並行」方案,並透過 BF16 精度解決了大規模訓練中的數值不穩定問題。