Showing:megatron-deepspeedResearchersClear ×
Hugging Face 詳細公開了 1760 億參數開源模型 BLOOM 的訓練技術細節。該模型在法國 Jean Zay 超級電腦上,利用 384 張 NVIDIA A100 80GB GPU 進行了為期 117 天的訓練。核心技術採用 Megatron-DeepSpeed 框架,結合了張量並行、流水線並行與數據並行的「3D 並行」方案,並透過 BF16 精度解決了大規模訓練中的數值不穩定問題。