Hugging Face BlogJul 14, 2022, 12:00 AM重要 80

The Technology Behind BLOOM Training

本文深入解析 Hugging Face 聯合 BigScience 訓練 176B 開源大模型 BLOOM 的底層技術,包含 3D 混合並行與 BF16 穩定性優化。

Hugging Face 詳細公開了 1760 億參數開源模型 BLOOM 的訓練技術細節。該模型在法國 Jean Zay 超級電腦上,利用 384 張 NVIDIA A100 80GB GPU 進行了為期 117 天的訓練。核心技術採用 Megatron-DeepSpeed 框架,結合了張量並行、流水線並行與數據並行的「3D 並行」方案,並透過 BF16 精度解決了大規模訓練中的數值不穩定問題。

想看英文原文 / 完整內容?

前往 Hugging Face Blog 原文 →

摘要由 AI 整理,以原文為準。