Google DeepMind 發表「Decoupled DiLoCo」技術,旨在解決跨資料中心或不穩定網路環境下的 AI 訓練難題。該技術改良了原有的 DiLoCo 演算法,將本地訓練與全域同步解耦,大幅提升了對「慢節點(stragglers)」與斷線的容錯能力。這項突破讓利用全球閒置或異質算力進行超大規模模型訓練變得更加可行。
Jack Clark 在本期電子報中探討了三個技術趨勢與一個社會政治議題。技術上,LLM 訓練其他 LLM(合成資料與自我提升)正成為主流;社群成功完成了 72B 參數模型的分散式訓練,展示了去中心化算力的潛力;同時指出電腦視覺因物理世界的複雜性,比文本生成更具挑戰性。最後,他思考了 AI 的快速崛起是否會導致現有政治體制進入混亂的「過渡期」。
Hugging Face 詳細介紹了 Ulysses 序列平行化(USP)技術。該技術透過在注意力計算前後進行 All-to-All 集合通訊,將序列維度與注意力頭維度進行轉置,使每個 GPU 能在本地高效計算完整序列的子集注意力。相較於傳統的 Megatron-SP 或 Ring Attention,Ulysses SP 具有極低的通訊開銷,並能與 ZeRO-3 完美結合,是訓練百萬級(Million-Token)超長上下文大模型的高效首選方案。
Hugging Face 釋出最新指南,介紹 `accelerate` 的 N 維並行(ND-Parallel)技術,解決單一並行模式在超大模型訓練時的瓶頸。 文章深入探討如何有機結合數據並行(DP)、張量並行(TP)與流水線並行(PP),並透過簡單的設定檔啟用。 本指南特別適合需要跨多節點、多 GPU 進行 LLM 微調或預訓練的開發者與研究人員,能顯著提升硬體利用率(MFU)。
Hugging Face 旗下熱門的分散式訓練工具庫 Accelerate 正式迎來 1.0.0 版本。此版本標誌著 API 的全面穩定與成熟,大幅優化了 PyTorch FSDP 和 DeepSpeed 的整合,並提升了大模型推理(Big Model Inference)的資源調配效率。對於需要跨 GPU/TPU 進行模型微調或部署的開發者與研究人員而言,這是一次關鍵的重大升級。
本文探討如何利用 Hugging Face Accelerate 在 DeepSpeed 與 PyTorch FSDP 兩大分散式訓練框架之間無縫切換。這兩者皆是解決大模型(LLM)顯存不足的關鍵技術。透過 Accelerate 的高度抽象化,開發者無需修改核心訓練代碼,僅需調整設定檔即可自由切換,並針對不同硬體環境進行效能微調。文章也分析了兩者的優缺點與適用場景,為 AI 工程師提供實用的架構選擇指南。
微調 Llama 2 70B 等超大型模型時,開發者常因多進程重複載入模型而面臨 CPU 記憶體崩潰(OOM)的困境。本文介紹如何結合 PyTorch FSDP(完全分片數據並行)與 Hugging Face Accelerate 的延遲初始化與分片載入技術,在有限的硬體資源下實現記憶體高效的微調流程,大幅降低大模型訓練的門檻。
本指南詳細說明如何利用 TensorFlow 和 Google TPU 來加速 Hugging Face Transformers 模型的訓練。內容涵蓋 TPU 的初始化設定、使用 tf.distribute.TPUStrategy 配置分散式訓練環境、利用 tf.data 建立高效的數據輸入管道,並在 TPU 範疇內載入與訓練模型,非常適合需要處理大規模 NLP 任務的開發者。
Databricks 與 Hugging Face 宣布深度合作,針對大型語言模型(LLM)的訓練與微調進行優化。透過將 Hugging Face Transformers 與 Databricks 平台(如 MLflow、TorchDistributor)整合,企業能在安全的湖倉一體架構中更高效地訓練開源模型。測試顯示,此優化方案可將訓練速度提升高達 40%,大幅降低運算成本。
本文介紹如何整合 Hugging Face 與開源聯邦學習框架 Flower,實現保護隱私的分散式模型訓練。透過 Flower,開發者可以在不共享原始數據的情況下,協同微調 Hugging Face 上的 Transformer 模型。文中提供具體的實作步驟,包含定義 Flower Client、設定伺服器聚合演算法(如 FedAvg)以及評估模型效能。
本指南深入探討了在 PyTorch 中進行分散式訓練的三種層次。首先介紹底層的 PyTorch DDP(Distributed Data Parallel),展示其強大但繁瑣的設定;接著引入 Hugging Face Accelerate,它保留了 PyTorch 的靈活性,同時簡化了多 GPU、TPU 與混合精度的設定;最後介紹高階的 Trainer API,讓開發者只需幾行程式碼就能自動處理完整的分散式訓練流程。這篇文章非常適合想優化模型訓練效率的機器學習工程師。
Hugging Face 介紹了其 `Accelerate` 函式庫如何解決超大型模型(如 BLOOM-176B)在單一或有限 GPU 上因記憶體不足而無法加載的痛點。透過 PyTorch 的「元設備(Meta Device)」進行空權重初始化,並結合 `device_map="auto"` 自動將模型層分配至 GPU、CPU 甚至硬碟。這項技術讓開發者與研究人員能在消費級硬體或有限的資源下,進行超大模型的推理與微調。
這是一篇由 Hugging Face 發布的實用教學,指導開發者如何使用 NVIDIA 的 Megatron-LM 框架來訓練超越單張 GPU 顯存限制的大型語言模型(LLM)。文章深入探討了張量並行(Tensor Parallelism)與流水線並行(Pipeline Parallelism)的核心概念,並詳細說明了從數據準備、訓練配置到最後將 Megatron 權重轉換回 Hugging Face Transformers 格式的完整工作流。
Hugging Face 詳細公開了 1760 億參數開源模型 BLOOM 的訓練技術細節。該模型在法國 Jean Zay 超級電腦上,利用 384 張 NVIDIA A100 80GB GPU 進行了為期 117 天的訓練。核心技術採用 Megatron-DeepSpeed 框架,結合了張量並行、流水線並行與數據並行的「3D 並行」方案,並透過 BF16 精度解決了大規模訓練中的數值不穩定問題。
本文介紹 Hugging Face Accelerate 與 Microsoft DeepSpeed 的整合方案。開發者只需透過簡單的 CLI 設定,即可在不修改 PyTorch 程式碼的前提下,啟用 ZeRO-Stage 1/2/3 與 ZeRO-Offload 技術。這大幅降低了單機多卡或多機多卡訓練超大型模型的門檻,有效解決 GPU 記憶體不足(OOM)的痛點。
Hugging Face 宣布在其 Accelerate 庫中整合 PyTorch FSDP(完全分片數據並行)技術。FSDP 透過將模型參數、梯度和優化器狀態分片到多個 GPU 上,解決了單一 GPU 記憶體不足(OOM)的問題。這項技術讓開發者與研究人員能夠以更低的硬體門檻,高效訓練和微調擁有數十億甚至數百億參數的超大型語言模型。
Hugging Face 與 Intel 合作,展示如何利用 Intel Extension for PyTorch (IPEX) 和 oneCCL 提升 CPU 上的模型微調效率。透過自動混合精度(BFloat16)與優化的分散式通訊,開發者可以在 Intel Xeon 處理器上實現高效的多節點分散式訓練。這為缺乏 GPU 資源或希望活化現有 CPU 叢集的企業提供了極具成本效益的替代方案。
Hugging Face 推出全新開源庫 Accelerate,旨在簡化 PyTorch 的分佈式訓練流程。開發者無需手動處理複雜的設備分配、混合精度(FP16)縮放或分佈式啟動指令。只需使用 Accelerator 類別包裝模型與數據,即可在單機、多 GPU 或 TPU 環境下直接運行相同的代碼,極大提升開發與部署效率。
這是一篇 Hugging Face 官方教學,指導開發者如何使用 Amazon SageMaker 的分散式訓練功能來微調大型 Seq2Seq 模型(如 BART 和 T5)。文章詳細說明了如何將 Hugging Face 的 Seq2SeqTrainer 與 SageMaker Data Parallelism 庫結合,以解決單一 GPU 記憶體不足或訓練過慢的問題。讀者將學會如何準備訓練腳本、配置 SageMaker Estimator,並在 AWS 的多 GPU 實例上啟動高效的分散式訓練任務。
Hugging Face 宣布在其 Trainer 中整合 Microsoft DeepSpeed 與 Facebook FairScale 的 ZeRO(零冗餘優化器)技術。這項技術透過將優化器狀態、梯度和模型參數分片到多個 GPU 上,顯著降低顯存佔用。開發者現在可以輕鬆在有限的硬體資源下,訓練原本無法容納的超大型 Transformer 模型,並大幅提升訓練效率。