NVIDIA Nemotron-Labs 發表全新擴散語言模型(Diffusion Language Models),旨在解決傳統自迴歸模型逐字生成的效能瓶頸。 該技術利用類似影像生成的擴散機制,在文本生成中實現高度並行化,大幅提升推論速度。 此研究展示了非自迴歸模型在維持文本品質的同時,實現「光速般」超高吞吐量生成的新路徑。
Hugging Face 發表「Modular Diffusers」,旨在解決過去 Diffusers 管線過於單一、難以客製化的痛點。新架構將擴散模型(如 Stable Diffusion、Flux 等)的各個步驟與組件拆解為獨立、可重複使用的模組。開發者現在可以像堆積木一樣,輕鬆混合搭配不同的編碼器、去噪網路與排程器,極大地簡化了自定義圖像與視訊生成工作流的開發難度。
知名 AI 圖片編輯品牌 Photoroom 在 Hugging Face 發表 PRX 技術系列第三部分。本文聚焦於如何在 24 小時內高效訓練出一個高品質的文字生成圖像(Text-to-Image)模型。團隊分享了在硬體配置、數據篩選、混合精度訓練以及優化器選擇上的實戰經驗,展示了中小規模團隊如何利用極高效率進行基礎模型迭代。
本文為知名去背與圖像編輯品牌 Photoroom 技術部落格的第二篇,深入探討其文字生成圖像(Text-to-Image)模型 PRX 的訓練設計。透過系統化的消融實驗(Ablation Studies),團隊分享了在資料清洗、標籤生成(Captioning)、解析度分桶(Resolution Bucketing)以及優化器選擇上的實戰經驗。這些技術細節對於想要自行預訓練或微調圖像生成模型的開發者與研究人員具有極高的實戰參考價值。
Hugging Face 發布技術指南,深入比較 `diffusers` 庫中 bitsandbytes、torchao 等量化後端。文章分析了不同量化格式(如 NF4、INT8、INT4)在 VRAM 佔用、推理速度與圖像品質上的權衡,為在消費級顯卡上部署 Flux.1 或 SD3 等大型擴散模型提供實用指引。這對於希望在有限硬體資源下優化生成式 AI 應用的開發者而言是必讀內容。
Hugging Face 宣布在 Inference Endpoints 中支援「Remote VAE」解碼功能。在運行 FLUX.1 或 Stable Diffusion 等大型圖像生成模型時,VAE 解碼通常會消耗大量 GPU 顯存(VRAM)。透過將 VAE 解碼步驟與潛在空間生成解耦並進行遠端處理,開發者可以在較小、較便宜的 GPU 上部署大型擴散模型,同時優化整體的推論吞吐量與頻寬傳輸。
Hugging Face 介紹了如何利用 optimum-quanto 量化工具來優化 diffusers 中的 Diffusion Transformers (DiT) 模型。隨著 DiT 模型(如 PixArt、HunyuanDiT)體積日益龐大,記憶體成為運行的瓶頸。透過將模型權重進行 8-bit 或 4-bit 量化,開發者可以在消費級 GPU 上以極低的精度損失運行這些大型生成模型,顯著降低 VRAM 需求。
Segmind 發表 SegMoE 框架,借鑑 LLM 的混合專家(MoE)架構並將其應用於 Stable Diffusion 等擴散模型。該技術允許開發者將多個專門的 SDXL 專家模型合併為一個,並透過路由機制動態分配生成任務。此方法無需從頭訓練,即可結合不同風格模型的優勢,為影像生成帶來更高的靈活性與效率。
Hugging Face 宣布在其 TRL(Transformer Reinforcement Learning)庫中支援 DDPO(去噪擴散策略優化)演算法。這項更新允許開發者與研究人員使用強化學習(RL)來微調 Stable Diffusion 等擴散模型。透過自訂的獎勵函數(如美學評分或提示詞對齊度),DDPO 能有效引導模型生成更符合特定目標的圖像,解決了傳統監督式微調難以優化複雜指標的痛點。
Hugging Face 介紹了新型圖像生成模型 Würstchen,其核心在於創新的三階段架構,能將潛在空間壓縮高達 42 倍。這使得它在生成速度和訓練成本上遠優於傳統的 Stable Diffusion,同時保持優異的視覺品質。目前該模型已整合至 Diffusers 函式庫中,適合硬體資源有限的開發者與研究人員。
Hugging Face 慶祝旗下核心開源庫 Diffusers 推出一週年。在過去一年中,Diffusers 憑藉直覺的 API 設計,成功降低了 Stable Diffusion 等擴散模型的技術門檻。該庫不僅支援了 ControlNet、LoRA 等多種前沿技術,還透過記憶體優化與硬體加速,讓生成式 AI 走入消費級硬體,成為開源 AI 生態系中不可或缺的基石。
本文由 Hugging Face 撰寫,深入剖析文字生成影片(Text-to-Video)模型的底層原理,包含如何將 2D 擴散模型擴展至 3D 時間維度。文章介紹了當時主流的開源模型(如 ModelScope),並提供使用 diffusers 函式庫進行實作的程式碼範例,是理解早期開源 AI 影片生成技術的經典指南。
Hugging Face 介紹了微軟開發的 VQ-Diffusion 模型,這是一種基於離散空間的文本到圖像生成技術。與傳統在連續空間運作的擴散模型不同,它結合了 VQ-VAE 的離散 Token 表示法與擴散模型,有效解決了自迴歸模型的誤差累積問題。開發者與研究人員可以透過 Hugging Face 的 `diffusers` 套件輕鬆調用此模型進行高效的影像生成。
本文介紹 Hugging Face 於 2022 年 11 月舉辦的「Diffusion Models Live Event」直播活動。該活動旨在向開發者與研究人員推廣擴散模型技術,並介紹當時新推出的 diffusers 函式庫。活動內容涵蓋從零開始訓練擴散模型、圖像生成原理及社群實作分享,是開源 AI 圖像生成發展史上的重要里程碑。
本文為 Hugging Face 經典的擴散模型(Diffusion Models)深度教學,以 DDPM 為核心。透過 PyTorch 程式碼逐步實作前向加噪與反向去噪過程,並詳細拆解 U-Net 架構與損失函數。適合想從底層程式碼理解生成式 AI 影像生成原理的開發者與研究者。