本文回顧了 Hugging Face Diffusers 函式庫中開源影片生成模型的最新進展。隨著技術從 UNet 轉向 Diffusion Transformers (DiTs),如 CogVideoX、Mochi 1、LTX-Video 及 HunyuanVideo 等模型已全面整合。文章重點介紹了如何透過 CPU 卸載、FP8 量化與 Tiled VAE 等技術,在消費級 GPU 上高效運行這些動輒數十億參數的影片生成模型。
Hugging Face 介紹了如何利用 optimum-quanto 量化工具來優化 diffusers 中的 Diffusion Transformers (DiT) 模型。隨著 DiT 模型(如 PixArt、HunyuanDiT)體積日益龐大,記憶體成為運行的瓶頸。透過將模型權重進行 8-bit 或 4-bit 量化,開發者可以在消費級 GPU 上以極低的精度損失運行這些大型生成模型,顯著降低 VRAM 需求。