Hugging Face 發表「Modular Diffusers」,旨在解決過去 Diffusers 管線過於單一、難以客製化的痛點。新架構將擴散模型(如 Stable Diffusion、Flux 等)的各個步驟與組件拆解為獨立、可重複使用的模組。開發者現在可以像堆積木一樣,輕鬆混合搭配不同的編碼器、去噪網路與排程器,極大地簡化了自定義圖像與視訊生成工作流的開發難度。
Hugging Face 宣布其 Diffusers 函式庫已正式整合 Black Forest Labs 推出的全新圖像生成模型 FLUX-2。FLUX-2 延續了前代的強大效能,在畫面細節、文字渲染及指令遵循度上皆有顯著提升。開發者現在可以透過簡單的 Python 程式碼輕鬆載入並運行 FLUX-2,並享受 Diffusers 提供的記憶體優化與加速支援。
Google DeepMind 宣布將其先進的 SynthID 浮水印技術整合至 Gemini 應用程式中。這項技術能在不影響視覺品質的前提下,於 AI 生成的圖像中植入隱形浮水印,即使經過裁剪、壓縮或編輯也能被偵測。此舉旨在協助用戶辨識 AI 生成內容,應對深偽(Deepfake)與假訊息挑戰,並推動數位內容的透明度。
Google DeepMind 宣布推出名為「Nano Banana Pro」的 Gemini 3 Pro 圖像模型。作為 Gemini 3 世代的專業級視覺模型,它旨在為開發者提供更強大的影像生成或理解能力。標題「Build with...」顯示該模型已開放 API 或開發工具,鼓勵開發者將其整合至各式應用中。
Hugging Face 旗下的 Gradio 框架推出「視覺化浮水印」新功能。開發者現在能在部署圖像生成應用時,直接在輸出圖像上疊加自訂的浮水印或 Logo。這項更新不僅簡化了開發流程,更能有效保護創作者版權並防止 AI 內容被惡意濫用,是 AI 應用開發者必備的安全工具。
本文介紹如何利用 Hugging Face 的 Diffusers 與 PEFT 庫,大幅加速 Flux.1 圖像生成模型的 LoRA 推論。透過融合 LoRA 權重(Fusing)、使用 torch.compile 進行編譯優化,以及利用 PEFT 的動態適配器管理,開發者可以在不損失畫質的前提下,顯著降低推論延遲並實現多 LoRA 的快速切換,非常適合生產環境部署。
Replicate 發表技術專文,深入解析如何優化 FLUX.1 Kontext [dev] 圖像生成模型。文章聚焦於「Taylor Seer」優化技術,這是一種利用泰勒展開式來評估並剪枝模型參數的方法。透過此技術,Replicate 成功在維持高品質圖像生成的同時,顯著降低了推論延遲與 GPU 記憶體成本,為開發者提供更高效的 FLUX 部署方案。
本文介紹如何在消費級硬體(如 RTX 3090/4090)上微調 Black Forest Labs 的 FLUX.1-dev 12B 圖像生成模型。透過 Hugging Face 的 PEFT 與 Diffusers 庫,結合 4-bit QLoRA 量化、梯度檢查點與 8-bit 優化器,開發者能將顯存需求降至 24GB 以下,讓個人創作者也能輕鬆客製化頂級開源圖像模型。
Hugging Face 宣布在 Inference Endpoints 中支援「Remote VAE」解碼功能。在運行 FLUX.1 或 Stable Diffusion 等大型圖像生成模型時,VAE 解碼通常會消耗大量 GPU 顯存(VRAM)。透過將 VAE 解碼步驟與潛在空間生成解耦並進行遠端處理,開發者可以在較小、較便宜的 GPU 上部署大型擴散模型,同時優化整體的推論吞吐量與頻寬傳輸。
AI 雲端託管平台 Replicate 宣布大幅提升 FLUX.1 圖像生成模型的微調(Fine-tuning)速度。透過底層優化,用戶現在能以極快的速度訓練出專屬的 FLUX LoRA 模型。最重要的是,Replicate 將這些優化技術與訓練程式碼完全開源,讓開發者不僅能在其平台上快速部署,也能在自己的硬體上實現高效訓練。
Hugging Face 的 Diffusers 程式庫已正式支援 Stability AI 最新推出的 Stable Diffusion 3.5 Large 模型。此模型擁有 80 億參數,在提示詞遵循度、圖像品質及多樣性上皆有顯著提升。開發者現在可以透過簡單的程式碼載入模型,並利用 CPU Offloading、bfloat16 及量化技術,在消費級 GPU 上順暢運行。
Replicate 平台上的 FLUX 模型現在運行速度顯著加快。官方不僅提升了推論效能,還將這些優化技術與程式碼完全開源,讓開發者可以深入了解其運作原理,並能在此基礎上進行二次開發與自定義部署。
Replicate 發布第 11 期技術週報,重點介紹開源影像生成模型 FLUX.1 的微調方法,讓開發者能以低成本訓練專屬風格。同時探討了「生成式電子遊戲」的最新進展,展示 AI 如何即時生成遊戲畫面與互動內容。最後,文章展望了生成式 AI 結合 3D 技術,為未來元宇宙與虛擬空間帶來的全新創作範式。
Replicate Intelligence 第 9 期彙整了近期三大 AI 技術突破。首先是 Black Forest Labs 推出的開源影像生成模型 FLUX.1,其品質直逼 Midjourney v6;其次是 Meta 釋出的 SAM 2,將物件分割技術從靜態圖片延伸至動態影片;最後是 fast.ai 創辦人 Jeremy Howard 推出專為快速開發設計的全新 Python 網頁框架 FastHTML。
Hugging Face 宣布與 Artificial Analysis 合作推出「文字生成圖片排行榜與競技場」(Text to Image Leaderboard & Arena)。該平台結合了類似 LMSYS 的人類盲測對決(Arena Elo 評分)以及客觀的效能指標(如生成速度與成本)。這為開發者與創作者提供了一個透明、標準化的基準,用以評估與比較市面上主流的開源與閉源圖像生成模型。
本期 Replicate Intelligence 彙整了三大 AI 前沿進展:首先是 ByteDance 開源的 Hyper-SD 技術,實現了毫秒級的超快速圖像生成;其次是探討如 DIAMOND 等利用擴散模型構建的「世界模擬器」,展示了 AI 在虛擬環境模擬與強化學習中的潛力;最後深入分析了 AI 資料集複雜度,探討在數據漸趨飽和的當下,如何透過優化數據質量與結構來提升模型訓練效率。
隨著 AI 生成內容爆發,如何識別「AI 製造」成為關鍵。Hugging Face 發布的這篇指南深入探討了 AI 水印技術,涵蓋文字生成(如透過調整 Token 機率分佈的綠名單機制)與影像生成(如 Stable Signature 等隱形潛在空間水印)。文章不僅介紹了現有的開源工具,也客觀分析了水印技術在對抗剪裁、改寫等攻擊時的魯棒性限制與未來挑戰。
Segmind 發表 SegMoE 框架,借鑑 LLM 的混合專家(MoE)架構並將其應用於 Stable Diffusion 等擴散模型。該技術允許開發者將多個專門的 SDXL 專家模型合併為一個,並透過路由機制動態分配生成任務。此方法無需從頭訓練,即可結合不同風格模型的優勢,為影像生成帶來更高的靈活性與效率。
Hugging Face 介紹了如何結合微軟的 ONNX Runtime (ORT) 與 Olive 優化工具,來加速 SD Turbo 和 SDXL Turbo 模型。透過 Olive 的硬體感知優化流程,開發者可以輕鬆將 PyTorch 模型轉換為 ONNX 格式,並進行 FP16 量化與算子融合。這套方案特別適合在 Windows (透過 DirectML) 或 NVIDIA GPU (透過 CUDA) 上部署,能顯著降低單步圖像生成的延遲,非常適合需要即時互動的應用場景。
Hugging Face 與 LCM 團隊合作推出 LCM-LoRA,這是一種通用的低秩自適應(LoRA)蒸餾技術。它能將 SDXL 等擴散模型的推理步數縮減至 4 步,同時保持極佳的影像品質。最重要的是,它能直接套用於現有的任何 SDXL 微調模型與 LoRA,無需重新訓練,為即時圖像生成帶來突破。
本文為 Replicate 釋出的技術教學,指導讀者如何在 Apple Silicon (M1/M2) Mac 上本地運行 Latent Consistency Model (LCM)。LCM 透過大幅減少去噪步數(僅需 1-4 步),將原本需要數十秒的 Stable Diffusion 圖片生成時間縮短至一秒以內,非常適合需要即時反饋的創作者與開發者。
Hugging Face 發表技術指南,展示如何結合 JAX 框架與 Google 最新 Cloud TPU v5e 晶片來加速 SDXL 推理。透過 JAX 的即時編譯(JIT)與 Diffusers 庫的 Flax 支援,開發者能以極高性價比進行大規模圖像生成。文中提供實作步驟與效能基準測試,為尋求 GPU 替代方案的團隊提供高效能選擇。
Hugging Face 介紹了新型圖像生成模型 Würstchen,其核心在於創新的三階段架構,能將潛在空間壓縮高達 42 倍。這使得它在生成速度和訓練成本上遠優於傳統的 Stable Diffusion,同時保持優異的視覺品質。目前該模型已整合至 Diffusers 函式庫中,適合硬體資源有限的開發者與研究人員。
Hugging Face 宣布與騰訊 ARC 實驗室合作,將 T2I-Adapter 引入 Stable Diffusion XL (SDXL)。相較於體積龐大的 ControlNet,T2I-Adapter 僅有約 79M 參數,能在不犧牲生成品質的前提下,大幅降低顯示記憶體(VRAM)佔用並提升推理速度。目前已支援 Canny 邊緣偵測、草圖(Sketch)、深度圖(Depth)等多種控制模式,並已整合至 diffusers 函式庫中。
Hugging Face 宣布開源基於 Stable Diffusion 蒸餾的輕量化模型 SD-Small(約 5.11 億參數)與 SD-Tiny(約 3.23 億參數)的權重與完整訓練程式碼。透過知識蒸餾技術減少 UNet 的層數,這些模型在保留高圖像質量的同時,實現了 1.5 到 2 倍的推理加速。此舉不僅降低了消費級顯卡與行動裝置運行 AI 繪圖的門檻,也讓開發者能自行蒸餾客製化的 SD 模型。
Hugging Face 發表了將 Stable Diffusion XL (SDXL) 部署於 Mac 的 Core ML 最佳化方案。透過先進的量化技術(如 6-bit 與 8-bit 量化),成功將龐大的 SDXL 模型體積縮減,使其能在 Apple Silicon(M1/M2 系列晶片)的 Mac 上流暢運行,顯著降低記憶體需求,並充分釋放 Apple 神經網路引擎(ANE)的硬體效能。
Hugging Face 慶祝旗下核心開源庫 Diffusers 推出一週年。在過去一年中,Diffusers 憑藉直覺的 API 設計,成功降低了 Stable Diffusion 等擴散模型的技術門檻。該庫不僅支援了 ControlNet、LoRA 等多種前沿技術,還透過記憶體優化與硬體加速,讓生成式 AI 走入消費級硬體,成為開源 AI 生態系中不可或缺的基石。
Hugging Face 介紹了如何利用 InstructPix2Pix 對 Stable Diffusion 進行指令微調(Instruction-tuning)。該方法結合了 GPT-3 生成的編輯指令與 Stable Diffusion 生成的成對圖像,訓練出能理解「將蘋果換成橘子」等指令的圖像編輯模型。文章提供了完整的訓練流程、Diffusers 程式碼範例以及優化技巧,幫助開發者輕鬆上手圖像編輯任務。
Hugging Face 釋出官方指南,詳細介紹如何利用 diffusers 庫訓練 ControlNet 模型。ControlNet 能在不破壞原始 Stable Diffusion 模型的前提下,加入額外的控制條件(如邊緣、姿勢或深度)。本教學涵蓋了數據集準備、使用官方訓練腳本進行微調,以及如何將訓練好的模型部署與推論。
Hugging Face 宣布將 ControlNet 整合至 🧨 diffusers 庫中。ControlNet 是一種能為 Stable Diffusion 等擴散模型加入額外控制條件(如 Canny 邊緣、OpenPose 姿勢、Depth 深度圖等)的架構。透過全新的 StableDiffusionControlNetPipeline,開發者只需幾行程式碼即可實現高精度的圖像生成與編輯,大幅提升了 AI 繪圖的可控性。