本文介紹如何在消費級硬體(如 RTX 3090/4090)上微調 Black Forest Labs 的 FLUX.1-dev 12B 圖像生成模型。透過 Hugging Face 的 PEFT 與 Diffusers 庫,結合 4-bit QLoRA 量化、梯度檢查點與 8-bit 優化器,開發者能將顯存需求降至 24GB 以下,讓個人創作者也能輕鬆客製化頂級開源圖像模型。
AI 雲端託管平台 Replicate 宣布推出開源影片生成模型的微調(Fine-tuning)功能。首波支援騰訊(Tencent)的 HunyuanVideo 模型,讓開發者與創作者能夠針對特定的藝術風格、動態效果或特定角色進行訓練。這項更新降低了自訂高品質影片生成模型的門檻,用戶無需自行管理複雜的 GPU 基礎設施即可完成微調。
AI 雲端託管平台 Replicate 宣布大幅提升 FLUX.1 圖像生成模型的微調(Fine-tuning)速度。透過底層優化,用戶現在能以極快的速度訓練出專屬的 FLUX LoRA 模型。最重要的是,Replicate 將這些優化技術與訓練程式碼完全開源,讓開發者不僅能在其平台上快速部署,也能在自己的硬體上實現高效訓練。
微調 Black Forest Labs 的 Flux 模型雖然門檻低,但要達到頂尖效果仍需技巧。Replicate 官方分享了利用「合成數據」優充微調的技術,核心在於使用視覺語言模型(VLM)為訓練集自動生成極其詳盡的合成標籤(Synthetic Captions),以及利用 AI 生成多樣化圖像來擴充訓練集。這些方法能有效防止模型過擬合,並顯著提升 Flux 對複雜提示詞的理解與執行能力。
Replicate 宣布支援透過其 HTTP API 微調 FLUX.1 [dev] 模型。開發者只需準備好訓練圖片並發送 API 請求,即可自動完成微調,並直接在 Replicate 上部署與運行專屬的客製化圖像生成模型。這項更新大幅簡化了自動化工作流與產品整合的難度,讓開發者能輕鬆將客製化 AI 繪圖功能嵌入自己的應用程式中。
本教學介紹如何利用 LoRA 技術微調 FLUX.1 [dev] 模型以生成個人專屬圖像。使用者只需準備 10 至 20 張不同角度與背景的個人照片並打包成 ZIP 檔,即可透過 Replicate 的 Web 介面或 API 進行訓練。訓練過程僅需約 20 分鐘、花費數美元,完成後即可使用自訂觸發詞生成各種風格的個人寫真。
Replicate 發布第 12 期情報,重點介紹 FLUX.1 [dev] 的 LoRA 微調訓練功能正式上線,用戶能以極低成本訓練專屬圖像模型。同時,社群利用 Flux 生成的「帥氣祖克柏(Hot Zuck)」迷因引發熱潮,展現了極致的寫實度。此外,Replicate 作為開源 AI 部署首選平台,在知名播客 Lex Fridman 的節目中獲得高度關注。
Replicate 發布第 11 期技術週報,重點介紹開源影像生成模型 FLUX.1 的微調方法,讓開發者能以低成本訓練專屬風格。同時探討了「生成式電子遊戲」的最新進展,展示 AI 如何即時生成遊戲畫面與互動內容。最後,文章展望了生成式 AI 結合 3D 技術,為未來元宇宙與虛擬空間帶來的全新創作範式。
Replicate 宣布為熱門開源圖像生成模型 FLUX.1 推出微調(LoRA)支援。用戶現在可以透過 Replicate 的 API,僅需一行程式碼就能使用自己的圖片訓練專屬模型。這讓開發者與創作者能更輕易地在 FLUX.1 上實現特定人物、產品或藝術風格的客製化生成,大幅降低了商業應用的技術門檻。
Hugging Face 宣布其 diffusers 函式庫已正式整合 Stability AI 的 Stable Diffusion 3 (SD3)。本次更新全面支援 SD3 Medium 模型,並引入多項關鍵的記憶體優化技術(如 CPU offloading、float16 精度與可選的 T5-XXL 編碼器),讓開發者能在消費級 GPU 上流暢運行。此外,官方也同步釋出了 DreamBooth 與 LoRA 的微調腳本,大幅降低了客製化圖像生成模型的門檻。
Hugging Face 於 Diffusers 推出全新的 SDXL LoRA 進階訓練腳本,旨在整合開源社群(如 Kohya)的各種訓練技巧。該腳本支援雙文字編碼器微調、Offset Noise、Min-SNR 權重及多解析度訓練,讓開發者與創作者能以更標準、高效的方式訓練出高品質的 SDXL LoRA 模型。
AI 雲端運行平台 Replicate 宣布支援 Meta MusicGen 音樂生成模型的微調(Fine-tuning)功能。使用者現在可以使用自己的音訊檔案,在 Replicate 上訓練 MusicGen 的 small、medium 和 melody 版本,藉此生成特定風格或旋律的音樂,為音樂創作者與開發者提供高度客製化的音訊生成方案。
AI 雲端託管平台 Replicate 宣布為 SDXL 1.0 推出微調(Fine-tuning)功能,支援 Dreambooth、Textual Inversion 和 LoRA 等技術。開發者與創作者現在可以透過 Replicate API,僅需一行程式碼就能上傳自己的圖片並訓練出客製化的 SDXL 模型,大幅降低了客製化圖像生成模型的技術門檻與算力維護成本。
Replicate 宣布支援 LoRA 技術,用於快速微調 Stable Diffusion 模型。相比於傳統的 DreamBooth,LoRA 不僅訓練速度大幅提升,產出的權重檔案也極小(僅數十 MB),讓創作者能以極低成本且更有效率地在雲端部署與切換不同的客製化風格。
本文為 Hugging Face 官方介紹 LoRA(低秩適應)技術在 Stable Diffusion 微調上的應用。LoRA 透過凍結原模型並僅訓練新增的低秩矩陣,將顯存需求降至消費級顯卡即可運行的水平,且產出的權重檔案僅有數 MB(相較於完整微調的數 GB),極大地降低了個性化圖像生成模型的訓練門檻與分享成本。
Replicate 宣布推出 DreamBooth API,大幅簡化了個人化圖像生成模型的訓練流程。開發者只需提供少數幾張特定主體的照片,並透過單次 API 呼叫,就能在雲端自動完成微調。訓練完成的模型會直接託管於 Replicate,並立即提供 API 端點供後續的圖像生成預測使用。
本指南為 Hugging Face 官方發布的 DreamBooth 訓練教學。透過 diffusers 函式庫,開發者與創作者只需提供 3 到 5 張特定主體的照片,即可微調 Stable Diffusion 模型。文中詳細介紹了訓練原理、先驗保持損失(Prior Preservation Loss)的重要性,以及如何利用 8-bit Adam 和 xFormers 等技術在消費級 GPU 上完成訓練。