知名 AI 圖片編輯品牌 Photoroom 在 Hugging Face 發表 PRX 技術系列第三部分。本文聚焦於如何在 24 小時內高效訓練出一個高品質的文字生成圖像(Text-to-Image)模型。團隊分享了在硬體配置、數據篩選、混合精度訓練以及優化器選擇上的實戰經驗,展示了中小規模團隊如何利用極高效率進行基礎模型迭代。
Google DeepMind 推出最新圖像生成模型 Nano Banana 2。該模型在維持極速(Flash speed)的同時,融入了先進的世界知識與生產級規格。此外,它還具備強大的「主體一致性」功能,能為專業創作者與開發者提供兼具速度與品質的圖像生成體驗。這款模型的推出,解決了過往 AI 繪圖難以在連續場景中保持角色一致的痛點,並大幅縮短了設計工作流的等待時間。
本文為知名去背與圖像編輯品牌 Photoroom 技術部落格的第二篇,深入探討其文字生成圖像(Text-to-Image)模型 PRX 的訓練設計。透過系統化的消融實驗(Ablation Studies),團隊分享了在資料清洗、標籤生成(Captioning)、解析度分桶(Resolution Bucketing)以及優化器選擇上的實戰經驗。這些技術細節對於想要自行預訓練或微調圖像生成模型的開發者與研究人員具有極高的實戰參考價值。
Hugging Face 宣布其 Diffusers 函式庫已正式整合 Black Forest Labs 推出的全新圖像生成模型 FLUX-2。FLUX-2 延續了前代的強大效能,在畫面細節、文字渲染及指令遵循度上皆有顯著提升。開發者現在可以透過簡單的 Python 程式碼輕鬆載入並運行 FLUX-2,並享受 Diffusers 提供的記憶體優化與加速支援。
AI 雲端部署平台 Replicate 宣布支援全新 FLUX.2 模型。FLUX.2 帶來了專業級的圖像生成與編輯能力,具備前所未有的細節表現力,並新增了強大的「多重參考(multi-reference)」支援。此更新為企業與開發者提供更高效率的圖像生成解決方案,可直接透過 API 輕鬆整合。
Google DeepMind 宣布推出名為「Nano Banana Pro」的 Gemini 3 Pro 圖像模型。作為 Gemini 3 世代的專業級視覺模型,它旨在為開發者提供更強大的影像生成或理解能力。標題「Build with...」顯示該模型已開放 API 或開發工具,鼓勵開發者將其整合至各式應用中。
知名圖像生成模型 Ideogram 3.0 已正式登陸 AI 雲端託管平台 Replicate。此版本在設計排版、風格遷移(Style Transfer)以及寫實主義(Realism)表現上皆有顯著提升。開發者與創作者現在可以透過 Replicate 的 API,輕鬆將 Ideogram 3.0 的高品質圖像與文字生成能力整合至自己的應用程式與工作流中。
Hugging Face 宣布推出由社群共同協作完成的文字生成圖像(Text-to-Image)開源偏好資料集。該資料集透過社群成員對不同 AI 生成圖像進行投票與評分,收集了大量人類真實偏好數據。這項開源資源將大幅降低開發者進行圖像生成模型 RLHF(人類回饋強化學習)或 DPO(直接偏好優化)的門檻,推動更具美感與對齊能力的開源圖像模型發展。
AI 圖像生成平台 Replicate 宣布與 Ideogram 合作,正式在其 API 上推出 Ideogram v2 的局部繪製(Inpainting)與外繪(Outpainting)功能。Ideogram v2 以其卓越的文字渲染能力聞名,此次 API 的推出讓開發者能夠在現有圖像中精準修改特定區域、添加或修改文字,並能無縫擴展圖像邊界,為創意工作流與自動化圖像編輯提供更強大的控制力。
Hugging Face 的 Diffusers 程式庫已正式支援 Stability AI 最新推出的 Stable Diffusion 3.5 Large 模型。此模型擁有 80 億參數,在提示詞遵循度、圖像品質及多樣性上皆有顯著提升。開發者現在可以透過簡單的程式碼載入模型,並利用 CPU Offloading、bfloat16 及量化技術,在消費級 GPU 上順暢運行。
Stability AI 正式推出最新一代文字生成圖片模型 Stable Diffusion 3.5,並已同步上架至 AI 雲端託管平台 Replicate。開發者與創作者現在無需自行配置高規格 GPU 顯示卡,即可直接透過 Replicate 提供的雲端 API 快速將 SD 3.5 整合至自己的應用程式或工作流中,極大地降低了開發與部署的門檻。
Black Forest Labs 發表全新圖像生成模型 FLUX.1.1 [pro](代號 Blueberry)。該模型在速度上比前代快了 6 倍,同時提升了圖像品質、細節與提示詞遵循度。目前已在 Replicate 平台上架,每張圖像生成成本降至 0.04 美元,為開發者與創作者提供更高性價比的選擇。
本教學介紹如何利用 LoRA 技術微調 FLUX.1 [dev] 模型以生成個人專屬圖像。使用者只需準備 10 至 20 張不同角度與背景的個人照片並打包成 ZIP 檔,即可透過 Replicate 的 Web 介面或 API 進行訓練。訓練過程僅需約 20 分鐘、花費數美元,完成後即可使用自訂觸發詞生成各種風格的個人寫真。
Replicate 宣布為熱門開源圖像生成模型 FLUX.1 推出微調(LoRA)支援。用戶現在可以透過 Replicate 的 API,僅需一行程式碼就能使用自己的圖片訓練專屬模型。這讓開發者與創作者能更輕易地在 FLUX.1 上實現特定人物、產品或藝術風格的客製化生成,大幅降低了商業應用的技術門檻。
由 Stable Diffusion 原班人馬創立的 Black Forest Labs 推出全新圖像生成模型家族 FLUX.1。該模型包含 Schnell、Dev 和 Pro 三個版本,在文字生成、複雜指令遵循以及人體細節上展現出驚人實力。Replicate 平台第一時間上架並進行深度實測,認為其美學風格與寫實度已能與 Midjourney v6 匹敵,為開源 AI 繪圖立下新標竿。
由 Stable Diffusion 核心團隊創立的 Black Forest Labs 發表了全新文字生成圖片模型 FLUX.1。該模型擁有 120 億參數,在文字渲染、細節描繪與指令遵循上皆超越現有開源模型。Replicate 已同步上架 FLUX.1 的 schnell、dev 與 pro 三種版本,開發者可直接透過 API 進行整合與部署。
Replicate 發布第 6 期技術情報,重點介紹 Google 全新開源的 Gemma 2 模型(包含 9B 與 27B 版本)已可在平台運行,其性能逼近更大參數的模型。同時,本期也更新了語言模型排行榜,並針對熱門的 Stable Diffusion 3 提供具體的提示詞與參數優化指南,幫助創作者解決人體畸變等常見生成問題。
Hugging Face 宣布其 diffusers 函式庫已正式整合 Stability AI 的 Stable Diffusion 3 (SD3)。本次更新全面支援 SD3 Medium 模型,並引入多項關鍵的記憶體優化技術(如 CPU offloading、float16 精度與可選的 T5-XXL 編碼器),讓開發者能在消費級 GPU 上流暢運行。此外,官方也同步釋出了 DreamBooth 與 LoRA 的微調腳本,大幅降低了客製化圖像生成模型的門檻。
Stability AI 的最新文字生成圖像模型 Stable Diffusion 3 已正式上架雲端託管平台 Replicate。此版本模型在圖像生成品質、文字排版精準度、複雜提示詞理解能力以及資源運行效率上,皆比前代有顯著的提升。開發者現在可以透過 Replicate 提供的雲端 API,僅需編寫一行程式碼,就能輕鬆將其整合至應用程式中。
Hugging Face 發表了名為 aMUSEd 的開源文字生成圖片模型,基於 Google 的 MUSE 架構。與主流的擴散模型(Diffusion Models)不同,aMUSEd 採用遮罩圖像建模(MIM)技術,僅需 12 個步驟即可生成圖像。其參數規模僅約 8 億,非常適合在消費級硬體上進行快速推理與微調,並支援圖生圖與局部重繪。
本文介紹了針對 Stable Diffusion XL (SDXL) 的多項實用推論優化技術。透過 Hugging Face 的 Diffusers 函式庫,開發者可以輕鬆啟用 PyTorch 2.0 的 `torch.compile()`、記憶體高效注意力機制(SDPA)、CPU 卸載(CPU Offloading)以及 VAE 分片與平鋪技術。這些方法能在不犧牲影像品質的前提下,顯著縮短生成時間並降低 GPU 顯示記憶體(VRAM)的需求,讓消費級顯示卡也能流暢運行。
Hugging Face 宣布在其 TRL(Transformer Reinforcement Learning)庫中支援 DDPO(去噪擴散策略優化)演算法。這項更新允許開發者與研究人員使用強化學習(RL)來微調 Stable Diffusion 等擴散模型。透過自訂的獎勵函數(如美學評分或提示詞對齊度),DDPO 能有效引導模型生成更符合特定目標的圖像,解決了傳統監督式微調難以優化複雜指標的痛點。
Hugging Face 介紹了新型圖像生成模型 Würstchen,其核心在於創新的三階段架構,能將潛在空間壓縮高達 42 倍。這使得它在生成速度和訓練成本上遠優於傳統的 Stable Diffusion,同時保持優異的視覺品質。目前該模型已整合至 Diffusers 函式庫中,適合硬體資源有限的開發者與研究人員。
本文回顧了文字生成圖像(Text-to-Image)技術的演進歷程。從早期的 GAN 限制,到 2021 年 VQGAN+CLIP 掀起的社群藝術熱潮,再到 2022 年 DALL-E 2 與 Stable Diffusion 的爆發。隨著 Stable Diffusion 迎來一週年及 SDXL 的推出,開源社群與微調技術正以前所未有的速度重塑視覺創作。
本期 Hugging Face 倫理與社會電子報聚焦於文字生成圖像(Text-to-Image)模型的偏見。文章指出,這些模型在生成職業、社會角色等圖像時,常顯露出嚴重的性別與種族刻板印象。這源於訓練數據中不均衡的代表性,Hugging Face 呼籲社群透過開發評估工具與推動數據透明化來共同應對此挑戰。
DeepFloyd IF 是一款強大的像素級文字生成圖像模型,因包含龐大的 T5-XXL 文字編碼器,通常需要極高 VRAM 才能運行。Hugging Face 官方發布教學,展示如何透過 `diffusers` 庫的優化技術——包括 8-bit 量化、CPU 卸載(CPU Offloading)以及分階段釋放記憶體,讓開發者能在僅有 15GB VRAM 的免費版 Google Colab(T4 GPU)上,順利跑完該模型的三個級聯階段,生成 1024x1024 的高解析度影像。
Hugging Face 介紹了微軟開發的 VQ-Diffusion 模型,這是一種基於離散空間的文本到圖像生成技術。與傳統在連續空間運作的擴散模型不同,它結合了 VQ-VAE 的離散 Token 表示法與擴散模型,有效解決了自迴歸模型的誤差累積問題。開發者與研究人員可以透過 Hugging Face 的 `diffusers` 套件輕鬆調用此模型進行高效的影像生成。
Stability AI 於 2022 年 10 月推出了「Japanese Stable Diffusion」模型。該模型專為日語語境進行優化,解決了先前英文版 Stable Diffusion 難以精確理解日語輸入與日本文化細節的問題。用戶可以直接使用日語進行 Prompt 創作,生成更符合日本審美與文化背景的圖像,並已開源託管於 Hugging Face。
Replicate 介紹了如何透過其 API 運行文字生成圖片模型。讀者將學習到如何使用 Python 客戶端,只需幾行程式碼即可呼叫雲端託管的 AI 模型,並輸入提示詞(Prompt)來生成影像。這為開發者提供了一個無需本地高階 GPU 即可快速整合圖像生成功能的途徑。