Vercel 宣布其 AI Gateway 正式支援 GPT Image 2 模型。開發者現在可以透過 Vercel AI Gateway 統一管理 GPT Image 2 的 API 呼叫,享受內建的快取、速率限制與分析功能。這項更新簡化了將最新圖像生成技術整合至 Web 應用的流程,並提升了效能與成本控制能力。
Vercel 宣布其 AI Gateway 正式支援純圖像模型(如 DALL-E 或 Stable Diffusion 等)。開發者現在可以透過統一的 Gateway 介面,為圖像生成請求配置快取、重試機制、降級方案(fallback)以及用量監控。此更新簡化了多模態應用的架構,讓文字與圖像模型的 API 管理能整合在同一個 Vercel 生態系中。
Google announced new generative media models and tools at I/O 2025, led by Veo 3 for video, Imagen 4 for images, and Flow for AI filmmaking. Veo 3 adds audio generation, while Imagen 4 improves detail, typography, aspect ratios, and up to 2K output. Google also expanded Lyria 2 and Lyria RealTime access, while continuing SynthID watermarking and launching SynthID Detector.
Hugging Face 推出全新「AI 藝術工具電子報(Issue 1)」,旨在為藝術家與創意工作者搭起技術橋樑。本期聚焦於 2025 年 1 月最新的開源 AI 藝術工具、互動式 Hugging Face Spaces 以及實用的創意工作流。內容涵蓋影像生成、風格轉移與社群熱門的視覺創作模型,幫助創作者掌握開源 AI 的最新藝術應用。
由 Stable Diffusion 核心團隊創立的 Black Forest Labs 發表了全新文字生成圖片模型 FLUX.1。該模型擁有 120 億參數,在文字渲染、細節描繪與指令遵循上皆超越現有開源模型。Replicate 已同步上架 FLUX.1 的 schnell、dev 與 pro 三種版本,開發者可直接透過 API 進行整合與部署。
Hugging Face 介紹了如何結合 ComfyUI 與 Gradio,並在 Spaces 上免費運行。使用者只需將 ComfyUI 工作流導出為 API JSON 格式,即可透過 Gradio 建立簡潔的前端介面。這項技術讓創作者能輕鬆分享複雜的 AI 圖像生成工作流,無需讓終端用戶面對複雜的節點圖。
Hugging Face 介紹了微軟開發的 VQ-Diffusion 模型,這是一種基於離散空間的文本到圖像生成技術。與傳統在連續空間運作的擴散模型不同,它結合了 VQ-VAE 的離散 Token 表示法與擴散模型,有效解決了自迴歸模型的誤差累積問題。開發者與研究人員可以透過 Hugging Face 的 `diffusers` 套件輕鬆調用此模型進行高效的影像生成。
本教學指導開發者如何建立一個 Discord 機器人,讓使用者在頻道中輸入提示詞後,自動呼叫 Replicate 上的 Stable Diffusion 模型生成圖片並回傳。內容涵蓋 Discord API 設定、Node.js 程式碼實作,以及如何將機器人部署至 Fly.io 平台,是學習 AI 應用整合的經典實作指南。
本文為 Hugging Face 經典的擴散模型(Diffusion Models)深度教學,以 DDPM 為核心。透過 PyTorch 程式碼逐步實作前向加噪與反向去噪過程,並詳細拆解 U-Net 架構與損失函數。適合想從底層程式碼理解生成式 AI 影像生成原理的開發者與研究者。