Hugging Face 發表了名為 aMUSEd 的開源文字生成圖片模型,基於 Google 的 MUSE 架構。與主流的擴散模型(Diffusion Models)不同,aMUSEd 採用遮罩圖像建模(MIM)技術,僅需 12 個步驟即可生成圖像。其參數規模僅約 8 億,非常適合在消費級硬體上進行快速推理與微調,並支援圖生圖與局部重繪。
Hugging Face 介紹了新型圖像生成模型 Würstchen,其核心在於創新的三階段架構,能將潛在空間壓縮高達 42 倍。這使得它在生成速度和訓練成本上遠優於傳統的 Stable Diffusion,同時保持優異的視覺品質。目前該模型已整合至 Diffusers 函式庫中,適合硬體資源有限的開發者與研究人員。