Google 發表了全新的「任意對任意(anything-to-anything)」AI 模型 Gemini Omni。外媒記者實測將其用於將小孩的毛絨鹿玩具「Buddy」合成到各種度假場景中,發現其生成效果極其逼真且操作簡單。這款模型不僅展現了強大的多模態影片生成與編輯能力,同時也再度引發了關於深偽(Deepfake)技術門檻降低與倫理界線的討論。
Latent Space 報導 Google I/O 2026 最新進展。本次大會亮點包括新一代輕量快速模型 Gemini 3.5 Flash、專注於影片處理的 Omni (NanoBanana)、主打背景運作的 Agent 框架 Spark,以及技術升級的 Antigravity 2.0。這些發布顯示 Google 持續在多模態影片、自主 Agent 及模型效能上發力。
Google DeepMind 與知名導演 Darren Aronofsky、Eliza McNitt 及超過 200 人的製作團隊合作,推出結合實景拍攝與 Veo 影片生成技術的電影《ANCESTRA》。本片展示了 AI 如何作為創作者的延伸工具,而非取代傳統電影製作,並開創了實景與生成式 AI 融合的新敘事手法。
Replicate 團隊針對阿里巴巴最新開源的 Wan2.1 影片生成模型進行了深入的「參數掃描(Parameter Sweep)」測試。文章探討了調整各項參數(如 Guidance Scale、推理步數、Sample Shift 等)對最終影片生成品質、連貫性與風格的具體影響。這份實用指南能幫助開發者與創作者在 Replicate 平台上部署與調優 Wan2.1 時,找到最佳的效能與品質平衡點。
本文回顧了 Hugging Face Diffusers 函式庫中開源影片生成模型的最新進展。隨著技術從 UNet 轉向 Diffusion Transformers (DiTs),如 CogVideoX、Mochi 1、LTX-Video 及 HunyuanVideo 等模型已全面整合。文章重點介紹了如何透過 CPU 卸載、FP8 量化與 Tiled VAE 等技術,在消費級 GPU 上高效運行這些動輒數十億參數的影片生成模型。
Replicate 指出,AI 影片生成領域正經歷類似當年 Stable Diffusion 顛覆圖像生成的「開源時刻」。 目前市場上已出現多款效果足以媲美 OpenAI Sora 的開源影片生成模型。 這意味著開發者與創作者不再受限於封閉的 API,能以更低成本、更高自由度在本地或雲端部署高品質影片生成。