The Verge found TikTok, Instagram, and Facebook accounts using AI-generated Black women and other marginalized personas to sell dropshipped products. The videos frame mass-produced goods as handmade small-business items and use tears, racial identity, and hardship narratives to drive engagement. Researchers describe the pattern as digital blackface and empathy bait, enabled by short-form platforms, weak labeling, and widely available generative AI ad workflows.
Google 發表了全新的「任意對任意(anything-to-anything)」AI 模型 Gemini Omni。外媒記者實測將其用於將小孩的毛絨鹿玩具「Buddy」合成到各種度假場景中,發現其生成效果極其逼真且操作簡單。這款模型不僅展現了強大的多模態影片生成與編輯能力,同時也再度引發了關於深偽(Deepfake)技術門檻降低與倫理界線的討論。
Google 近日展示了其最新的 Android XR 智慧眼鏡原型。這款眼鏡能將由 Gemini 驅動的即時翻譯、地圖導航等資訊直接疊加在用戶的視野中。雖然目前仍是原型階段,但外媒實測後認為其整合度與實用性已相當高,距離正式商用僅一步之遙。
Google DeepMind 發表全新語音模型 Gemini 3.1 Flash TTS。該模型引入了「細粒度音訊標籤」(granular audio tags),讓開發者與創作者能夠精確引導 AI 語音的生成細節。這項技術大幅提升了 AI 語音的表現力與可控性,為下一代語音互動與內容創作奠定基礎。
Google DeepMind 宣布將傳統的滑鼠游標重塑為具備「上下文感知能力」的 AI 夥伴。這項創新旨在消除傳統輸入 Prompt 的繁瑣與摩擦力,讓使用者在 Chrome 瀏覽器及其他應用程式中,能夠透過極其直覺的游標移動與點擊,直接與 AI 進行即時協作。這項技術不僅改變了我們與瀏覽器互動的方式,更預示著人機介面(HCI)將迎來全新變革,讓 AI 輔助變得無所不在且更加自然。
Vercel 宣布其 Chat SDK(AI SDK 的核心部分)全面強化對 AI Agent(代理)的支援。開發者現在可以更輕鬆地構建具備工具調用、多步驟推理及動態 Generative UI 的智慧代理。此更新簡化了前端與 LLM 代理之間的狀態同步,讓複雜的 Agent 互動能以流暢、直觀的聊天介面呈現給最終用戶。
Google DeepMind 宣布在 Gemini 應用程式中整合其最先進的音樂生成模型 Lyria 3。用戶現在只需輸入文字描述或上傳圖片,即可輕鬆生成 30 秒的高品質音樂片段。這項功能大幅降低了音樂創作門檻,為社群創作者、設計師及一般大眾提供全新的多模態創作工具。
隨著 AI 從單純的「聊天機器人」演進至具備主動執行能力的「代理人(Agents)」與深度思考的「推理模型(Reasoning Models)」,使用策略已大幅改變。本文整理了當前主流 AI(如 GPT、Claude、Gemini 及 DeepSeek)在寫作、程式開發、資料分析與自動化任務中的定位。讀者將能理解何時該用一般聊天、何時該啟動推理,以及如何佈署代理人來提升生產力。
Google DeepMind 宣布推出名為「Nano Banana Pro」的 Gemini 3 Pro 圖像模型。作為 Gemini 3 世代的專業級視覺模型,它旨在為開發者提供更強大的影像生成或理解能力。標題「Build with...」顯示該模型已開放 API 或開發工具,鼓勵開發者將其整合至各式應用中。
Vercel 舉辦了 Ship AI 2025 線上發表會,彙整其在 AI 網頁開發領域的最新突破。本次重點包括生成式 UI 工具 v0 的「全端生成」重大升級、Vercel AI SDK 對於多代理人(Multi-agent)協同工作流的架構級支援,以及針對 AI 串流與邊緣運算(Edge)的基礎設施改良,旨在幫助開發者更輕鬆地建構、部署與擴展高效能的 AI 應用。
Google DeepMind 宣布 Gemini 應用程式中的原生圖片編輯功能迎來重大升級。用戶現在可以直接在 Gemini 介面中,以更強大且直覺的新方式調整與轉換圖片。此更新簡化了過去繁瑣的修改流程,讓創作者與一般用戶能更輕鬆地進行局部修改、物件增減或背景調整,大幅提升圖像創作的效率。
賓州大學華頓商學院教授 Ethan Mollick 釋出最新 AI 實用指南。他指出,目前主流模型各有擅場:Claude 3.5 Sonnet 適合寫作與程式,GPT-4o 語音與綜合能力強,Gemini 則以超大上下文見長。他強調,使用者應將 AI 視為「聰明但缺乏經驗的實習生」,透過持續對話與回饋來突破「不規則邊界(Jagged Frontier)」,才能真正發揮 AI 的生產力潛能。
知名 AI 學者 Ethan Mollick 提出「與魔法師共事」的隱喻,指出當前 AI 並非傳統軟體,而是具備強大卻不穩定能力的魔法師。在「參差不齊的技術前沿(Jagged Frontier)」上,AI 可能在困難任務上表現驚人,卻在簡單任務上出錯。人類必須學會扮演「驗證者」,透過深度整合(如半人馬或賽博格模式)來駕馭這股魔法般的技術。
Vercel 官方分享了「Shipped on Vercel」所代表的全新軟體開發浪潮。隨著 AI 技術與前端工具的爆發,現代軟體開發正經歷根本性變革。開發者與創作者正利用 Vercel AI SDK、v0 以及 Next.js,以極致的速度將創意轉化為動態、AI 原生的 Web 應用與 SaaS 產品,徹底改變了軟體的交付速度與使用者體驗。
Vercel 年度盛會 Ship 2025 發表多項重大更新,全面加速 AI 應用的開發與部署。本次焦點包含 v0 從 UI 生成演進為全端應用構建助手、Vercel AI SDK 針對 AI Agent 工作流的深度優化,以及 Next.js 基礎設施的效能提升。Vercel 展現了其從託管平台轉型為 AI 時代開發樞紐的野心。
知名 AI 學者 Ethan Mollick 整理了最新的 AI 實用指南,解答「該用哪款 AI」與「如何使用」的核心問題。他強調應直接使用最頂尖的 Frontier Models(如 GPT、Claude、Gemini),並將 AI 視為「聰明但缺乏常識的實習生」。指南涵蓋日常寫作、程式開發、資料搜尋與多媒體生成等四大領域的推薦工具與實戰心法。
Google announced new generative media models and tools at I/O 2025, led by Veo 3 for video, Imagen 4 for images, and Flow for AI filmmaking. Veo 3 adds audio generation, while Imagen 4 improves detail, typography, aspect ratios, and up to 2K output. Google also expanded Lyria 2 and Lyria RealTime access, while continuing SynthID watermarking and launching SynthID Detector.
影片生成競技場(Video Arena)排名前兩名的 SOTA 模型 Google Veo 2 與 Kling 2 正式向開發者全面開放(GA)。Google Veo 2 已整合至 Gemini API,主打每秒生成僅需 0.35 美元的超低價格;而來自中國的 Kling 2 則以約 10 秒 2 美元的價格推出,但設有每月 700 美元(需簽 3 個月)的最低消費門檻。兩大模型的開放象徵著高品質 AI 影片生成正式進入開發者應用的實用化階段。