Google DeepMind 發表 Gemini Robotics 1.5,旨在將 AI Agent 的能力帶入實體世界。透過此系統,機器人將具備更強大的環境感知、多步驟任務規劃、邏輯思考、工具使用以及實體行動能力。這項進展代表著「實體代理(Physical Agents)」時代的開啟,能更有效率地解決現實世界中複雜且多步驟的實體任務。
Google DeepMind 發表全新 AI Agent「CodeMender」,旨在解決軟體安全中的關鍵漏洞修復難題。CodeMender 不僅能自動偵測程式碼中的安全漏洞,還能主動生成修復補丁並進行驗證。這項技術結合了先進的大型語言模型與自動化測試,大幅提升了軟體開發生命週期中的安全性與修復效率。
Google DeepMind 宣布與麻省理工學院衍生企業 Commonwealth Fusion Systems (CFS) 展開合作。雙方將結合 DeepMind 的強化學習(RL)與 AI 模擬技術,以及 CFS 的高磁場托卡馬克裝置 SPARC,共同解決核融合反應爐中超高溫電漿控制的難題,加速商業化核融合能源的到來。
Google 正式在 Gemini 應用程式中為 Google AI Ultra 訂閱者推出「Deep Think」深度思考功能。此外,Google 也向特定的數學家開放了曾參加國際數學奧林匹亞(IMO)競賽的 Gemini 2.5 Deep Think 完整版模型,讓專業人士能體驗其強大的數學推理能力。
Google DeepMind 發表全新開源平台「Game Arena」,旨在解決傳統 AI 基準測試逐漸失效的問題。該平台讓不同的前沿 AI 模型在具有明確勝負規則的遊戲環境中進行直接對決。透過這種動態且具對抗性的方式,Game Arena 能更精準、客觀地評估 AI 的決策與推理能力,為 AI 領域提供更具公信力的衡量標準。
Google DeepMind 宣布在 Gemma 3 工具包中加入全新成員「Gemma 3 270M」。這款僅有 2.7 億(270M)參數的極致輕量級模型,專為需要超高效率、低延遲以及資源受限的邊緣設備(On-device)運算場景所設計,為開發者在極端硬體限制下部署 AI 提供了全新的高效能選擇。
Google DeepMind 發表了 VaultGemma,這是全球首款從頭開始(from scratch)使用差分隱私(Differential Privacy, DP)技術訓練的高性能大語言模型。透過嚴格的數學隱私保證,VaultGemma 能有效防止訓練數據洩露與敏感資訊記憶,同時在多項基準測試中保持極高的實用性,為醫療、金融等高隱私需求領域帶來全新突破。
Google DeepMind 發表全新的 Gemini 2.5 Computer Use 專用模型,目前已透過 API 提供預覽。該模型基於 Gemini 2.5 Pro 的強大能力進行微調,旨在賦能 AI 代理(Agents)直接與作業系統及應用程式的用戶介面(UI)進行互動。這項技術將加速自動化工作流程的開發,讓 AI 能夠像人類一樣執行點擊、輸入和導覽等電腦操作。
Google DeepMind 宣布推出一款基於 Gemma 開源模型家族、擁有 270 億參數的全新單細胞分析基礎模型。該模型專為生物醫學研究設計,能深入分析單細胞數據,並已成功協助研究人員發現了一條全新的潛在癌症治療途徑,展現了開源大模型在生醫領域的巨大潛力。
Hugging Face 正式推出 OpenEnv 計劃,旨在解決 AI Agent 在執行任務時面臨的環境不一致與安全隱憂。OpenEnv 提供了一個標準化、安全隔離的沙盒環境,讓 Agent 能安全地執行程式碼、操作檔案與進行網頁互動。此舉將促進開源社群在 Agent 評估與部署上的協作,共同打造更安全且一致的開放 Agent 生態系統。
Hugging Face 與知名安全平台 VirusTotal 展開合作,旨在提升開源 AI 生態系的安全性。雙方將針對託管在 Hugging Face 上的模型進行深度安全掃描,特別是防範利用 PyTorch pickle 格式等漏洞傳播的惡意代碼。此舉將幫助開發者更安全地下載與部署開源模型,降低供應鏈攻擊風險。
廣受開發者歡迎的開源嵌入向量庫 Sentence Transformers 宣布正式加入 Hugging Face。未來該專案將移至 Hugging Face 的 GitHub 組織下管理,獲得更多官方資源支持。這項合作將深化其與 Hugging Face Hub 的整合,提升模型託管、文檔與效能優化,為 RAG 與語意搜尋應用提供更穩定的開源基石。
本文探討如何利用開源模型(如 Florence-2、Qwen2-VL 與 Llama-3.2-Vision)替代傳統 OCR 系統。開源 VLM 不僅能精準辨識文字,還能直接輸出 JSON 或 Markdown 等結構化格式,解決複雜排版與表格解析的痛點。透過 Hugging Face 生態系,開發者可以輕鬆部署並微調這些模型,打造高效、低成本且隱私安全的文檔處理 Pipeline。
Replicate 平台上架了來自 Datalab 的兩款全新文件解析模型:Marker 與 OCR。Marker 專為將整份複雜文件(如 PDF)轉換為乾淨的 Markdown 格式而設計,非常適合 RAG 應用;OCR 模型則能精確提取圖片或文件中的文字,並提供行級(line-level)的多邊形定位座標,為開發者提供高效的文件預處理方案。
賓州大學華頓商學院教授 Ethan Mollick 釋出最新 AI 實用指南。他指出,目前主流模型各有擅場:Claude 3.5 Sonnet 適合寫作與程式,GPT-4o 語音與綜合能力強,Gemini 則以超大上下文見長。他強調,使用者應將 AI 視為「聰明但缺乏經驗的實習生」,透過持續對話與回饋來突破「不規則邊界(Jagged Frontier)」,才能真正發揮 AI 的生產力潛能。
Hugging Face 發表「Hugging Science」專題文章,探討 AI 在食物過敏領域的應用。內容涵蓋利用自然語言處理(NLP)解析複雜成分表、透過電腦視覺識別潛在過敏原食品,以及運用生物資訊模型預測新型蛋白質的致敏性。Hugging Face 呼籲社群共同開發開源數據集與模型,以提升過敏患者的生活品質與食品安全。
Google Cloud 與 Intel、Hugging Face 合作,在搭載第五代 Intel Xeon 處理器的 C4 實例上運行開源 GPT 模型。透過 Intel AMX 硬體加速與 Hugging Face Optimum 軟體優化,顯著提升推論效能。這項整合為企業帶來高達 70% 的總體擁有成本(TCO)改善,提供更具性價比的 CPU 推論選擇。
Vercel 發布技術深度解析,探討如何將 Next.js 應用原生整合至 ChatGPT 中運行。此技術讓使用者能直接在 ChatGPT 介面中部署、執行並互動 Next.js 專案,大幅提升 AI 輔助開發的體驗。文章剖析了沙盒環境、WebContainer 技術以及 Vercel 與 OpenAI 之間的架構協同。
Hugging Face 介紹如何利用 OpenVINO 在 Intel CPU 上優化並運行視覺語言模型(VLM)。開發者只需透過安裝環境、轉換模型、執行推論三個簡單步驟,即可在無獨立顯卡的 Intel 硬體上實現高效的多模態處理,大幅降低 VLM 的本地部署門檻,非常適合邊緣運算與個人開發環境。
NVIDIA 推出「Nemotron-Personas-India」計畫,旨在解決印度多語言與多元文化訓練數據不足的問題。該項目利用 Nemotron 模型生成具備印度各省分、語言及文化背景的「合成角色(Personas)」數據。這項開源成果將助力印度推動「主權 AI(Sovereign AI)」,讓本土語言模型能更精準地理解在地脈絡。
Arm 宣佈將參與即將舉行的 PyTorch Conference。本次參展重點將聚焦於如何透過 Arm 架構優化 PyTorch 效能,包含針對伺服器端(如 AWS Graviton)與邊緣裝置(如 ExecuTorch)的加速方案。此外,Arm 也將展示其開源的 KleidiAI 函式庫如何與 PyTorch 深度整合,提升 AI 模型在 Arm 處理器上的執行效率。
Hugging Face 與 BigCode 合作推出全新評測平台「BigCodeArena」。該平台主打「端到端實際執行(Execution-based)」評測機制,將模型生成的程式碼置於安全沙盒中運行並進行單元測試。這解決了傳統「LLM 當裁判」或靜態分析無法驗證程式碼真實可用性的痛點,為開發者與研究人員提供更具公信力的 Code LLM 排行榜。
IBM 的最新一代開源 AI 模型 Granite 4.0 正式登陸 Replicate 平台。開發者現在無需自行維護基礎設施,即可透過 Replicate 的雲端 API 快速調用 Granite 4.0 模型。這款模型主打企業級應用,在程式碼生成、文本理解與安全合規上皆有出色表現,為開發者在尋求商用與開源模型時,提供更具性價比的新選擇。
Hugging Face 發表全新檢索評估標準 RTEB(Retrieval Evaluation Benchmark)。相較於專注向量表徵的 MTEB,RTEB 更著重於 RAG 實戰中的端到端檢索表現。它涵蓋了混合檢索、重排(Reranking)及多跳推理等複雜場景,並提供開源評估工具,幫助開發者與研究人員精準衡量檢索器在真實應用中的效能。
隨著 AI Agent(代理人)技術走向實用,它們能自主執行複雜的多步驟任務。這帶來了雙刃劍:一方面,AI 能代勞繁瑣的行政庶務,讓人類專注於真正有溫度的核心工作;另一方面,極低的產出成本可能導致「無限 PowerPoint」等企業官僚垃圾氾濫。組織必須主動重新設計工作流程,避免人類淪為 AI 垃圾內容的審查員。
Hugging Face 發表最新技術,展示如何在 Intel Core Ultra 平台上加速 Qwen3-8B Agent。該方法採用「深度剪枝(Depth-Pruning)」技術製作輕量化的草稿模型,並結合投機解碼(Speculative Decoding)技術。這使得在個人電腦(Edge AI)上運行複雜的 Agent 任務時,能獲得更高的 Token 生成效率與更低的延遲,為本地端 AI 應用帶來突破。
NVIDIA 推出「Nemotron-Personas-Japan」合成數據集,旨在推動日本「主權 AI」的發展。該數據集透過模擬多樣化的日本社會角色(Personas),生成符合日本文化、語言習慣與社會規範的高質量訓練數據。這將有助於開發者與研究人員訓練出更理解日本在地脈絡的本土 AI 模型。
Hugging Face 發表 Smol2Operator,這是一套針對「電腦操作(Computer Use)」設計的後訓練 GUI 代理方案。基於輕量級視覺語言模型(如 SmolVLM),透過特定的監督微調(SFT)與強化學習,使其能精準識別螢幕元素並執行點擊、輸入等操作。此項目開源了模型權重與訓練方法,讓開發者能在消費級硬體上部署隱私安全、低延遲的本地 GUI 代理。
ServiceNow AI 在 Hugging Face 發表了全新開源框架「SyGra」,旨在解決 LLM 與 SLM 訓練中高質量資料不足與成本高昂的痛點。該框架提供一站式的合成資料生成方案,結合了結構化控制與生成模型的優勢,能產生高多樣性、高精確度的訓練樣本。這對於需要微調特定領域小模型(SLM)的開發者與研究人員來說,是一個極具價值的工具。
Hugging Face 正式發表 Gaia2 基準測試與 ARE (Agent Run Environment) 框架。Gaia2 延續前代精神,設計了更複雜、防污染且貼近真實世界的多模態任務;而 ARE 則提供安全沙盒化的執行環境,解決了 Agent 測試中重現性低與安全風險的痛點。這套組合將大幅降低社群研究與評估 AI Agent 的門檻。