Google DeepMind 發表全新開源模型系列「T5Gemma」。不同於目前主流的 Decoder-only 架構,T5Gemma 採用經典的 Encoder-Decoder 架構,將 T5 的設計理念與 Gemma 的現代化技術結合。這為需要雙向上下文理解的任務(如翻譯、摘要、分類)提供了更高效且強大的新選擇。
Google DeepMind 與知名導演 Darren Aronofsky、Eliza McNitt 及超過 200 人的製作團隊合作,推出結合實景拍攝與 Veo 影片生成技術的電影《ANCESTRA》。本片展示了 AI 如何作為創作者的延伸工具,而非取代傳統電影製作,並開創了實景與生成式 AI 融合的新敘事手法。
Google DeepMind 推出全新 AI 基礎模型 AlphaEarth Foundations,旨在解決地球觀測數據零散且格式不一的挑戰。該模型整合了數 PB 的衛星影像與地理空間數據,建立統一的數據表徵。這項技術將大幅提升全球地圖繪製、環境變遷追蹤及氣候監測的精度與效率,為科學研究與防災應用提供強大支援。
Google DeepMind 發表全新 AI 模型「Aeneas」,這是首款專為「脈絡化古碑文」設計的工具。Aeneas 旨在協助歷史學家更好地詮釋、歸屬(判定年代與來源)以及修復殘缺不全的古代文本。這項技術克服了傳統碑銘學研究中實體損毀與資訊破碎的挑戰,為歷史與考古研究開創了人機協作的新紀元。
Google DeepMind 發表全新世界模型 Genie 3,為生成式 AI 領域帶來重大突破。該模型能以每秒 24 幀(fps)的即時速度,生成可供用戶自由導航與互動的動態虛擬世界。Genie 3 不僅支援 720p 的高解析度,更能在長達數分鐘的互動過程中,保持場景與物理邏輯的高度一致性,這將為未來的遊戲開發、虛擬實境以及 AI 代理(Agents)的模擬訓練開闢全新途徑。
Google DeepMind 發表全新生物聲學模型「Perch」,旨在協助保育人士快速分析野外錄音。該模型能自動識別夏威夷蜜旋木雀等瀕危鳥類及珊瑚礁生態系統的聲音,大幅縮短人工監聽時間。這項技術讓科學家能在大範圍內進行長期的生態監測,為全球生物多樣性保護提供關鍵支持。
Google DeepMind 介紹了 AI 在宇宙學與天文物理學中的前沿應用。面對新一代望遠鏡帶來的龐大觀測數據,傳統計算方法已達瓶頸。DeepMind 透過深度學習與神經網路,不僅能將複雜的宇宙演化模擬加速數萬倍,還能精確分析重力透鏡效應以繪製暗物質分佈地圖,為科學家探索宇宙奧秘提供強大工具。
Google DeepMind 發表最新研究,展示如何利用 AI 技術尋找流體力學中的新解。該方法針對描述流體運動的百年難題(如 Navier-Stokes 方程與湍流現象),透過結合深度學習與物理模擬,成功加速尋找「確切相干態(ECS)」等關鍵結構。這項突破將有助於數學、物理與工程學界攻克長期未解的複雜流體控制與預測挑戰。
Google DeepMind 宣布與麻省理工學院衍生企業 Commonwealth Fusion Systems (CFS) 展開合作。雙方將結合 DeepMind 的強化學習(RL)與 AI 模擬技術,以及 CFS 的高磁場托卡馬克裝置 SPARC,共同解決核融合反應爐中超高溫電漿控制的難題,加速商業化核融合能源的到來。
Google DeepMind 發表全新開源平台「Game Arena」,旨在解決傳統 AI 基準測試逐漸失效的問題。該平台讓不同的前沿 AI 模型在具有明確勝負規則的遊戲環境中進行直接對決。透過這種動態且具對抗性的方式,Game Arena 能更精準、客觀地評估 AI 的決策與推理能力,為 AI 領域提供更具公信力的衡量標準。
Replicate 平台上架了來自 Datalab 的兩款全新文件解析模型:Marker 與 OCR。Marker 專為將整份複雜文件(如 PDF)轉換為乾淨的 Markdown 格式而設計,非常適合 RAG 應用;OCR 模型則能精確提取圖片或文件中的文字,並提供行級(line-level)的多邊形定位座標,為開發者提供高效的文件預處理方案。
本文探討如何利用開源模型(如 Florence-2、Qwen2-VL 與 Llama-3.2-Vision)替代傳統 OCR 系統。開源 VLM 不僅能精準辨識文字,還能直接輸出 JSON 或 Markdown 等結構化格式,解決複雜排版與表格解析的痛點。透過 Hugging Face 生態系,開發者可以輕鬆部署並微調這些模型,打造高效、低成本且隱私安全的文檔處理 Pipeline。
NVIDIA 推出「Nemotron-Personas-India」計畫,旨在解決印度多語言與多元文化訓練數據不足的問題。該項目利用 Nemotron 模型生成具備印度各省分、語言及文化背景的「合成角色(Personas)」數據。這項開源成果將助力印度推動「主權 AI(Sovereign AI)」,讓本土語言模型能更精準地理解在地脈絡。
Hugging Face 與 BigCode 合作推出全新評測平台「BigCodeArena」。該平台主打「端到端實際執行(Execution-based)」評測機制,將模型生成的程式碼置於安全沙盒中運行並進行單元測試。這解決了傳統「LLM 當裁判」或靜態分析無法驗證程式碼真實可用性的痛點,為開發者與研究人員提供更具公信力的 Code LLM 排行榜。
IBM 的最新一代開源 AI 模型 Granite 4.0 正式登陸 Replicate 平台。開發者現在無需自行維護基礎設施,即可透過 Replicate 的雲端 API 快速調用 Granite 4.0 模型。這款模型主打企業級應用,在程式碼生成、文本理解與安全合規上皆有出色表現,為開發者在尋求商用與開源模型時,提供更具性價比的新選擇。
NVIDIA 推出「Nemotron-Personas-Japan」合成數據集,旨在推動日本「主權 AI」的發展。該數據集透過模擬多樣化的日本社會角色(Personas),生成符合日本文化、語言習慣與社會規範的高質量訓練數據。這將有助於開發者與研究人員訓練出更理解日本在地脈絡的本土 AI 模型。
Enterprise AI 公司 Writer 在 Hugging Face 上推出了全新的「Palmyra-mini」模型系列。該系列主打輕量化與強大效能,並特別強調具備「推理(reasoning)」能力。這使得開發者能在資源受限的環境中,部署具備複雜邏輯思考與問題解決能力的 AI 模型,為邊緣運算與企業應用提供新選擇。
Vercel 指出 Model Context Protocol (MCP) 正進入第二階段。第一階段是將現有工具連接至 LLM,而第二階段則是「為 LLM 量身打造 API」。開發者不再只是暴露傳統的 REST 接口,而是需要設計具備豐富語意描述、適合 Agent 推理與執行的 MCP 服務。這將徹底改變未來軟體架構與 API 開發的思維。
Alphabet 拆分出的 AI 與量子技術公司 SandboxAQ,在 Hugging Face 上正式發布了 SAIR 數據集。該數據集專為製藥研發(Pharma R&D)設計,利用 AI 驅動的「結構智能」,提供高質量的分子與蛋白質結構數據。此舉解決了 AI 藥物發現中高質量數據匱乏的痛點,將有助於研究人員訓練更精準的預測模型,大幅縮短新藥開發的週期與成本。
知名 AI 學者 Ethan Mollick 撰文探討「大眾智能(Mass Intelligence)」的降臨。他指出,AI 正在朝兩極化普及:一方面是如 GPT-5 等具備頂尖推理能力的前沿模型,另一方面是能在個人裝置運行的超輕量本地模型(如 nano banana 等)。這意味著強大的 AI 算力將如同電力般無所不在且廉價,徹底民主化智能的獲取管道。
Hugging Face 推出實用指南,協助開發者克服自訂 GPU 算子的開發門檻。文章深入探討如何從零開始撰寫 CUDA Kernel,並介紹如何利用 OpenAI Triton 簡化開發流程。最後,指南展示了如何將這些自訂算子無縫整合至 PyTorch 中,並透過 Profiling 工具進行效能調優,以達到生產環境的擴展需求。
Arm 與 Hugging Face 合作宣布「Neural Super Sampling (NSS)」技術正式上線。這項技術旨在利用神經網路,在行動裝置與邊緣設備上實現即時的圖像與遊戲畫面超取樣(類似行動版 DLSS)。透過 Hugging Face 平台,開發者現在可以輕鬆獲取優化後的 NSS 模型與工具鏈,大幅提升手遊與 XR 應用的畫面流暢度並降低能耗。
Hugging Face 發表全新評測基準「FilBench」,旨在評估 LLM 在菲律賓語上的理解與生成能力。由於菲律賓語在 NLP 領域常被視為資源較匱乏的語言,此基準填補了評測空白。FilBench 涵蓋多種任務,能協助研究人員與開發者客觀評估並優化模型在東南亞在地化應用的表現。
NVIDIA 在 Hugging Face 部落格分享了其開源且可移植的深度研究 Agent 成果。透過在 DeepResearch Bench 基準測試上評估開源的 Llama Nemotron 模型,該系統展現出極佳的研究與推理能力。此研究證明了開源模型在複雜、多步驟的研究任務中,已具備與閉源頂尖模型競爭的實力,為開發者提供了一個強大且可本地部署的 Deep Research 解決方案。
阿聯酋技術創新研究所(TII)在 Hugging Face 發布了名為「3LM」的全新評估基準。該基準專為阿拉伯語大語言模型(LLM)設計,旨在測試其在科學、技術、工程、數學(STEM)以及程式碼編寫等高難度領域的能力。這填補了目前多語言 AI 評估中,阿拉伯語技術性評測工具不足的空白。
沃頓商學院教授 Ethan Mollick 探討了 AI 領域著名的「苦澀教訓」(The Bitter Lesson)與組織理論中的「垃圾桶模型」(The Garbage Can Model)之間的對立。前者認為只要持續堆疊算力,AI 就能解決所有問題;後者則指出企業組織本質上是充滿混亂與隨機決策的「垃圾桶」。隨著 AI 試圖融入真實工作,這兩股力量的對決將決定 AI 能否真正顛覆生產力。
Hugging Face 與 Arc Institute 合作發表「虛擬細胞挑戰賽(Virtual Cell Challenge)」導讀。此競賽聚焦於 AI for Science 領域,邀請全球開發者與研究人員利用機器學習與大型生物模型,預測單細胞層級的基因表達與細胞狀態。這項挑戰賽旨在推動虛擬細胞技術的發展,並提供開源數據集與評測基準。
Hugging Face 發表關於「Consilium」的多 LLM 協作技術探討。隨著單一模型的能力逐漸遇到瓶頸,讓多個不同專長、不同尺寸的 LLM 協同工作(如合議制、辯論或 Mixture of Agents)成為提升 AI 系統魯棒性的關鍵。本文深入解析多模型協作的架構設計、共識機制以及其在降低幻覺與控制成本上的優勢。
Replicate 發表技術專文,深入解析如何優化 FLUX.1 Kontext [dev] 圖像生成模型。文章聚焦於「Taylor Seer」優化技術,這是一種利用泰勒展開式來評估並剪枝模型參數的方法。透過此技術,Replicate 成功在維持高品質圖像生成的同時,顯著降低了推論延遲與 GPU 記憶體成本,為開發者提供更高效的 FLUX 部署方案。
NVIDIA 宣布將其輕量級視覺語言模型 Llama Nemotron Nano VLM 上架至 Hugging Face Hub。該模型結合了 Llama 架構與 NVIDIA 的 Nemotron 優化技術,專為邊緣運算與本機端部署設計。它能在低資源設備上高效執行圖像理解、視覺問答(VQA)與 OCR 等任務,為開發者提供更便利的開源多模態選擇。