人形機器人新創公司 Figure AI 近期推出了 24 小時不間斷的直播,展示其人形機器人在模擬倉庫環境中搬運與處理包裹。這個直播迅速在網路上走紅,吸引了大量觀眾駐足觀看。這項企劃不僅展示了機器人在實際工作場景中的穩定度與技術進步,也揭示了人類對於「人形」機器人從事日常勞動時所產生的獨特情感連結與好奇心。
Vercel 更新其 Chat SDK,將 AI SDK 的工具調用(Tools)功能直接納入其中。開發者現在可以更無縫地在聊天 UI 中處理複雜的 Function Calling,並直接渲染工具執行狀態與結果。這大幅降低了構建具備 Agent 能力之聊天機器人的門檻,特別適合 Next.js 與 React 生態系的開發者。
Vercel 宣布為其 Chat SDK 引入兩項重要更新:首先是「訊息主題(Message Subjects)」,允許開發者為對話訊息設定主題以利分類與管理;其次是「直接 SDK 存取(Direct SDK Access)」,讓開發者能繞過封裝,直接調用底層 AI 供應商的原始 SDK 功能。這兩項更新大幅提升了構建複雜 AI 對話應用的靈活性與控制力。
Vercel 宣布推出適用於 WordPress 的 Vercel AI Gateway 官方插件。此插件讓 WordPress 網站能輕鬆整合 Vercel AI Gateway,提供 API 請求快取、速率限制、自動重試與詳細的使用量分析。這能有效降低 WordPress 網站營運 AI 功能的 API 成本,並提升整體效能與穩定性,是站長與開發者的實用工具。
艾倫人工智慧研究所(AI2)推出 OlmoEarth v1.1,這是一系列專為地球觀測與衛星影像分析設計的全新高效模型。此版本在維持高精度的同時,顯著提升了運算效率與推理速度。OlmoEarth v1.1 的開源將有助於環境監測、氣候變遷研究及地理空間數據分析的普及與應用。
Hugging Face 推出全新「Ettin Reranker」重排模型家族,旨在解決 RAG 系統中檢索精度不足的痛點。該系列模型涵蓋多種參數大小,支援多語言與長文本處理,並與 Hugging Face 生態系深度整合。Ettin 透過創新的架構設計,在保持低延遲的同時,顯著提升了重排(Reranking)階段的 NDCG 指標,是開發者構建高效能 RAG 應用的全新開源選擇。
Google DeepMind 宣布生物學家成功利用其 AI 系統「Co-Scientist」加速基因篩選流程。該系統協助研究人員在龐大的基因數據中,精準辨識出能有效逆轉人類細胞衰老(細胞年輕化)的全新關鍵遺傳因子。這項突破不僅展示了 AI 在生醫領域的強大預測與實驗設計能力,也為抗衰老療法與再生醫學開闢了全新路徑。
知名開源 OCR 工具 PaddleOCR 3.5 正式整合至 Hugging Face Transformers 生態系。開發者現在可以直接使用 PyTorch/Transformers 後端執行文字偵測、識別及表格解析等任務,無需安裝複雜的 PaddlePaddle 框架。這項更新極大地簡化了 OCR 與 RAG(檢索增強生成)等下游任務的整合流程。
本期 Latent Space 訪談了烏克蘭無人機新創 The Fourth Law 創辦人 Yaroslav Azhnyuk 與客座主持人 Noah Smith。他們深入探討了從寵物攝影機轉向 AI 導引武器的技術歷程,解析了現代自主無人機的技術棧與低成本製造經濟學。Azhnyuk 警告,西方國家在面對這場由 AI 驅動的無人機軍備競賽中顯得過於遲鈍,亟需正視其對未來國防的衝擊。
本期 Import AI 深入探討三個前沿議題:首先是「AI 版 Stuxnet」,分析自主 AI 代理如何被用於發動高精準度、具備適應性的網路攻擊;其次剖析近期在開源社群大放異彩的 Muon 優化器,探討其獨特的正交化機制及在實際應用中遇到的「詛咒」與挑戰;最後介紹「積極對齊(Positive Alignment)」概念,呼籲安全研究應從單純的「禁止有害行為」轉向「主動引導 AI 促進人類合作與福祉」。
Google DeepMind 宣布將 Project Genie 的使用權限擴大至全球 Google AI Ultra 訂閱者,並推出結合 Google Street View(街景)的全新功能。用戶現在能將真實世界的街道與地標,直接轉化為可互動、可探索的虛擬模擬環境。這項技術結合了生成式世界模型與真實地理數據,為遊戲開發、虛擬實境及 AI 代理的空間訓練帶來全新突破。
Google DeepMind 宣布擴大其內容識別工具,協助使用者了解網頁內容的建立與編輯過程。此舉包含在 Google 搜尋與廣告中整合 C2PA(內容來源和真實性聯盟)元數據,讓使用者能透過「關於此圖片」功能查看圖片是否由 AI 生成或經過編輯。同時,Google 也持續推廣其 SynthID 數位浮水印技術,以提升數位內容的透明度與可信度。
本期《Open Artifacts》電子報彙整了近期極為熱鬧的開放模型生態。多款重量級旗艦模型接連登場,包含 Google 的 Gemma 4、DeepSeek V4、Kimi K2.6、MiMo 2.5 以及 GLM-5.1 等。文章除了盤點這些模型的發布外,也深入探討了 CAISI 針對最新模型所進行的 V4 安全與能力評估,呈現開源與開放權重模型在技術與安全合規上的最新進展。
Google DeepMind 宣布與新加坡政府建立全新的國家級合作夥伴關係。雙方將攜手導入前沿 AI 技術,共同解決醫療保健、教育系統優化以及環境永續發展等複雜的社會與國家級挑戰。這項合作不僅強化了新加坡在亞太地區的 AI 領先地位,也展示了公私部門如何協同推動負責任的 AI 應用。
晶片獨角獸 Cerebras Systems 正式啟動估值高達 600 億美元的 IPO 案。這家以「晶圓級引擎(WSE)」巨大晶片聞名的公司,長期以來致力於透過單一超大晶片解決 AI 運算瓶頸。本次 IPO 不僅是半導體與 AI 領域的重大里程碑,也象徵著市場對 Nvidia 替代方案的強烈渴望與資金挹注。
Google DeepMind 發表案例,展示其新一代天氣預報 AI 模型「WeatherNext」如何協助美國國家颶風中心(NHC)。在面對歷史性颶風「梅麗莎」(Hurricane Melissa)襲擊牙買加時,WeatherNext 提供了極為精準的登陸預測,讓氣象預報員能提前向當地社區發出警報,爭取到前所未有的黃金準備時間,展現了 AI 在防災與氣象預報上的巨大潛力。
Vercel 宣布其 AI Gateway 新增動態排序功能。開發者現在可以根據即時或設定的指標(包含成本、延遲與吞吐量)來自動排序和路由不同的 AI 模型提供商。這項更新讓開發者能更彈性地在效能、預算與速度之間取得平衡,優化生產環境中的 AI 應用表現。
本期 Latent Space 專訪醫療 AI 領導品牌 Abridge 的產品副總裁 Janie Lee 與工程副總裁 Chai Asawa。Abridge 透過環境語音識別(Ambient AI)技術,將醫病對話自動轉化為結構化病歷,每週為醫生節省 10 至 20 小時。此外,他們正將應用擴展至「預先授權(Prior Auth)」等行政流程,致力將醫病對話打造為醫療系統的全新作業系統。
IBM 發布全新開源多語言嵌入模型 Granite Embedding Multilingual R2。該模型採用寬鬆的 Apache 2.0 授權,支援高達 32K 的上下文長度。在參數小於 1 億(Sub-100M)的同量級模型中,它展現出最頂尖的資訊檢索品質,非常適合用於建構高效能且低資源消耗的 RAG(檢索增強生成)系統。
Vercel 宣布支援使用自然語言來建立 WAF(Web 應用程式防火牆)自訂規則。開發者無需手動撰寫複雜的篩選表達式,只需輸入如「阻擋特定路徑的惡意請求」等日常語言描述,系統便會自動生成對應的防火牆規則。此功能大幅降低了安全配置的門檻,提升了網站防護的部署效率。
本文探討開源 AI 模型生態系的「複利效應」,特別聚焦於中國以 Qwen 和 DeepSeek 為代表的「開源優先」高參與度生態。開源模型透過社群的集體微調、工具鏈優化與應用開發,累積進步的速度已逐漸逼近甚至超越封閉模型。這種去中心化的協作模式不僅降低了技術門檻,更形成了一個自我強化的生態飛輪,對全球 AI 競爭格局產生深遠影響。
AI 研發團隊 Thinking Machines 推出全新原生互動模型「TML-Interaction-Small 276B-A12B」。該模型專為即時語音設計,擁有 276B 總參數與 12B 啟用參數。它不僅刷新了即時語音的技術前沿(SOTA),更透過原生互動機制,徹底取代了傳統的語音活動檢測(VAD)模組,實現更自然、無縫的雙向語音對話。
最新一期 Import AI 聚焦於三大前沿議題。首先,分析了遞迴自我改進(RSI)如何可能引發爆發性的經濟成長,並探討其預測模型。其次,面對難以預測的超智慧(Superintelligence),文章主張監管機構必須保有「極致選擇權」以彈性應對。最後,介紹了結合神經網路架構的新型運算系統(神經電腦)之最新進展。
Vercel 宣布其 AI SDK 新增對 Meta Messenger 的官方適配器(Adapter)支援。 此更新簡化了將 AI 模型整合至 Facebook Messenger 聊天機器人的開發流程。 開發者現在可以使用統一的 SDK 介面,快速構建並部署具備 AI 互動能力的 Messenger 機器人。
知名 AI 專家 Nathan Lambert 親自走訪中國多家領先的 AI 實驗室(如 DeepSeek、智譜 AI、零一萬物等),分享第一手觀察。他指出,面對美國嚴苛的晶片制裁,中國實驗室展現出驚人的系統級工程與架構優化能力,並以極低成本推動開源模型(如 Qwen 與 DeepSeek)的快速迭代。然而,嚴格的政府監管審查與對即時商業變現的焦慮,也形塑了與矽谷截然不同的 AI 發展生態。
近期一系列的產業動態與產品發布,皆指向同一個核心趨勢:矽谷正認真將焦點轉向「AI 服務(Services)」。這意味著 AI 不再只是輔助人類的軟體工具(SaaS),而是能直接交付工作成果的代理人(Agents)。這種「以服務為軟體(Service-as-a-Software)」的轉變,將徹底重塑企業外包、客服及專業諮詢等數兆美元的服務業市場。
本期 Import AI 聚焦於「自動化 AI 研究」的最新趨勢。隨著大語言模型與 Agent 技術的成熟,AI 系統已開始展現出自動撰寫程式碼、設計新演算法並進行自我訓練的能力。這種「遞迴自我提升(Recursive Self-Improvement)」不僅能極大地加速 AI 研發進程,也引發了關於安全控制、運算資源分配以及 AI 演進速度失控的深思。
Vercel 發表全新安全防護工具「deepsec」,旨在協助開發者在程式碼庫中快速尋找並修復安全漏洞。該工具能無縫整合至 Vercel 的開發與部署流程中,在程式碼進入生產環境前自動進行安全掃描,並提供具體的修復建議,大幅提升 Web 應用的安全性與開發效率。
本文深入探討 IBM 最新開源的 Granite 4.1 大語言模型家族。詳細介紹了其從數據清洗、模型架構設計(如優化的 Transformer 結構)到指令微調與安全對齊的完整構建流程。Granite 4.1 延續了 IBM 對於企業級安全與 Apache 2.0 開源協議的承諾,並在代碼生成、工具調用及多語言推理上展現出優異性能。
NVIDIA 推出全新輕量級多模態模型 Nemotron 3 Nano Omni,主打「長文本」與「多模態」處理能力。該模型專為文件分析、語音與影片理解的 AI Agent 所設計,能在資源受限的設備上運行。這標誌著邊緣端(On-device)多模態 Agent 應用的重大突破。