人形機器人新創公司 Figure AI 近期推出了 24 小時不間斷的直播,展示其人形機器人在模擬倉庫環境中搬運與處理包裹。這個直播迅速在網路上走紅,吸引了大量觀眾駐足觀看。這項企劃不僅展示了機器人在實際工作場景中的穩定度與技術進步,也揭示了人類對於「人形」機器人從事日常勞動時所產生的獨特情感連結與好奇心。
本期 Latent Space 訪談了烏克蘭無人機新創 The Fourth Law 創辦人 Yaroslav Azhnyuk 與客座主持人 Noah Smith。他們深入探討了從寵物攝影機轉向 AI 導引武器的技術歷程,解析了現代自主無人機的技術棧與低成本製造經濟學。Azhnyuk 警告,西方國家在面對這場由 AI 驅動的無人機軍備競賽中顯得過於遲鈍,亟需正視其對未來國防的衝擊。
Google DeepMind 發表新一代「Gemini Omni」模型,採用原生端到端全模態架構,能同時處理並輸出文字、音訊與視覺資訊。該模型顯著降低了互動延遲,實現如同真人般的流暢對話與即時視訊引導,未來將深度整合至 Android 系統與 Google 生態系,並透過 API 開放給開發者。
Google DeepMind 發表全新 Gemini Robotics-ER 1.6 模型,專為自主機器人設計。該版本專注於提升「具身推理(Embodied Reasoning)」能力,特別加強了空間推理與多視角理解。這項技術突破將使機器人能更精準地整合不同角度的視覺資訊,並在真實世界中執行更複雜的物理任務。
Hugging Face 宣布其熱門開源庫 Sentence Transformers 正式支援多模態(Multimodal)嵌入與重排(Reranker)模型。開發者現在可以使用統一的 API 同時處理文本與影像,將它們映射到相同的向量空間中。這項更新大幅降低了建構多模態 RAG、圖文搜尋與跨模態推薦系統的門檻。
阿聯酋技術創新研究所(TII)在 Hugging Face 上發表了「Falcon Perception」模型。這標誌著著名的 Falcon 開源家族正式擴展至多模態與視覺感知領域。該模型旨在提升開源社群在視覺問答、圖像理解及多模態任務上的能力,延續了 TII 一貫的高效能與開源精神,為開發者提供強大的視覺感知工具。
Jack Clark 在本期電子報中探討了三個技術趨勢與一個社會政治議題。技術上,LLM 訓練其他 LLM(合成資料與自我提升)正成為主流;社群成功完成了 72B 參數模型的分散式訓練,展示了去中心化算力的潛力;同時指出電腦視覺因物理世界的複雜性,比文本生成更具挑戰性。最後,他思考了 AI 的快速崛起是否會導致現有政治體制進入混亂的「過渡期」。
Google DeepMind 發表全新技術「D4RT」,成功將動態三維空間與時間(4D)的重建與追蹤整合。相較於以往技術,D4RT 實現了高達 300 倍的運算加速。這項突破不僅能讓 AI 更精準地理解動態物理世界,也將大幅推進自動駕駛、機器人互動及 AR/VR 領域的發展。
Replicate 平台正式上架 Isaac 0.1 模型。這是一款輕量級且具備定位能力(Grounded)的視覺語言模型(VLM),專為真實世界的空間感知與物體識別而設計。開發者現在可以透過 Replicate 的雲端 API 輕鬆部署並整合此模型,適用於機器人、物聯網及空間運算等需要即時視覺理解的應用場景。
Google DeepMind 發表最新研究,探討 AI 系統與人類在組織視覺資訊時的本質差異。研究指出,人類傾向於依據語意、功能與階層關係來理解視覺世界,而 AI 則常依賴表面特徵(如紋理與背景)。透過深入分析這些認知差距,該研究為開發更具人類常識、更安全且更具魯棒性的電腦視覺系統奠定了基礎。
Google DeepMind 介紹了 AI 在自然保育中的三大應用:物種地圖繪製、森林保護與鳥類聲學監測。透過機器學習分析衛星影像與聲音數據,AI 能協助科學家追蹤生物多樣性、預測森林變化,並透過「聆聽」鳥鳴來評估生態系統健康,為全球環境保護提供強大技術支援。
Google DeepMind 發表全新實驗性 AI 工具「Backstory」,旨在幫助使用者探索網路圖片的脈絡與起源。該工具能分析圖片的傳播歷史、原始出處及可能的修改痕跡,協助使用者在假訊息充斥的網路環境中辨識真偽。這項技術展現了多模態 AI 在提升數位素養與打擊不實資訊方面的潛力。
Hugging Face 發表「Hugging Science」專題文章,探討 AI 在食物過敏領域的應用。內容涵蓋利用自然語言處理(NLP)解析複雜成分表、透過電腦視覺識別潛在過敏原食品,以及運用生物資訊模型預測新型蛋白質的致敏性。Hugging Face 呼籲社群共同開發開源數據集與模型,以提升過敏患者的生活品質與食品安全。
本文介紹了 dots.ocr 模型與 Apple Core ML 框架的結合。透過將 SOTA 等級的 OCR 模型轉換為 Core ML 格式,開發者可以在 iPhone、iPad 和 Mac 上實現高效能的本地端文字辨識。這不僅大幅降低了延遲,還能完全在裝置端運行以保護用戶隱私,是 iOS 與 macOS 開發者整合 AI 視覺功能的新利器。
Arm 與 Hugging Face 合作宣布「Neural Super Sampling (NSS)」技術正式上線。這項技術旨在利用神經網路,在行動裝置與邊緣設備上實現即時的圖像與遊戲畫面超取樣(類似行動版 DLSS)。透過 Hugging Face 平台,開發者現在可以輕鬆獲取優化後的 NSS 模型與工具鏈,大幅提升手遊與 XR 應用的畫面流暢度並降低能耗。
Hugging Face 發布 2025 年視覺語言模型(VLM)趨勢報告。文章深入探討 VLM 在「更強(推理與 OCR)」、「更快(輕量化與推論優化)」與「更實用(多模態 Agent)」三大維度的演進。推薦了 Qwen2.5-VL、Llama-3.2-Vision 等主流開源模型,並介紹如何利用 Hugging Face 生態系進行高效部署與微調。
Google 與 Hugging Face 聯合發表 SigLIP 2 視覺語言編碼器。作為經典 SigLIP 的升級版,SigLIP 2 引入了動態解析度、自監督學習(SSL)輔助任務與更強的多語言支援。它在零樣本分類、圖文檢索及定位等任務上表現優異,並提供多種尺寸的模型,非常適合用作新一代多模態大模型(VLM)的視覺骨幹網路(Vision Backbone)。
Google 與 Hugging Face 合作推出了 PaliGemma 2 Mix 系列模型。這是專為指令遵循(Instruction-following)設計的輕量級視覺語言模型(VLM),結合了 SigLIP 視覺編碼器與 Gemma 2 語言解碼器。 PaliGemma 2 Mix 提供多種參數大小(包含 3B、10B 與 28B),並在多種視覺問答、圖像描述及目標檢測等任務上進行了混合微調,開箱即可展現優異的多模態理解能力。 開發者可直接在 Hugging Face 上取得權重,並透過 Transformers 庫輕鬆進行部署與微調。
Hugging Face 旗下的輕量級 Agent 開源庫 smolagents 迎來重大更新,正式支援視覺語言模型(VLM)。開發者現在可以讓 Agent 接收並處理影像輸入,適用於網頁視覺導航、圖表分析及多模態任務。此更新大幅擴展了程式碼 Agent(Code Agent)的應用場景,使其能「看見」並理解真實世界的視覺資訊。
Hugging Face 宣布將著名的 PyTorch 圖像模型庫 `timm` 與 `transformers` 進行深度整合。現在開發者可以直接使用 `AutoModel` 和 `AutoImageProcessor` 等標準 API,輕鬆載入並使用 `timm` 中的數千個電腦視覺模型。這項更新不僅簡化了工作流程,還讓 `timm` 模型能完美融入 Hugging Face 的生態系,包括 Trainer、Pipelines 以及各類部署工具。
Google 發表全新一代輕量級視覺語言模型 PaliGemma 2,基於 SigLIP 視覺編碼器與 Gemma 2 文本解碼器。本次釋出包含 3B、10B 與 28B 三種參數規模,並提供多種輸入解析度(最高達 896x896)。PaliGemma 2 在圖像描述、視覺問答、目標檢測與文件理解等任務上表現優異,且已全面整合至 Hugging Face 生態系,支援快速微調與部署。
Hugging Face 宣布與知名圖像增強庫 Albumentations 合作,推出專為文件圖像(如收據、合約、掃描檔)設計的 TextImage 數據增強技術。此技術能模擬真實世界中的折痕、陰影、污漬及掃描噪點,解決 Document AI 模型在面對低質量現實圖像時識別率下降的問題。開發者可直接將其整合至 Hugging Face 的數據處理與訓練流程中。
微軟推出的 Florence-2 是一款強大且輕量的視覺語言模型(VLM),僅有 232M 與 770M 兩種參數版本,卻能高效處理 OCR、目標檢測、圖像描述等多種任務。Hugging Face 官方部落格發布了這篇實用指南,詳細教學如何使用 Hugging Face 的 transformers 與 peft 函式庫,在自訂資料集上對 Florence-2 進行微調(Fine-tuning),並利用 LoRA 技術降低顯示記憶體需求,非常適合想在邊緣裝置或有限資源下部署視覺 AI 的開發者。
Google 發表全新開源視覺語言模型 PaliGemma,結合了 SigLIP 視覺編碼器與 Gemma-2B 語言模型。PaliGemma 具備強大的圖像描述、視覺問答(VQA)、物件偵測與 OCR 能力,並提供多種解析度版本。該模型已深度整合至 Hugging Face 生態系,非常適合開發者進行特定下游任務的微調。
Hugging Face 發布視覺語言模型(VLM)科普指南,詳解其結合圖像編碼器與文字解碼器的架構設計。文章涵蓋了從多模態預訓練到指令微調的完整訓練流程,並介紹了 LLaVA、Idefics 等主流開源模型。此外,也提供了如何使用 Hugging Face transformers 庫進行推理的實用程式碼範例,是理解多模態 AI 的必讀教材。
Pollen-Vision 是一個專為機器人設計的開源視覺庫,旨在簡化 Zero-Shot(零樣本)視覺模型(如 OWL-ViT、SAM 等)的整合。它提供統一的 API,讓機器人無需重新訓練即可透過自然語言或點擊來識別與定位物體。此工具能顯著降低機器人視覺開發的門檻,加速具身智能(Embodied AI)的應用落地。
Hugging Face 宣布推出「物件偵測排行榜」(Object Detection Leaderboard),旨在為電腦視覺社群提供一個公開、透明的平台,用以評估和比較各種物件偵測模型。該排行榜主要基於 COCO 數據集進行評估,涵蓋了從傳統的 CNN 架構(如 YOLO)到新興的 Transformer 架構(如 DETR)等多種模型。用戶可以直接提交託管在 Hugging Face Hub 上的模型進行評測,比較其精準度(mAP)與參數量等關鍵指標。
Hugging Face 釋出 3D Gaussian Splatting (3DGS) 的技術入門指南。3DGS 是 3D 重建領域的革命性技術,透過將稀疏點雲轉化為數百萬個 3D 高斯橢圓體,實現了超越 NeRF 的即時渲染速度(100+ FPS)與極短的訓練時間。本文詳細解析其運作原理,並介紹如何在 Hugging Face 平台上整合與展示 3DGS 成果。
Hugging Face 發表開源多模態視覺語言模型 IDEFICS,旨在重現 DeepMind 閉源模型 Flamingo 的強大功能。該模型基於 LLaMA 與 OpenCLIP 構建,提供 9B 與 80B 兩種參數版本,能同時處理交錯的文本與圖片輸入。IDEFICS 的開源為社群提供了強大的多模態研究基礎,並同步釋出了大規模數據集 OBELICS。
本文由 Hugging Face 撰寫,深入剖析文字生成影片(Text-to-Video)模型的底層原理,包含如何將 2D 擴散模型擴展至 3D 時間維度。文章介紹了當時主流的開源模型(如 ModelScope),並提供使用 diffusers 函式庫進行實作的程式碼範例,是理解早期開源 AI 影片生成技術的經典指南。