由於全球鋁價近期飆升 20%,回收產業迎來巨大商機。許多回收新創公司正積極導入 AI 技術,藉由先進的影像識別與自動化分類系統,大幅提升鋁等關鍵礦物的回收效率與純度。此舉不僅能降低對傳統採礦的依賴,更旨在建立一個龐大且可持續的再生金屬供應源,實現循環經濟與商業利益的雙贏。
人形機器人新創公司 Figure AI 近期推出了 24 小時不間斷的直播,展示其人形機器人在模擬倉庫環境中搬運與處理包裹。這個直播迅速在網路上走紅,吸引了大量觀眾駐足觀看。這項企劃不僅展示了機器人在實際工作場景中的穩定度與技術進步,也揭示了人類對於「人形」機器人從事日常勞動時所產生的獨特情感連結與好奇心。
本期 Latent Space 訪談了烏克蘭無人機新創 The Fourth Law 創辦人 Yaroslav Azhnyuk 與客座主持人 Noah Smith。他們深入探討了從寵物攝影機轉向 AI 導引武器的技術歷程,解析了現代自主無人機的技術棧與低成本製造經濟學。Azhnyuk 警告,西方國家在面對這場由 AI 驅動的無人機軍備競賽中顯得過於遲鈍,亟需正視其對未來國防的衝擊。
Google DeepMind 發表新一代「Gemini Omni」模型,採用原生端到端全模態架構,能同時處理並輸出文字、音訊與視覺資訊。該模型顯著降低了互動延遲,實現如同真人般的流暢對話與即時視訊引導,未來將深度整合至 Android 系統與 Google 生態系,並透過 API 開放給開發者。
Google DeepMind 發表全新 Gemini Robotics-ER 1.6 模型,專為自主機器人設計。該版本專注於提升「具身推理(Embodied Reasoning)」能力,特別加強了空間推理與多視角理解。這項技術突破將使機器人能更精準地整合不同角度的視覺資訊,並在真實世界中執行更複雜的物理任務。
阿聯酋技術創新研究所(TII)在 Hugging Face 上發表了「Falcon Perception」模型。這標誌著著名的 Falcon 開源家族正式擴展至多模態與視覺感知領域。該模型旨在提升開源社群在視覺問答、圖像理解及多模態任務上的能力,延續了 TII 一貫的高效能與開源精神,為開發者提供強大的視覺感知工具。
Jack Clark 在本期電子報中探討了三個技術趨勢與一個社會政治議題。技術上,LLM 訓練其他 LLM(合成資料與自我提升)正成為主流;社群成功完成了 72B 參數模型的分散式訓練,展示了去中心化算力的潛力;同時指出電腦視覺因物理世界的複雜性,比文本生成更具挑戰性。最後,他思考了 AI 的快速崛起是否會導致現有政治體制進入混亂的「過渡期」。
Google DeepMind 發表最新研究,探討 AI 系統與人類在組織視覺資訊時的本質差異。研究指出,人類傾向於依據語意、功能與階層關係來理解視覺世界,而 AI 則常依賴表面特徵(如紋理與背景)。透過深入分析這些認知差距,該研究為開發更具人類常識、更安全且更具魯棒性的電腦視覺系統奠定了基礎。
Google DeepMind 介紹了 AI 在自然保育中的三大應用:物種地圖繪製、森林保護與鳥類聲學監測。透過機器學習分析衛星影像與聲音數據,AI 能協助科學家追蹤生物多樣性、預測森林變化,並透過「聆聽」鳥鳴來評估生態系統健康,為全球環境保護提供強大技術支援。
Google DeepMind 發表全新實驗性 AI 工具「Backstory」,旨在幫助使用者探索網路圖片的脈絡與起源。該工具能分析圖片的傳播歷史、原始出處及可能的修改痕跡,協助使用者在假訊息充斥的網路環境中辨識真偽。這項技術展現了多模態 AI 在提升數位素養與打擊不實資訊方面的潛力。
Hugging Face 發表「Hugging Science」專題文章,探討 AI 在食物過敏領域的應用。內容涵蓋利用自然語言處理(NLP)解析複雜成分表、透過電腦視覺識別潛在過敏原食品,以及運用生物資訊模型預測新型蛋白質的致敏性。Hugging Face 呼籲社群共同開發開源數據集與模型,以提升過敏患者的生活品質與食品安全。
Arm 與 Hugging Face 合作宣布「Neural Super Sampling (NSS)」技術正式上線。這項技術旨在利用神經網路,在行動裝置與邊緣設備上實現即時的圖像與遊戲畫面超取樣(類似行動版 DLSS)。透過 Hugging Face 平台,開發者現在可以輕鬆獲取優化後的 NSS 模型與工具鏈,大幅提升手遊與 XR 應用的畫面流暢度並降低能耗。
Hugging Face 發布 2025 年視覺語言模型(VLM)趨勢報告。文章深入探討 VLM 在「更強(推理與 OCR)」、「更快(輕量化與推論優化)」與「更實用(多模態 Agent)」三大維度的演進。推薦了 Qwen2.5-VL、Llama-3.2-Vision 等主流開源模型,並介紹如何利用 Hugging Face 生態系進行高效部署與微調。
本文由 Hugging Face 撰寫,深入剖析文字生成影片(Text-to-Video)模型的底層原理,包含如何將 2D 擴散模型擴展至 3D 時間維度。文章介紹了當時主流的開源模型(如 ModelScope),並提供使用 diffusers 函式庫進行實作的程式碼範例,是理解早期開源 AI 影片生成技術的經典指南。
本文探討機器學習在災難救援中的關鍵應用。在土耳其與敘利亞大地震等災害發生後,AI 社群迅速動員,利用計算機視覺分析衛星影像以評估建築損毀,並透過自然語言處理(NLP)篩選社群媒體上的求救訊號。Hugging Face 強調開源協作與模型共享在爭分奪秒的救援任務中扮演的重要角色。
Hugging Face 介紹了其無程式碼平台 AutoTrain 在圖像分類任務上的應用。使用者只需上傳整理好的圖片資料集,系統便會自動進行模型選擇、超參數調優與訓練。訓練完成後,模型會直接託管於 Hugging Face Hub,並自動生成 Inference API,極大地降低了電腦視覺應用的開發門檻。