本文為 Nathan Lambert 的《Latest open artifacts》第 19 期。隨著農曆馬年的到來,阿里 Qwen 3.5、智譜 GLM 5 以及 MiniMax 2.5 等模型相繼亮相。這些最新釋出的開放權重(open-weights)模型,展示了中國 AI 實驗室在開源與前沿領域的強勁實力,並進一步縮小了與美國頂尖模型之間的差距,為全球開發者提供更多元的高性能選擇。
本期 Import AI 深入探討了三個前沿議題:首先是「AGI 經濟」,分析當算力與能源成為核心資源時,超智慧生態建築(Arcology)的運作模式;其次是「生成式遊戲測試」,指出傳統基準測試已飽和,未來將透過即時生成的遊戲來評估 AI 的泛化與規劃能力;最後是「Agent 生態學」,展望多智慧體在共享環境中互動、競爭與演化的未來趨勢。
稅務合規軟體公司 Avalara 分享了他們如何將 Vercel 的 AI 前端生成工具 v0 融入開發流程。透過 v0,團隊能夠在極短時間內將抽象的創意轉化為高保真的互動原型,大幅縮短研發週期。這種高效的創新模式不僅加速了產品落地,更幫助他們成功將多個創新點子推向專利申請階段。
Vercel 探討在 AI Agent 時代下,如何擴展開發者社群支援而不失人情味。文章指出,單純依賴 AI 自動回覆容易損害社群信任,因此應將 Agent 定位為「人類協作者」,負責初步過濾、草擬回覆與自動分類。透過建立「人機協作(Human-in-the-loop)」機制,讓社群經理能專注於高價值的深度互動,在效率與溫度之間取得完美平衡。
Google DeepMind 推出最新圖像生成模型 Nano Banana 2。該模型在維持極速(Flash speed)的同時,融入了先進的世界知識與生產級規格。此外,它還具備強大的「主體一致性」功能,能為專業創作者與開發者提供兼具速度與品質的圖像生成體驗。這款模型的推出,解決了過往 AI 繪圖難以在連續場景中保持角色一致的痛點,並大幅縮短了設計工作流的等待時間。
醫療 AI 平台 OpenEvidence 分享了他們如何贏得醫生信任的關鍵。透過與 Vercel 合作,他們構建了一個結合 RAG(檢索增強生成)技術的決策支持系統,能針對醫學提問提供精確且附帶權威文獻引用的解答。Vercel 的高效能前端基礎設施與邊緣渲染技術,確保了醫生在臨床現場能以極低延遲獲取關鍵資訊,解決了醫療 AI 常見的幻覺與速度痛點。
本文探討知識蒸餾(Distillation)在中國大語言模型(如 DeepSeek、Qwen)發展中扮演的角色。針對 Anthropic 近期將蒸餾視為「安全攻擊」的報告,作者指出,雖然蒸餾確實加速了模型對齊,但中國 LLM 的成功更多歸功於其強大的預訓練底座與強化學習(RL)創新。將蒸餾單純簡化為「抄襲」或「攻擊」,忽略了其作為標準機器學習技術的本質,也低估了中國團隊的工程實力。
Replicate 介紹了新一代影像生成模型 Seedream 5.0 的 Prompt 撰寫技巧。該模型三大核心亮點為:支援多步驟推理(能先規劃再生成)、基於範例的影像編輯(透過參考圖進行精準修改),以及具備深厚的領域知識。本文將引導開發者與創作者如何善用這些新特性,創造出更符合預期的視覺作品。
本期 Import AI 探討了三個核心議題:首先是「核能 LLM」在能源與專業領域的應用與安全挑戰;其次是中國最新推出的國家級 AI 基準測試,展現其在評估本土模型上的野心;最後探討了 AI 評估與政策制定之間的關係,強調精確測量對監管的重要性。
IBM 研究中心與柏克萊加州大學(UC Berkeley)合作發表了 IT-Bench 基準測試與 MAST 診斷框架。IT-Bench 模擬了真實的企業 IT 運維環境,而 MAST 則專門用來剖析 AI Agent 在執行多步驟任務時失敗的深層原因。研究指出,企業級 Agent 的失敗往往源於工具調用錯誤、狀態追蹤失效及錯誤累積,而非單純的 LLM 能力不足,這為未來 AIOps 的優化提供了明確方向。
隨著 AI 從單純的「聊天機器人」演進至具備主動執行能力的「代理人(Agents)」與深度思考的「推理模型(Reasoning Models)」,使用策略已大幅改變。本文整理了當前主流 AI(如 GPT、Claude、Gemini 及 DeepSeek)在寫作、程式開發、資料分析與自動化任務中的定位。讀者將能理解何時該用一般聊天、何時該啟動推理,以及如何佈署代理人來提升生產力。
本期 Import AI 聚焦於三個核心議題:首先探討 2026 年是否將成為人類應對「技術奇點」與超級智能(Superintelligence)的關鍵轉折點;其次,分析 AI 在解決前沿數學證明上的最新突破,這象徵著推理能力的顯著提升;最後,介紹了一項評估機器學習研究能力的新基準,為衡量未來 AI 進展提供更客觀的尺度。
本期 Import AI 涵蓋三大前沿議題:首先探討如何量化 AI 的「創意」與 LLM 社會模擬(LLM societies)的最新進展;其次聚焦華為利用 AI 技術自動生成與優化作業系統核心(Kernel)的實踐,展示 AI 在系統級程式設計的潛力;最後介紹 ChipBench,這是一個評估 AI 在晶片設計與硬體描述語言(HDL)生成能力的全新基準測試。
本文探討在 2026 年面對 Opus 4.6 與 Codex 5.3 等頂尖模型時,傳統靜態基準測試(如 MMLU)已完全失效。AI 評估正式進入「後基準時代」,重點轉向評估模型在複雜、多步驟的代理人任務(Agentic tasks)中的實際表現。未來,評估將更依賴動態環境、人類反饋與客製化的工作流模擬,而非單一的分數指標。
Google DeepMind 宣布向美國的 Google AI Ultra 訂閱會員開放「Project Genie」實驗性研究原型。這款工具能讓使用者創造並親自探索無限的互動式世界。用戶只需輸入簡單的提示詞或圖片,系統就能生成可操作、具備物理互動特性的 2D 平台環境,展現了生成式 AI 在遊戲與世界模型(World Models)領域的全新突破。
Vercel 官方分享了 Stripe 團隊如何利用 AI 輔助開發工具 v0,在短短一次飛行航程中,從零到有打造出一款功能完整的應用程式。這項案例展示了 v0 如何透過自然語言生成 React 與 Tailwind CSS 程式碼,極大地縮短了從創意到產品原型的時間,並改變了現代開發者的工作流程,讓單人快速交付產品成為現實。
賓州大學教授 Ethan Mollick 指出,隨著 AI 轉型為能自主規劃與執行的 Agent(代理),人類的工作將從「與 AI 協作」轉變為「管理 AI」。這意味著傳統的管理技能——如明確授權、設定目標、績效評估與跨團隊協調——將成為每個人的核心競爭力。不會管理的人將難以駕馭強大的 AI 工具。
在「DeepSeek 時刻」屆滿一週年之際,Hugging Face 發文探討中國開源 AI 生態系的技術演進。文章深入分析了中國各大 AI 團隊(如 Qwen、GLM、Yi 等)如何超越 DeepSeek 的既有框架,在混合專家模型(MoE)、多頭潛在注意力(MLA)以及強化學習(GRPO)等架構上進行抉擇與創新。這些技術選擇不僅是為了應對算力限制,更重塑了全球開源 AI 的高效率與低成本標準。
Jack Clark 在本期 Import AI 中探討了「超智慧」究竟是階段性突變還是漸進式轉變。內容涵蓋 AI 經濟體系中的贏家與輸家分化、數學證明自動化的最新進展,以及 AI 如何加速網路間諜活動的工業化規模。這些趨勢正深刻重塑科技競爭與國家安全格局。
IBM Research 在 Hugging Face 上推出了 AssetOpsBench 互動遊樂場。這是一項專門針對工業資產營運(AssetOps)設計的 AI Agent 基準測試,旨在解決現有評估工具偏重軟體工程或網頁瀏覽,而缺乏工業實際場景的問題。它評估 Agent 在面對複雜工業手冊、感測器數據及企業資產管理系統時的規劃、工具調用與推理能力。
Google DeepMind 推出最新影片生成模型 Veo 3.1,主打「影片配方(Ingredients to Video)」概念,顯著提升了影片生成的自然度、動態效果與畫面一致性。本次更新特別加入了創作者期待已久的「直式影片(vertical video)」生成支援,為社群媒體與短影音創作提供更強大的控制力與創意空間。
知名 AI 政策專家 Jack Clark 在最新一期電子報中提出三個核心觀點:首先是「紅皇后 AI」,指出 AI 的攻防與演化正陷入不斷奔跑才能維持原狀的競爭;其次是「AI 監管 AI」,隨著 AI 產出速度超越人類極限,未來必須依賴 AI 進行自動化合規與監管;最後是「O型環自動化」,探討在高度自動化的工作流中,最脆弱的單一環節將決定整個系統的成敗。
本期 Import AI 439 聚焦於三大前沿議題:首先是優化底層運算的 AI 內核(Kernels)技術;其次是因應算力瓶頸而興起的去中心化 AI 訓練方法;最後是跨模態的通用表徵研究。此外,專欄也以哲學視角探討了未來的超級智能(ASI)可能會如何在高度抽象的向量空間中,建構與理解人類所謂的「靈魂」。
Hugging Face 宣布與 NVIDIA 合作,將 NVIDIA 全新的 DGX Spark 運算平台與 Pollen Robotics 的 Reachy Mini 機器人進行深度整合。此合作旨在降低具身智能(Embodied AI)的開發門檻,讓開發者能透過 Hugging Face 的 LeRobot 開源機器人框架,輕鬆將 AI 代理(Agents)部署至實體硬體,實現具備物理互動能力的實體 AI 應用。
許多企業的內部工具(如後台、儀表板)常因缺乏維護、套件過期及糟糕的 UX 而逐漸被棄用。Vercel 指出,傳統的低程式碼(Low-code)工具雖起步快,但長期維護與客製化困難。透過 Next.js 搭配 AI 輔助生成工具(如 v0),開發者能以極快速度用真實程式碼構建、部署並輕鬆維護美觀且安全的內部工具,徹底解決維護地獄。
本期 Import AI 聚焦於兩個核心議題:首先是「你就是你的對話歷史」,研究指出使用者的 LLM 對話紀錄具有高度獨特性,足以像指紋一樣識別個人身分並洩露隱私;其次是「網路安全能力過剩(Cyber Capability Overhang)」,指出當前 AI 模型可能已具備強大的網路攻擊潛力,只是因缺乏適當的鷹架工具(Scaffolding)或提示而尚未顯現,這種潛在威脅如同無聲的警報,隨時可能被觸發。
沃頓商學院教授 Ethan Mollick 探討了 AI 發展的非線性特徵。他結合了著名的「崎嶇邊界(Jagged Frontier)」理論,並引入科技史學家 Thomas Hughes 的「反向突進(Reverse Salients)」概念,解釋為何強大的 AI 技術在實際應用中會遭遇瓶頸。Mollick 幽默地以虛構的「Nano Banana Pro」為例,說明解決特定工作流瓶頸的小型、專門化 AI 工具,其影響力往往大於一味追求強大卻泛用的通用大模型。
Vercel 推出 v0 與 Notion 的整合功能,旨在簡化以 Notion 作為後端的應用程式開發。開發者現在可以利用 v0 的生成式 UI 能力,直接讀取 Notion 的資料庫與頁面結構,快速生成對應的 React 組件、儀表板或自定義工作流。這項更新大幅降低了將 Notion 數據可視化與建立內部工具的門檻。
Vercel 官方發布 v0 提示詞(Prompt)最佳實踐指南。文章深入解析如何透過結構化描述、分步迭代、上傳設計截圖以及指定互動狀態,來引導 v0 生成精確且符合預期的 React、Tailwind CSS 與 shadcn/ui 組件。這份指南能幫助開發者與設計師大幅提升 UI 生成效率與程式碼品質。
面對全球暖化威脅,科學家正利用 Google DeepMind 的 AlphaFold 技術來強化植物光合作用中的關鍵酵素。透過精準預測蛋白質結構,研究人員能設計出更具耐熱性的酵素變體,從而培育出在高溫下仍能維持產量的抗逆作物,為全球糧食安全提供關鍵技術支持。