本期《Open Artifacts》電子報彙整了近期極為熱鬧的開放模型生態。多款重量級旗艦模型接連登場,包含 Google 的 Gemma 4、DeepSeek V4、Kimi K2.6、MiMo 2.5 以及 GLM-5.1 等。文章除了盤點這些模型的發布外,也深入探討了 CAISI 針對最新模型所進行的 V4 安全與能力評估,呈現開源與開放權重模型在技術與安全合規上的最新進展。
Hugging Face 宣布將知名低成本、高效能的推理平台 DeepInfra 整合至其「推理服務商(Inference Providers)」計畫中。現在,開發者在 Hugging Face Hub 上瀏覽開源模型(如 Llama 3、Mistral 等)時,可以直接選擇 DeepInfra 作為後端託管 API,無需自行架設 GPU 基礎設施。這項合作為開發者提供了更多元、更具性價比的無伺服器(Serverless)推理選擇,進一步簡化了 AI 應用的部署流程。
Google DeepMind 推出 Gemini 3.1 Flash-Lite,這是目前 Gemini 3 系列中速度最快且最具成本效益的模型。該模型旨在滿足大規模的智慧運算需求,適合需要極低延遲與高性價比的應用場景。這項發表標誌著 Google 在輕量化、高效率大語言模型領域的進一步突破。
Hugging Face 深入解析 Transformer 中的混合專家模型 (MoE) 架構。MoE 透過稀疏門控網路將 Token 分流至特定「專家」FFN,實現「高總參數、低計算量」的優勢。本文探討其核心組件、訓練與推理挑戰(如 VRAM 佔用與路由失衡),是理解 Mixtral 與 DeepSeek 等主流模型的必讀指南。
Hugging Face 宣布與極速微調工具 Unsloth 合作,推出免費的 AI 模型訓練方案。使用者可以透過 Hugging Face Jobs 平台,直接在雲端免費運行 Unsloth 的高效微調任務。這項合作大幅降低了個人開發者與研究人員微調 Llama 3、Gemma 等開源大模型的門檻與成本。
Hugging Face 宣布推出「Community Evals」計畫,旨在解決當前 AI 領域中「黑箱排行榜」缺乏透明度與容易被操弄的問題。該計畫強調開源、可重現性與社群驅動,讓全球開發者能共同參與評測標準的制定與驗證。這標誌著 AI 模型評估將從單一機構主導,走向更具公信力的集體智慧時代。
阿聯酋技術創新研究所(TII)於 Hugging Face 宣布推出全新「Falcon-H1-Arabic」模型。該模型專為阿拉伯語設計,旨在突破現有技術瓶頸。其最大亮點在於採用了「混合架構(Hybrid Architecture)」,預期將在運算效率與語言理解上帶來顯著提升,為開源社群提供強大的多語言支援。
Google DeepMind 正式發表新一代模型 Gemini 3 Flash。該模型旨在打破性能與速度的權衡,以極低的成本提供接近前沿(frontier)等級的智慧表現。這款模型專為需要高速度、低延遲以及高性價比的應用場景所設計,將為開發者帶來更高效、更實惠的開發體驗。
ServiceNow AI 發表最新研究「Apriel-H1」,聚焦於如何將大型推理模型(如具備強大 Chain-of-Thought 能力的模型)的推理能力,高效蒸餾至尺寸較小、運行成本更低的實用模型中。該研究指出了一個過去被忽視的「驚人關鍵」,能顯著提升小模型在複雜邏輯與數學推理任務上的表現,為企業級 AI 落地提供更具成本效益的解決方案。
Google DeepMind 宣布推出其最新一代旗艦模型 Gemini 3,並全面開放開發者進行建構。此版本在多模態理解、邏輯推理與生成速度上皆有顯著提升。開發者現在可以透過 Google AI Studio 和 Vertex AI 存取 Gemini 3 API,體驗更強大的上下文處理能力與更低的延遲,為下一代 AI 應用與 Agent 開發奠定基礎。
Google DeepMind 宣佈 Gemini 2.5 Flash-Lite 結束預覽階段,正式推出穩定版(GA)。這款主打高性價比的輕量級模型,在維持小體積與低成本的同時,依然提供極高的輸出品質。它完整繼承了 Gemini 2.5 家族的強大功能,包含 100 萬 token 的超長上下文視窗與多模態處理能力,非常適合開發者與企業用於需要大規模部署與快速響應的生產環境。
賓州大學華頓商學院教授 Ethan Mollick 釋出最新 AI 實用指南。他指出,目前主流模型各有擅場:Claude 3.5 Sonnet 適合寫作與程式,GPT-4o 語音與綜合能力強,Gemini 則以超大上下文見長。他強調,使用者應將 AI 視為「聰明但缺乏經驗的實習生」,透過持續對話與回饋來突破「不規則邊界(Jagged Frontier)」,才能真正發揮 AI 的生產力潛能。
Hugging Face 宣佈與 Public AI 合作,正式將其整合至「推理提供商(Inference Providers)」生態系中。開發者現在可以直接在 Hugging Face Hub 上,選擇由 Public AI 提供的無伺服器(Serverless)API 來運行 Llama、Mistral 等熱門開源模型。此舉不僅簡化了 AI 應用的部署流程,也為開發者在尋求高效能、低延遲且具成本效益的推理基礎設施時,提供了全新的選擇。
Hugging Face 宣布與 Together AI 深度整合,推出全新微調解決方案。開發者現在可以直接從 Hugging Face Hub 選擇任何開源大語言模型,並利用 Together AI 的高效能 GPU 叢集與微調 API 進行訓練。此合作大幅簡化了微調的工作流程,免去繁瑣的硬體設定,並提供極具成本效益的無伺服器微調體驗。
Hugging Face 介紹 Arm 與 PyTorch 團隊在 ExecuTorch 0.7 的最新合作成果。此版本專為 Arm 架構(如手機、AI PC)優化生成式 AI 效能,透過先進的量化技術與核心優化(如 Arm KleidiAI),讓開發者能更輕鬆地在邊緣裝置上部署低延遲、低功耗的輕量化大語言模型。
Vercel 宣布其 AI Gateway 已正式支援 OpenAI 最新發布的 GPT-5、GPT-5-mini 和 GPT-5-nano 模型。開發者現在可以透過 Vercel 的統一 API 介面,輕鬆將這些具備更強推理與多模態能力的新世代模型整合至應用程式中。這不僅簡化了 API 管理,還能利用 Vercel AI Gateway 提供的快取、限流與監控功能,加速下一代 AI 應用的開發與部署。
Hugging Face 官方宣布迎來 OpenAI 的全新開源模型家族「GPT OSS」。這項合作打破了 OpenAI 長期以來以閉源為主的策略,將其強大的 GPT 技術以開源形式提供給全球開發者。社群現在可以直接在 Hugging Face 上下載、微調並部署這些模型,預計將對開源 AI 生態系產生深遠的影響。
Hugging Face 正式發表 SmolLM3 輕量級模型系列。延續前代小巧好部署的特色,SmolLM3 這次特別強化了「多語言支援」、「長上下文處理」以及「推理能力(Reasoner)」。這使得開發者能在資源受限的設備或本地端,運行具備複雜邏輯推理與長文本理解的多語言 AI 應用。
Hugging Face 與阿聯酋技術創新研究所(TII)聯合宣布 NeurIPS 2025 E2LM 競賽。該競賽聚焦於大語言模型(LLM)的「早期訓練評估」,旨在尋找能在訓練初期(僅消耗少數算力或數據時)即準確預測模型最終表現的方法。這將有助於大幅降低 LLM 研發的算力成本與時間,推動更高效、環保的 AI 開發流程。
Google DeepMind 宣布 Gemini 2.5 思考模型家族的最新更新。其中,具備強大推理能力的 Gemini 2.5 Pro 已達到穩定版(Stable)階段;主打快速高效的 Gemini 2.5 Flash 進入一般可用性(GA)階段;此外,官方還推出了全新的超輕量模型 Gemini 2.5 Flash-Lite 供開發者預覽,進一步擴展了其 AI 模型的應用場景與性價比選擇。
Google DeepMind 宣布擴展其 Gemini 2.5 模型家族。先前推出的 Gemini 2.5 Flash 與 Gemini 2.5 Pro 現已達到正式商用(GA)階段。同時,Google 還推出了全新的 Gemini 2.5 Flash-Lite,這是目前 Gemini 2.5 家族中速度最快、成本最低的模型,旨在為開發者提供極致的性價比與低延遲體驗。
AI 模型託管平台 Replicate 宣布支援 OpenAI 的最新模型,包含 GPT-4.1、GPT-4o 及 o 系列推理模型。這項更新讓開發者能在同一個平台與 API 工作流中,無縫整合開源模型(如 Llama)與 OpenAI 的商業模型,大幅簡化了多模型應用的開發流程與帳單管理。
Google DeepMind 宣布更新 Gemini 2.5 系列模型。備受開發者喜愛的 Gemini 2.5 Pro 將推出實驗性的「Deep Think」增強推理模式,大幅提升複雜問題的解決能力;同時,主打輕量高效的 Gemini 2.5 Flash 也獲得全新升級,帶來更強大的功能與效能表現。
Intel 與 Hugging Face 合作介紹先進的僅權重量化演算法 AutoRound。它透過符號梯度下降優化權重捨入決策,顯著降低 4-bit 等低位元量化帶來的精度損失。該技術全面支援 LLM 與視覺語言模型(VLM),並已深度整合至 Hugging Face 生態系,讓開發者能更輕鬆地在消費級硬體上部署高效能模型。
Hugging Face 介紹了由普林斯頓大學等機構提出的 HELMET 基準測試,旨在解決現有長文本評估(如 Needle In A Haystack)過於單一的問題。HELMET 包含 7 大類、11 個真實應用數據集,涵蓋長文本問答、摘要、資訊檢索與程式碼生成等。測試結果顯示,許多宣稱擁有超長上下文的模型,在實際複雜任務中的有效性能會隨著長度增加而顯著衰退。
Sam Altman 宣傳了 ChatGPT 的「記憶(Memory)」功能更新,同時市場傳出 o3、o4-mini 即將推出,以及 GPT-4o 將升級為 GPT-4.1 的洩露消息。 xAI 正式推出 Grok 3 與 Grok 3 mini 的 API,Epoch AI 曾短暫證實其具備 o1 等級的推理能力。 社群方面,Qwen3 宣布延期推出,而 AI Engineer World's Fair 2025 也正展開熱烈徵稿。
Hugging Face 宣佈與高效能推論平台 Fireworks.ai 展開合作,將其整合至 Hugging Face Hub。開發者現在可以直接在 Hub 上利用 Fireworks.ai 的超低延遲推論引擎,運行 Llama 3、Qwen 等熱門開源模型。這項合作不僅簡化了 API 調用流程,也為尋求高性價比、企業級推論服務的開發者提供了全新選擇。
Hugging Face 宣佈在 Hub 上整合「Inference Providers」功能。開發者現在可以直接在模型頁面或透過 SDK,自由選擇 Groq、Together AI、Fireworks AI 等第三方推理服務商來運行開源模型。這項更新簡化了 API 調用流程,讓用戶能根據速度、成本與延遲,彈性切換最適合的後端算力,無需自行維護基礎設施。
阿布達比技術創新研究所(TII)正式發布 Falcon 3 系列開源模型,提供 1B、3B、7B 及 10B MoE 等多種參數規格。Falcon 3 在多項基準測試中表現優異,其 7B 版本在性能上甚至超越了 Llama 3.1 8B 與 Gemma 2 9B。此系列模型對硬體友善,極適合邊緣運算與本地部署,並已深度整合至 Hugging Face 生態系統。
Hugging Face 介紹了 Meta 的 LayerSkip 技術,該技術透過「自投機解碼(Self-Speculative Decoding)」來加速 LLM 推理。傳統投機解碼需要額外的草稿模型,而 LayerSkip 讓單一模型在推理時自我預測與驗證。透過在訓練時加入層丟棄與早期退出損失,模型能用前幾層快速生成草稿,再由完整模型驗證,顯著降低記憶體佔用並提升速度。