本期《Open Artifacts》電子報彙整了近期極為熱鬧的開放模型生態。多款重量級旗艦模型接連登場,包含 Google 的 Gemma 4、DeepSeek V4、Kimi K2.6、MiMo 2.5 以及 GLM-5.1 等。文章除了盤點這些模型的發布外,也深入探討了 CAISI 針對最新模型所進行的 V4 安全與能力評估,呈現開源與開放權重模型在技術與安全合規上的最新進展。
Google DeepMind 推出 Gemini 3.1 Flash-Lite,這是目前 Gemini 3 系列中速度最快且最具成本效益的模型。該模型旨在滿足大規模的智慧運算需求,適合需要極低延遲與高性價比的應用場景。這項發表標誌著 Google 在輕量化、高效率大語言模型領域的進一步突破。
Hugging Face 宣布推出「Community Evals」計畫,旨在解決當前 AI 領域中「黑箱排行榜」缺乏透明度與容易被操弄的問題。該計畫強調開源、可重現性與社群驅動,讓全球開發者能共同參與評測標準的制定與驗證。這標誌著 AI 模型評估將從單一機構主導,走向更具公信力的集體智慧時代。
Google DeepMind 正式發表新一代模型 Gemini 3 Flash。該模型旨在打破性能與速度的權衡,以極低的成本提供接近前沿(frontier)等級的智慧表現。這款模型專為需要高速度、低延遲以及高性價比的應用場景所設計,將為開發者帶來更高效、更實惠的開發體驗。
ServiceNow AI 發表最新研究「Apriel-H1」,聚焦於如何將大型推理模型(如具備強大 Chain-of-Thought 能力的模型)的推理能力,高效蒸餾至尺寸較小、運行成本更低的實用模型中。該研究指出了一個過去被忽視的「驚人關鍵」,能顯著提升小模型在複雜邏輯與數學推理任務上的表現,為企業級 AI 落地提供更具成本效益的解決方案。
Google DeepMind 宣布推出其最新一代旗艦模型 Gemini 3,並全面開放開發者進行建構。此版本在多模態理解、邏輯推理與生成速度上皆有顯著提升。開發者現在可以透過 Google AI Studio 和 Vertex AI 存取 Gemini 3 API,體驗更強大的上下文處理能力與更低的延遲,為下一代 AI 應用與 Agent 開發奠定基礎。
Google DeepMind 宣佈 Gemini 2.5 Flash-Lite 結束預覽階段,正式推出穩定版(GA)。這款主打高性價比的輕量級模型,在維持小體積與低成本的同時,依然提供極高的輸出品質。它完整繼承了 Gemini 2.5 家族的強大功能,包含 100 萬 token 的超長上下文視窗與多模態處理能力,非常適合開發者與企業用於需要大規模部署與快速響應的生產環境。
賓州大學華頓商學院教授 Ethan Mollick 釋出最新 AI 實用指南。他指出,目前主流模型各有擅場:Claude 3.5 Sonnet 適合寫作與程式,GPT-4o 語音與綜合能力強,Gemini 則以超大上下文見長。他強調,使用者應將 AI 視為「聰明但缺乏經驗的實習生」,透過持續對話與回饋來突破「不規則邊界(Jagged Frontier)」,才能真正發揮 AI 的生產力潛能。
Vercel 宣布其 AI Gateway 已正式支援 OpenAI 最新發布的 GPT-5、GPT-5-mini 和 GPT-5-nano 模型。開發者現在可以透過 Vercel 的統一 API 介面,輕鬆將這些具備更強推理與多模態能力的新世代模型整合至應用程式中。這不僅簡化了 API 管理,還能利用 Vercel AI Gateway 提供的快取、限流與監控功能,加速下一代 AI 應用的開發與部署。
Hugging Face 官方宣布迎來 OpenAI 的全新開源模型家族「GPT OSS」。這項合作打破了 OpenAI 長期以來以閉源為主的策略,將其強大的 GPT 技術以開源形式提供給全球開發者。社群現在可以直接在 Hugging Face 上下載、微調並部署這些模型,預計將對開源 AI 生態系產生深遠的影響。
Google DeepMind 宣布 Gemini 2.5 思考模型家族的最新更新。其中,具備強大推理能力的 Gemini 2.5 Pro 已達到穩定版(Stable)階段;主打快速高效的 Gemini 2.5 Flash 進入一般可用性(GA)階段;此外,官方還推出了全新的超輕量模型 Gemini 2.5 Flash-Lite 供開發者預覽,進一步擴展了其 AI 模型的應用場景與性價比選擇。
Google DeepMind 宣布擴展其 Gemini 2.5 模型家族。先前推出的 Gemini 2.5 Flash 與 Gemini 2.5 Pro 現已達到正式商用(GA)階段。同時,Google 還推出了全新的 Gemini 2.5 Flash-Lite,這是目前 Gemini 2.5 家族中速度最快、成本最低的模型,旨在為開發者提供極致的性價比與低延遲體驗。
Google DeepMind 宣布更新 Gemini 2.5 系列模型。備受開發者喜愛的 Gemini 2.5 Pro 將推出實驗性的「Deep Think」增強推理模式,大幅提升複雜問題的解決能力;同時,主打輕量高效的 Gemini 2.5 Flash 也獲得全新升級,帶來更強大的功能與效能表現。
Hugging Face 介紹了由普林斯頓大學等機構提出的 HELMET 基準測試,旨在解決現有長文本評估(如 Needle In A Haystack)過於單一的問題。HELMET 包含 7 大類、11 個真實應用數據集,涵蓋長文本問答、摘要、資訊檢索與程式碼生成等。測試結果顯示,許多宣稱擁有超長上下文的模型,在實際複雜任務中的有效性能會隨著長度增加而顯著衰退。
Sam Altman 宣傳了 ChatGPT 的「記憶(Memory)」功能更新,同時市場傳出 o3、o4-mini 即將推出,以及 GPT-4o 將升級為 GPT-4.1 的洩露消息。 xAI 正式推出 Grok 3 與 Grok 3 mini 的 API,Epoch AI 曾短暫證實其具備 o1 等級的推理能力。 社群方面,Qwen3 宣布延期推出,而 AI Engineer World's Fair 2025 也正展開熱烈徵稿。
阿布達比技術創新研究所(TII)正式發布 Falcon 3 系列開源模型,提供 1B、3B、7B 及 10B MoE 等多種參數規格。Falcon 3 在多項基準測試中表現優異,其 7B 版本在性能上甚至超越了 Llama 3.1 8B 與 Gemma 2 9B。此系列模型對硬體友善,極適合邊緣運算與本地部署,並已深度整合至 Hugging Face 生態系統。
Cohere For AI 發表全新開源多語言模型家族 Aya Expanse(包含 8B 與 32B 參數版本),支援 23 種語言。該模型透過創新的資料套利、合成資料生成與多語言偏好對齊技術,在多項基準測試中擊敗了 Llama 3.1、Gemma 2 等同級甚至更大規模的模型,為全球多語言 AI 研究樹立了新標竿。
Google 與 Hugging Face 宣布將 SynthID Text 技術整合至 Transformers 庫中。這項技術能在不影響文本生成品質的前提下,於 LLM 輸出的機率分佈中嵌入隱形浮水印。開發者現在可以輕鬆在自己的模型中啟用此功能,以識別和追蹤 AI 生成的文本,應對虛假訊息與版權爭議。
隨著 Qwen、DeepSeek、Yi 等中國開源模型在 Hugging Face 排行榜上名列前茅,中國 AI 勢力正加速全球擴張。這些模型憑藉強大的多語言能力、數學與程式碼推理性能,以及極高的性價比,成為全球開發者在 Llama 之外的重要選擇。本文總結了中國 AI 透過開源生態系打破地理限制、走向國際的關鍵策略與面臨的挑戰。
Meta 正式發布 Llama 3.1 系列,包含 8B、70B 及首款能與頂級閉源模型媲美的 405B 旗艦模型。此版本將上下文視窗大幅提升至 128k,並增強了多語言能力。Hugging Face 同步推出完整生態系支援,涵蓋 Transformers 整合、TGI 推論優化、TRL 微調以及 FP8 量化,降低 405B 的部署門檻。
阿布達比技術創新研究所(TII)推出全新開源模型 Falcon 2 11B,包含預訓練語言模型與視覺語言模型(VLM)。該模型在超過 5 兆(5000B)Token 的高質量數據上進行訓練,支援 11 種語言。其性能在同量級模型中表現亮眼,並採用 Apache 2.0 授權,對開源社群與開發者極具吸引力。
Meta 正式推出全新一代開源大型語言模型 Llama 3,首波釋出 8B 與 70B 兩種參數版本。此版本採用 128k 詞彙量的新分詞器、支援 8K 上下文長度,並在超過 15 兆 Token 的超大資料集上進行訓練,程式碼與推理能力皆有飛躍性提升。Hugging Face 生態系已在第一時間全面整合,支援 Llama 3 的部署、微調與推論,為開源 AI 社群注入強大動力。
隨著 AI 生成內容爆發,如何識別「AI 製造」成為關鍵。Hugging Face 發布的這篇指南深入探討了 AI 水印技術,涵蓋文字生成(如透過調整 Token 機率分佈的綠名單機制)與影像生成(如 Stable Signature 等隱形潛在空間水印)。文章不僅介紹了現有的開源工具,也客觀分析了水印技術在對抗剪裁、改寫等攻擊時的魯棒性限制與未來挑戰。
Google 正式推出全新開源模型家族 Gemma,包含 2B 與 7B 兩種參數大小,並提供預訓練與指令微調版本。 Gemma 採用與 Gemini 相同的技術與架構,在多項基準測試中表現優於同尺寸的 Llama 2 與 Mistral。 Hugging Face 已同步支援 Gemma,開發者可直接透過 Transformers、TGI、PEFT 等工具進行部署與微調。
2023 年是開源大語言模型(LLM)的黃金時代。從 Meta 發布 LLaMA 奠定基礎,到 Mistral 推出高效的 MoE 模型,開源社群在模型架構、量化技術(QLoRA)與對齊方法(DPO)上取得突破。Hugging Face 的 Open LLM Leaderboard 更成為推動這波開源浪潮的核心樞紐,縮短了開源與閉源模型之間的差距。
Mistral AI 發表全新混合專家(MoE)模型 Mixtral 8x7B,總參數 46.7B 但每次 token 僅啟用 12.9B,速度極快。其在多項基準測試中超越 Llama 2 70B 及 GPT-3.5,並支援 32k 脈絡長度。Hugging Face 已於 Transformers、TGI 及推理終端全面整合,並採 Apache 2.0 開源授權。
Meta 推出新一代開源大語言模型 Llama 2(包含 7B、13B、70B 參數版本)後,在 AI 社群引發連鎖反應。Replicate 在第一時間託管了這些模型並提供 API 服務。本文彙整了發布後 24 小時內,包含雲端部署、API 呼叫及社群生態的最新進展,展現開源 AI 領域的驚人迭代速度。
Meta 正式發布開源大型語言模型 Llama 2,包含 7B、13B 和 70B 三種參數規模,並允許商用。Hugging Face 與 Meta 深度合作,第一時間在 Hub 上架所有 Llama 2 模型,並全面支援 Transformers、TGI、PEFT 等工具。開發者可以直接在 Hugging Face 平台上進行 Llama 2 的推論、微調(Fine-tuning)與部署,並透過 Spaces 體驗 Chat 版本。
Replicate 發布了 2023 年 4 月的開源語言模型(LLM)彙整報告。文章介紹了當時快速崛起的開源模型,包括基於 LLaMA 微調的 Vicuna、首款可商用的 Dolly v2,以及 Stability AI 推出的 StableLM。讀者可以透過 Replicate 的雲端 API 輕鬆部署與測試這些模型,大幅降低了開發者使用開源大模型的門檻與硬體成本。
本文探討將基礎語言模型轉化為實用對話代理(如 ChatGPT)的核心要素。Hugging Face 指出,除了預訓練外,透過指令微調(SFT)與人類回饋強化學習(RLHF)來對齊「實用、誠實、無害」三大原則至關重要。此外,賦予代理使用外部工具(如搜尋、計算機)的能力,能大幅提升其回答的準確性與實用性。