Microsoft unveiled Adaptive Spec-driven Scoring for Evaluation and Regression Testing, an open-source framework for AI evaluations. The tool is intended to let developers create AI behavior tests using text descriptions. The provided excerpt does not detail supported models, scoring methods, installation steps, or example workflows.
Simon Willison highlights Chad Whitacre’s decision to leave tech and Open Source, framed not as a forum threat but as concrete action. Whitacre describes wanting to become “AI Amish” or “Internet Amish,” moving toward an offline, analog life closer to 1980 than 1780. A previous post about using Claude Code with Opus 4.5 shows how agentic AI felt intoxicating and unsettling enough to push him away from technological accelerationism.
SQLite added an AGENTS.md file aimed at people pointing coding agents at its codebase, not at its own internal development. The file says SQLite does not accept agentic code, though it will accept agentic bug reports with reproducible test cases. The project has also split AI-generated bug reports into a new SQLite Bug Forum, where D. Richard Hipp is responding with commits.
Daniel Stenberg says the curl security team is facing an unprecedented surge of credible, detailed AI-assisted vulnerability reports. Incoming reports are now 4-5 times higher than in 2024 and twice the 2025 rate, averaging more than one per day. The upside is that recent curl vulnerabilities have generally been LOW or MEDIUM severity, with the last HIGH CVE published in October 2023.
Datasette 1.0a30 has been released, featuring a new customizable "Jump to..." menu accessible via the "/" shortcut. The menu allows users to quickly filter and navigate to databases, tables, and debug options. Developers can extend this menu with custom items using the new jump_items_sql() plugin hook.
許多企業在採購 AI 時,往往盲目追求參數規模最大、最通用的前沿模型,卻忽略了「專業化」的威力。本文指出,透過針對特定領域或任務進行微調的專用模型,不僅在特定工作流中的表現能媲美甚至超越通用巨型模型,還能大幅降低推理成本與延遲。企業在做 AI 決策時,應將「任務專業化」視為核心評估變數,而非單純比較模型規模。
英國國民保健署(NHS)因「Project Glasswing」回報的 AI 安全漏洞,決定關閉其開源程式庫。對此,英國政府數位服務局(GDS)罕見公開介入,發布指引強調公共部門應「預設保持開源」,指出將程式碼私有化會增加成本並減少外部監督。專家指出,這代表英國政府內部對於開源與安全政策產生了嚴重的公開分歧。
本期《Open Artifacts》電子報彙整了近期極為熱鬧的開放模型生態。多款重量級旗艦模型接連登場,包含 Google 的 Gemma 4、DeepSeek V4、Kimi K2.6、MiMo 2.5 以及 GLM-5.1 等。文章除了盤點這些模型的發布外,也深入探討了 CAISI 針對最新模型所進行的 V4 安全與能力評估,呈現開源與開放權重模型在技術與安全合規上的最新進展。
IBM 發布全新開源多語言嵌入模型 Granite Embedding Multilingual R2。該模型採用寬鬆的 Apache 2.0 授權,支援高達 32K 的上下文長度。在參數小於 1 億(Sub-100M)的同量級模型中,它展現出最頂尖的資訊檢索品質,非常適合用於建構高效能且低資源消耗的 RAG(檢索增強生成)系統。
本文探討開源 AI 模型生態系的「複利效應」,特別聚焦於中國以 Qwen 和 DeepSeek 為代表的「開源優先」高參與度生態。開源模型透過社群的集體微調、工具鏈優化與應用開發,累積進步的速度已逐漸逼近甚至超越封閉模型。這種去中心化的協作模式不僅降低了技術門檻,更形成了一個自我強化的生態飛輪,對全球 AI 競爭格局產生深遠影響。
近期 AI 業界出現將「知識蒸餾(Distillation)」稱為「蒸餾攻擊(Distillation attacks)」的趨勢。 這反映了閉源模型廠商(如 OpenAI、Anthropic)面對開源模型透過合成數據快速追趕時的焦慮。 作者 Nathan Lambert 指出,將這種行之有年的機器學習技術與商業競爭行為「安全化(securitize)」,試圖將其塑造成惡意網路攻擊,是非常糟糕且誤導的術語,旨在為法律訴訟或技術封鎖鋪路。
Hugging Face 探討 AI 時代的網路安全,指出「隱晦安全」已無法應對現代威脅。文章強調開放模型與開源協作能讓全球研究人員共同審查漏洞、提升防禦彈性,並防止安全技術被少數巨頭壟斷。開放性才是建立安全、可信賴 AI 生態系的基石。
知名 AI 學者 Nathan Lambert 針對 2026 年年中的開源模型發展提出預測。他指出,開源與閉源模型之間的差距(Open-Closed Gap)正從「基礎預訓練能力」轉移到「推理期計算(Inference-time compute)」與「代理(Agent)可靠性」。雖然 Meta 的 Llama 4 等開源模型將持續逼近閉源旗艦,但閉源廠商憑藉龐大算力與專有強化學習(RL)架構,在複雜多步驟任務上仍將保持領先。
知名 AI 專家 Nathan Lambert 分享了近期四大專案:專注於對齊與開源模型的「ATOM Report」、系統化的「Post-Training(後訓練)」線上實戰課程、即將完稿的 AI 對齊專業書籍,以及持續進行的 LLM 評估與偏好微調研究。這些計畫旨在為開發者與研究人員填補後訓練技術的知識鴻溝。
知名 AI 譯評家 Nathan Lambert 撰文指出,當前開源 AI 生態高度依賴 Meta(如 Llama 系列)等單一巨頭的補貼,這存在極大的單點故障風險。隨著前沿模型訓練成本飆升至數億美元,單一新創或學術機構已無力負擔。因此,儘管「聯盟(Consortium)」通常伴隨著官僚與低效,但為了整合政府、科技企業與學術界的算力與資金,建立一個「開源模型聯盟」已是維持開源 AI 競爭力、對抗閉源寡頭壟斷的唯一且必然之路。
本文探討了 AI 領域中圍繞 Anthropic Claude 所建立的「安全神話」,以及輿論對開源權重(open-weight)模型安全性的過度恐慌。作者 Nathan Lambert 指出,這種將開源模型視為重大威脅的論調缺乏實質依據,往往只是閉源陣營或特定政策倡導者重複上演的「開源恐懼之舞」。他呼籲大眾與決策者應理性看待開源的實際風險與巨大價值,避免因不理性的恐懼而扼殺創新。
Hugging Face 宣布其開發的安全且高效的模型權重儲存格式 Safetensors 正式加入 PyTorch 基金會。此舉旨在提升該格式的社群治理與中立性,並進一步鞏固其作為機器學習生態系中安全儲存張量的業界標準。未來雙方將共同推動更安全、更快速的模型載入技術。
隨著 Google 推出 Gemma 4,業界再次聚焦於「如何定義開源模型的成功」。Nathan Lambert 指出,單純追求基準測試(Benchmark)的高分已無法保證模型的普及。開源模型的真正成功,取決於其開發者生態系的接納度、微調的易用性、硬體適配度以及實際應用場景的落地,而非僅僅是學術榜單上的排名。
Google DeepMind 正式發表全新開源模型 Gemma 4。官方宣稱其為「同等參數規模下最強大的開源模型」,在智慧表現上達到新高度。該系列模型特別針對進階推理與自主 Agent 工作流進行優化,為開發者提供更高效、更具性價比的開源 AI 選擇。
阿聯酋技術創新研究所(TII)在 Hugging Face 上發表了「Falcon Perception」模型。這標誌著著名的 Falcon 開源家族正式擴展至多模態與視覺感知領域。該模型旨在提升開源社群在視覺問答、圖像理解及多模態任務上的能力,延續了 TII 一貫的高效能與開源精神,為開發者提供強大的視覺感知工具。
第 20 期《Open Artifacts》開源週報帶來了多個全新組織與新型態開源模型的發布。 重點亮點包含 NVIDIA 的 Nemotron Super 系列、專注於印度語系的 Sarvam AI,以及 Cohere 推出的 Transcribe 語音轉寫相關模型。 這波釋出展示了開源生態系正朝向更多元、更具特定領域專業化(如多語言與語音)的方向快速演進。
Hugging Face 發布 2026 年春季開源報告,揭示開源 AI 生態的最新趨勢。報告指出,具備推理能力的開源模型(如 DeepSeek 與 Qwen 系列)已成為社群主流;同時,以 smolagents 為首的輕量級 Agent 框架與本機端(On-Device)小模型正快速普及。此外,開源多模態與影片生成技術的下載量也創下歷史新高,展現出開源社群強大的創新動能。
隨著語言模型走向工業化生產,開源模型正迎來全新轉型。本文深入分析開源生態在市場競爭、模型能力提升上的最新趨勢,並探討開發者與研究者如何應對閉源巨頭的壓力,以及在技術快速變遷下的集體困惑。這標誌著開源 AI 已從實驗室走向資本與算力密集的大規模產業化時代。
Hugging Face 發表開源機器人庫 LeRobot v0.5.0 重大更新。本次更新以「全面擴展(Scaling Every Dimension)」為核心,大幅提升了數據集規模、支援更多樣的模型架構(如 Diffusion Policy 與 ACT)、擴展了相容的實體硬體與模擬環境。這標誌著開源社群在具身智能(Embodied AI)領域邁出關鍵一步,降低了開發者進入實體機器人研究的門檻。
本文探討政策專家 Dean Ball 對於「Anthropic 訴 戰爭部(DoW)」一案的觀察。他指出,這場涉及國家安全與 AI 技術控制的法律戰,其判決與和解過程將釋放微妙的先例信號。這些信號不僅影響封閉原始碼巨頭,更會直接衝擊開源模型的生存空間,若政府以國安為由限制模型權重,將對整個開源生態帶來嚴重的監管效應。
Allen Institute for AI (AI2) 近期推出 OLMo Hybrid 模型,引發對未來 LLM 架構的廣泛討論。本文深入分析混合架構(如結合 Transformer 與狀態空間模型 SSM/Mamba)在提升效率與長文本處理上的潛力。同時,探討了開源社群在後訓練(Post-training)工具上的最新進展,指出開源生態正逐步縮小與閉源頂尖模型在對齊與強化學習上的差距。
Hugging Face 發表「Modular Diffusers」,旨在解決過去 Diffusers 管線過於單一、難以客製化的痛點。新架構將擴散模型(如 Stable Diffusion、Flux 等)的各個步驟與組件拆解為獨立、可重複使用的模組。開發者現在可以像堆積木一樣,輕鬆混合搭配不同的編碼器、去噪網路與排程器,極大地簡化了自定義圖像與視訊生成工作流的開發難度。
開源 AI 領域迎來震撼消息,主導本地端 LLM 推理的開源專案 GGML 與 llama.cpp 正式宣布加入 Hugging Face。此舉旨在為本地端與邊緣端 AI 技術提供長期且穩定的資源支持。雙方將深化 GGUF 格式與 Hugging Face 平台的整合,確保開源社群能更輕鬆地在消費級硬體上運行高效能模型,持續推動去中心化與隱私優先的 AI 發展。
Hugging Face 宣布與極速微調工具 Unsloth 合作,推出免費的 AI 模型訓練方案。使用者可以透過 Hugging Face Jobs 平台,直接在雲端免費運行 Unsloth 的高效微調任務。這項合作大幅降低了個人開發者與研究人員微調 Llama 3、Gemma 等開源大模型的門檻與成本。
本文探討開源與閉源 AI 模型之間的動態關係。開源模型(如 Llama、DeepSeek)常利用閉源模型的輸出進行「蒸餾」來快速追趕,但這也讓它們始終落後一步。儘管如此,開源模型憑藉著低成本、高客製化與強大的開發者生態,在實用普及度上依然能取得勝利。然而,要打破這種「永久追趕」的狀態,開源社群仍需在基礎架構創新與自主強化學習(RL)上取得突破。