AI 模型託管平台 Replicate 宣布支援 OpenAI 的最新模型,包含 GPT-4.1、GPT-4o 及 o 系列推理模型。這項更新讓開發者能在同一個平台與 API 工作流中,無縫整合開源模型(如 Llama)與 OpenAI 的商業模型,大幅簡化了多模型應用的開發流程與帳單管理。
沃頓商學院教授 Ethan Mollick 指出,AI 具備極強的說服力,能根據用戶的性格特質(如大五人格)動態調整對話風格。雖然 AI 常因「迎合用戶(Sycophancy)」而飽受批評,但這種特質也揭示了個性化說服的強大力量。理解這一機制不僅能幫助我們防範 AI 的潛在操縱,也能將其應用於教育與行為引導等正面領域。
OpenAI 正式發表新一代推理模型 o3 與 o4-mini,強調透過 10 倍強化學習(RL)算力提升推理效率。o4-mini 不僅價格更便宜,在多項指標、視覺與工具調用能力上皆有顯著進步。此外,OpenAI 還驚喜推出了完全開源的終端機 AI 工具 Codex CLI,直接對標 Anthropic 的 Claude Code。
Hugging Face 介紹了由普林斯頓大學等機構提出的 HELMET 基準測試,旨在解決現有長文本評估(如 Needle In A Haystack)過於單一的問題。HELMET 包含 7 大類、11 個真實應用數據集,涵蓋長文本問答、摘要、資訊檢索與程式碼生成等。測試結果顯示,許多宣稱擁有超長上下文的模型,在實際複雜任務中的有效性能會隨著長度增加而顯著衰退。
OpenAI 正式發表全新主力模型 GPT 4.1,定位為兼顧效能與成本的「工作馬(Workhorse)」。本次更新同步推出 MRCR 與 GraphWalks 兩項全新基準測試,並釋出官方 Prompt 指南與 Cookbook。此外,社群(如 Reddit 與 Discord)也熱烈討論 GLM-4 強化學習模型與 DeepSeek 的開源貢獻。
Sam Altman 宣傳了 ChatGPT 的「記憶(Memory)」功能更新,同時市場傳出 o3、o4-mini 即將推出,以及 GPT-4o 將升級為 GPT-4.1 的洩露消息。 xAI 正式推出 Grok 3 與 Grok 3 mini 的 API,Epoch AI 曾短暫證實其具備 o1 等級的推理能力。 社群方面,Qwen3 宣布延期推出,而 AI Engineer World's Fair 2025 也正展開熱烈徵稿。
Hugging Face 推出全新基準測試「DABStep」,旨在評估 AI 數據代理(Data Agent)執行多步驟推理的能力。DABStep 模擬了真實世界的複雜數據分析場景,要求 AI 規劃步驟、撰寫並執行程式碼、處理多種數據格式,並進行錯誤修正。此基準測試為開發更實用、更具規劃能力的數據分析 AI 助手提供了客觀的評估標準。
Hugging Face 旗下的輕量級 Agent 開源庫 smolagents 迎來重大更新,正式支援視覺語言模型(VLM)。開發者現在可以讓 Agent 接收並處理影像輸入,適用於網頁視覺導航、圖表分析及多模態任務。此更新大幅擴展了程式碼 Agent(Code Agent)的應用場景,使其能「看見」並理解真實世界的視覺資訊。
Hugging Face 發表輕量級 AI Agent 框架「smolagents」,核心概念為「Code Agents」。與傳統輸出 JSON 的 Agent 不同,它讓 LLM 直接生成 Python 程式碼來執行複雜任務,大幅提升表達力與靈活性。該框架程式碼極簡(約千行),並內置安全的 Python 執行沙箱,支援多種主流 LLM 供應商。
Hugging Face 宣布推出針對阿拉伯語大語言模型(LLM)的全新評估基準「AraGen」及其排行榜。該基準採用創新的「3C3H」評估框架,從文化(Culture)、語境(Context)、能力(Capability)以及實用(Helpfulness)、誠實(Honesty)、無害(Harmlessness)六大維度進行評估。此舉旨在解決過去阿拉伯語評估過度依賴英文翻譯數據集、忽略在地文化與語言特性的問題,為多語言 AI 評估樹立新標竿。
本文介紹了首屆多語言大型語言模型(LLM)辯論賽。傳統的靜態評估方法(如多選題)已難以衡量模型的深層推理與說服力,因此研究人員設計了讓模型針對特定議題進行多輪多語言辯論的機制。透過這種動態對抗,不僅能更精準地評估模型在非英語環境下的邏輯一致性,也為 LLM 的安全性和對齊(Alignment)提供了全新的評估維度。
Hugging Face 與 AI 評估新創公司 Atla 合作推出「Judge Arena」基準測試。該項目旨在解決「LLM 作為裁判(LLM-as-a-judge)」時常見的偏見與失真問題,透過與人類專家評分進行對齊,系統化評估各家大模型在擔任裁判時的表現,為 AI 評估自動化提供更具公信力的參考標準。
非營利組織 Digital Green 為了向農民提供精確的農業建議,開發了基於 RAG 的問答系統。透過 Hugging Face 專家支援服務,他們導入了「LLM-as-a-Judge」自動化評估框架。此方案不僅能有效衡量回答的真實性與相關性,還透過開源模型替代昂貴的專有模型,在維持高評估準確度的同時大幅降低了營運成本。
Vercel 提出「評估驅動開發(EDD)」概念,解決 AI 輸出不確定性帶來的測試難題。 EDD 類似於軟體工程的測試驅動開發(TDD),強調在調整提示詞或模型前先建立評估數據集。 透過自動化評估(如 LLM-as-a-judge),開發者能更具信心且快速地優化 AI 產品,避免改動導致效能倒退。
本文介紹了 Hugging Face 提出的 LAVE(LLM 輔助 VQA 評估)方法,並在巨型文檔問答資料集 Docmatix 上進行測試。傳統評估指標(如 ANLS)因過於嚴格而不利於 Zero-shot 模型,而 LAVE 利用 LLM 作為裁判,能更公正地評估模型。結果顯示,雖然強大 LLM 的 Zero-shot 能力顯著,但在特定文檔理解任務中,微調(Fine-tuning)依然是提升中小型模型性能的關鍵。
Hugging Face 發表全新的 Transformers Code Agent,透過讓 AI 撰寫並執行 Python 程式碼來解決複雜任務。該方法在評估通用 AI 助理能力的 GAIA 基準測試上取得了 SOTA(當前最佳)表現,證明了「程式碼執行」作為 Agent 推理工具,遠比傳統的 JSON 工具調用(Tool Calling)更具彈性與效率。此專案已完全開源,為開發者提供構建高效能 Agent 的新選擇。
傳統的 HumanEval 程式碼評測基準已逐漸飽和且過於簡單。Hugging Face 與研究團隊合作推出新一代基準 BigCodeBench,包含 1,140 個實用編程任務,涵蓋 139 個第三方 Python 函式庫。此基準旨在考驗 LLM 在複雜、多步驟及真實開發場景下的程式碼生成與指令遵循能力,成為評估 Code LLM 的新一代標準。
Replicate 發表最新技術週報,重點包括:1. 介紹如何透過稀疏自編碼器(SAE)在 GPT 模型中定位與提取特定概念;2. 展示利用瀏覽器進行低延遲、隱私安全的即時語音轉文字技術;3. 宣布 Replicate 平台即將迎來 NVIDIA H100 GPU,大幅提升開源模型推理與微調的速度。
Hugging Face 與 Open Life Science AI 等機構合作推出「Open Medical-LLM Leaderboard」。該排行榜整合了 MedQA、MedMCQA、PubMedQA 及 MMLU 醫學子集等基準測試,旨在客觀評估 LLM 在醫療與臨床任務上的表現。這為醫療領域的 AI 研究人員與開發者提供了一個公開、標準化且易於比較的評估平台,有助於推動安全且精確的醫療 AI 發展。
Hugging Face 宣布上線 LiveCodeBench 排行榜,旨在解決傳統程式碼評估基準(如 HumanEval)容易遭受數據污染的問題。LiveCodeBench 透過持續收集 LeetCode、AtCoder 等平台的全新編程競賽題目,確保模型在未曾接觸過的數據上進行測試。該基準不僅評估程式碼生成,還涵蓋程式碼修復、測試案例生成及執行等多維度能力,為 Code LLM 提供更客觀、動態的實力排名。
Hugging Face 發表全新基準測試「ConTextual」並上線排行榜。該基準專注於評估多模態大模型(MLLM)在處理「富含文本的圖像」(如圖表、資訊圖表、街景招牌等)時的圖文聯合推理能力。這項測試超越了單純的 OCR 文字識別,更考驗模型結合視覺上下文與文本進行深度推理的實力,為評估當前頂尖多模態模型提供了更貼近真實應用場景的標準。
Hugging Face 聯合 AI 安全新創 Haize Lab 推出「Red-Teaming Resistance Leaderboard」(紅隊對抗排行榜)。該榜單旨在評估開源與商業大語言模型(LLM)在面對惡意越獄(Jailbreak)與對抗性攻擊時的防禦能力。透過自動化紅隊測試工具,量化模型在安全對齊上的真實強度,為開發者提供更具實戰價值的安全參考指標。
Hugging Face 推出全新的 NPHardEval 排行榜,旨在透過計算複雜度理論(如 P、NP-Complete、NP-Hard 問題)來嚴格評估大型語言模型(LLM)的邏輯推理與規劃能力。為了解決傳統基準測試容易因訓練數據污染而失效的問題,NPHardEval 採用動態更新機制,定期生成全新測驗。這項工具能幫助研究人員更準確地衡量模型在面對複雜優化問題時的真實推理極限。
Hugging Face 與 AI 評測新創 Patronus AI 合作,推出全新的「企業情境排行榜」(Enterprise Scenarios Leaderboard)。此排行榜旨在解決傳統學術基準(如 MMLU)與實際企業應用脫節的問題。評測涵蓋金融分析(如 SEC 申報文件)、法律合約理解、客戶服務以及隱私資訊(PII)防範等真實場景,為企業選擇最適合的 LLM 提供客觀的實戰數據參考。
Hugging Face 推出全新的「幻覺排行榜」(Hallucinations Leaderboard),這是一項旨在量化評估大型語言模型(LLM)幻覺程度的開源計畫。該排行榜主要評估模型在處理檢索增強生成(RAG)和文本摘要等任務時,產生不實資訊的機率。透過提供公開透明的評測標準,幫助開發者在建構應用時選擇最不易出錯、最可靠的模型。
Hugging Face 與學術團隊合作推出了全新的「AI Secure LLM 安全排行榜」(基於 DecodingTrust 評估框架)。該排行榜旨在填補現有 LLM 評測偏重「能力」而忽略「安全」的空白,從毒性、刻板印象偏見、對抗強健性、隱私保護及機器倫理等 8 大安全維度,對主流開源與閉源模型進行系統性評測,為開發者提供更全面的模型安全選擇依據。
隨著 RLHF 成為微調大模型的關鍵,高昂的人工標記成本成為瓶頸。研究顯示,基座模型(如 GPT-4)在許多文本分類與偏好標記任務上,已能達到甚至超越普通群眾外包人員的準確度,且成本僅為百分之一。然而,AI 標記仍存在自我偏好、字數偏見等系統性誤差,未來將走向 AI 輔助與人類協同的混合模式。
Replicate 推出新工具 AutoCog,旨在簡化機器學習模型的打包流程。使用者只需提供含有模型程式碼的目錄,AutoCog 就能利用 GPT-4 自動編寫並修正 predict.py 和 cog.yaml。它會透過「執行、報錯、修正」的循環,直到模型能順利執行預測,大幅降低將模型部署至 Replicate 或 Docker 容器的門檻。
Hugging Face 與 AWS 合作,透過 optimum-neuron 工具套件,簡化了在 AWS Inferentia2 (Inf2) 實例上部署 Transformers 模型的流程。開發者現在可以輕鬆將 PyTorch 模型編譯並運行於專為深度學習推理設計的 Inf2 晶片上。這項整合不僅大幅降低了雲端推理成本,還顯著提升了模型吞吐量並降低延遲。
本文探討將基礎語言模型轉化為實用對話代理(如 ChatGPT)的核心要素。Hugging Face 指出,除了預訓練外,透過指令微調(SFT)與人類回饋強化學習(RLHF)來對齊「實用、誠實、無害」三大原則至關重要。此外,賦予代理使用外部工具(如搜尋、計算機)的能力,能大幅提升其回答的準確性與實用性。