首屆 AI 數學奧林匹亞(AIMO)進步獎由 NuminaMath 奪得,其在私有測試集上取得 29/50 的佳績。該模型基於 DeepSeek-Math-Base 7B,採用獨特的兩階段微調策略:第一階段混合鏈式思考(CoT)與工具整合推理(TIR),第二階段則針對奧林匹亞級難題進行拒絕採樣微調。團隊已將包含 86 萬條數據的 NuminaMath 數據集與模型權重完全開源,為開源 AI 數學推理領域樹立了新里程碑。
本文介紹在 Intel Gaudi 2 加速器上運行蛋白質語言模型 ProtST 的優化方案。ProtST 結合了蛋白質序列與生物醫學文本,是生醫領域的重要模型。透過 Hugging Face 的 Optimum Habana 整合,開發者與研究人員能輕鬆在 Gaudi 2 上實現高效能的蛋白質任務處理,提供 NVIDIA 之外的高性價比硬體選擇。
Replicate 發布第 6 期技術情報,重點介紹 Google 全新開源的 Gemma 2 模型(包含 9B 與 27B 版本)已可在平台運行,其性能逼近更大參數的模型。同時,本期也更新了語言模型排行榜,並針對熱門的 Stable Diffusion 3 提供具體的提示詞與參數優化指南,幫助創作者解決人體畸變等常見生成問題。
Replicate 發布了簡易教學,指導使用者如何在本地 GPU 設備上透過 ComfyUI 運行最新發布的 Stable Diffusion 3 (SD3)。讀者只需在終端機複製並貼上幾行指令,即可快速完成環境部署,開始體驗 SD3 的本地圖像生成能力。這對於想要避開雲端限制、進行本地客製化創作的設計師與開發者非常實用。
Stability AI 的最新文字生成圖像模型 Stable Diffusion 3 已正式上架雲端託管平台 Replicate。此版本模型在圖像生成品質、文字排版精準度、複雜提示詞理解能力以及資源運行效率上,皆比前代有顯著的提升。開發者現在可以透過 Replicate 提供的雲端 API,僅需編寫一行程式碼,就能輕鬆將其整合至應用程式中。
本期 Replicate Intelligence 彙整了三大看點:首先是結合地方特色的微調模型「Garden State Llama」;其次是社群大推、由多位專家撰寫的「實用 LLM 應用指南(Applied LLMs Guide)」,系統化整理了落地心法;最後探討了如何利用 Replicate 實現極速的即時影像生成。
Hugging Face 宣布與 Artificial Analysis 合作推出「文字生成圖片排行榜與競技場」(Text to Image Leaderboard & Arena)。該平台結合了類似 LMSYS 的人類盲測對決(Arena Elo 評分)以及客觀的效能指標(如生成速度與成本)。這為開發者與創作者提供了一個透明、標準化的基準,用以評估與比較市面上主流的開源與閉源圖像生成模型。
Hugging Face 宣布在 Intel Gaudi 晶片上支援「輔助生成」(Assisted Generation,即投機解碼)。此技術透過小型草稿模型預測 Token,再由大型目標模型進行並行驗證,能顯著降低延遲並提高吞吐量。這項更新整合至 Optimum Habana 庫中,讓開發者能在 Gaudi 硬體上更高效地部署 LLM。
本期 Replicate Intelligence 彙整了三大 AI 前沿進展:首先是 ByteDance 開源的 Hyper-SD 技術,實現了毫秒級的超快速圖像生成;其次是探討如 DIAMOND 等利用擴散模型構建的「世界模擬器」,展示了 AI 在虛擬環境模擬與強化學習中的潛力;最後深入分析了 AI 資料集複雜度,探討在數據漸趨飽和的當下,如何透過優化數據質量與結構來提升模型訓練效率。
Vercel 舉辦年度 Ship 2024 大會,釋出多項重量級更新。其中 Next.js 15 RC 率先支援 React 19 與全新快取機制;Vercel AI SDK 3.1 大幅簡化了 AI 應用的開發流程,支援強大的 Tool Calling 與 Agents 架構;此外,全新升級的 Vercel Toolbar 與 Web 應用程式防火牆(WAF)也同步亮相,旨在為開發者提供更高效、安全且具備 AI 能力的現代 Web 開發平台。
阿布達比技術創新研究所(TII)推出全新開源模型 Falcon 2 11B,包含預訓練語言模型與視覺語言模型(VLM)。該模型在超過 5 兆(5000B)Token 的高質量數據上進行訓練,支援 11 種語言。其性能在同量級模型中表現亮眼,並採用 Apache 2.0 授權,對開源社群與開發者極具吸引力。
Hugging Face 宣布推出「Spaces Dev Mode(開發者模式)」,解決過去開發 Spaces 需頻繁 Git push 的痛點。新模式支援 SSH 連線與本地 VS Code 整合,程式碼變更可即時同步並熱重載,大幅縮短 AI 應用的開發與除錯週期,提供更流暢的雲端開發體驗。
Google 發表全新開源視覺語言模型 PaliGemma,結合了 SigLIP 視覺編碼器與 Gemma-2B 語言模型。PaliGemma 具備強大的圖像描述、視覺問答(VQA)、物件偵測與 OCR 能力,並提供多種解析度版本。該模型已深度整合至 Hugging Face 生態系,非常適合開發者進行特定下游任務的微調。
Snowflake 推出全新開源企業級大語言模型 Arctic,採用 MoE(混合專家)架構。Replicate 迅速跟進,提供託管 API 服務。開發者現在無需自行配置昂貴的 GPU 硬體,只需透過 Replicate 的 API 或 SDK,即可用極低的成本與簡單的程式碼,在雲端部署並運行這款強大的開源模型。
Hugging Face 發表通用型代理人 JAT(Jack of All Trades),採用統一的 Transformer 架構,在 Atari、BabyAI、Meta-World 等多種強化學習環境與文字任務上進行聯合訓練。此研究展示了單一模型如何同時掌握多種不同領域的技能,並開源了數據集與模型權重,推動具身智能發展。
Hugging Face 與開源密碼學公司 Zama 合作,介紹如何在 Hugging Face Endpoints 上部署全同態加密(FHE)模型。透過 FHE 技術,用戶的敏感數據在傳輸與計算過程中皆保持加密狀態,雲端伺服器可在不解密的情況下完成推理。此方案為醫療、金融等高隱私需求行業提供了一種安全使用雲端 AI 算力的新途徑。
Hugging Face 發布視覺語言模型(VLM)科普指南,詳解其結合圖像編碼器與文字解碼器的架構設計。文章涵蓋了從多模態預訓練到指令微調的完整訓練流程,並介紹了 LLaVA、Idefics 等主流開源模型。此外,也提供了如何使用 Hugging Face transformers 庫進行推理的實用程式碼範例,是理解多模態 AI 的必讀教材。
SetFit 是一款高效的少樣本文字分類框架。本文介紹如何結合 Hugging Face Optimum Intel,在 Intel Xeon 處理器上進行硬體級推論加速。透過 OpenVINO 等技術,開發者無需 GPU 即可在 CPU 上實現極低延遲與高吞吐量的 NLP 模型部署。
Pollen-Vision 是一個專為機器人設計的開源視覺庫,旨在簡化 Zero-Shot(零樣本)視覺模型(如 OWL-ViT、SAM 等)的整合。它提供統一的 API,讓機器人無需重新訓練即可透過自然語言或點擊來識別與定位物體。此工具能顯著降低機器人視覺開發的門檻,加速具身智能(Embodied AI)的應用落地。
Hugging Face 與 Lighthouz AI 合作推出「Chatbot Guardrails Arena」,這是一個專為評估大語言模型(LLM)安全防護網(Guardrails)而設計的開源社群平台。該平台旨在測試各大模型與防護系統在面對惡意提示、越獄攻擊及敏感話題時的防禦能力。透過標準化的基準測試,開發者可以直觀地比較不同防護方案的優劣,構建更安全可靠的 AI 應用。
Hugging Face 發布了當時最大的開源合成數據集 Cosmopedia,內含 250 億 Token。該項目利用 Mixtral-8x7B 模型,根據精心設計的提示詞與主題生成教科書、部落格和教學等多元內容。實驗證明,使用此合成數據預訓練的 1.8B 模型(Cosmo-1.8B)在多項基準測試中超越了同量級的知名模型,為 LLM 預訓練提供了全新的合成數據生成範式。
知名 AI 繪圖平台 Leonardo.ai 分享其技術架構,透露如何透過 Next.js 與 Vercel 應對每日 450 萬張圖像生成的龐大流量。藉由 Vercel 的邊緣網路與 Serverless 部署,他們成功降低了全球使用者的載入延遲,並在極高流量下維持優異的網站效能與使用者體驗。
Vercel 推出 AI SDK 3.0,核心亮點為「Generative UI」支援。此版本突破了傳統 AI 僅能輸出文字或 JSON 的限制,開發者現在可以讓 LLM 根據上下文,直接動態決定並串流渲染 React 伺服器元件(RSC),如天氣圖表、機票卡片等,大幅提升 AI 應用的互動體驗與開發效率。
由 Hugging Face 與 ServiceNow 主導的 BigCode 社群,聯合 NVIDIA 正式發布了新一代開源程式碼大語言模型 StarCoder2。該系列提供 3B、7B 和 15B 三種參數版本,並同步推出全新升級的 The Stack v2 資料集。StarCoder2 支援超過 600 種程式語言,並在程式碼生成、補全與修復等任務上展現出同量級模型中的頂尖性能,持續推動負責任且開放的 AI 開發。
Hugging Face 發表全新語音模型評測平台「TTS Arena」。該平台借鑑了 LMSYS Chatbot Arena 的群眾外包盲測機制,讓使用者聆聽兩段由不同匿名 TTS 模型生成的語音並進行投票。透過 Elo 評分系統,TTS Arena 旨在解決傳統客觀指標無法準確反映人類聽覺偏好的痛點,建立一個客觀且動態的語音合成模型排行榜。
隨著 AI 生成內容爆發,如何識別「AI 製造」成為關鍵。Hugging Face 發布的這篇指南深入探討了 AI 水印技術,涵蓋文字生成(如透過調整 Token 機率分佈的綠名單機制)與影像生成(如 Stable Signature 等隱形潛在空間水印)。文章不僅介紹了現有的開源工具,也客觀分析了水印技術在對抗剪裁、改寫等攻擊時的魯棒性限制與未來挑戰。
Vercel 宣布在整合市場中推出全新的「AI Integrations」,旨在簡化開發者將 AI 模型與服務導入 Web 應用的流程。開發者現在可以一鍵將 OpenAI、Replicate、Cohere 和 Pinecone 等熱門服務連接至 Vercel 專案,系統會自動配置環境變數。搭配 Vercel AI SDK,開發者能以極快的速度構建、部署並擴展 AI 驅動的應用程式。
Hugging Face 宣布在其 transformers 函式庫中整合 PatchTST 模型。該模型採用「補丁(Patching)」技術保留局部語義並降低計算複雜度,並結合「通道獨立」處理多變量數據。開發者現在可以透過熟悉的 Hugging Face API 輕鬆進行高效的時間序列預測與微調。
本文介紹如何使用 Hugging Face 的 Optimum Intel 工具套件,在 Intel Xeon 伺服器處理器上優化 StarCoder 模型。透過引進 INT8 (Q8) 與 INT4 (Q4) 的權重優化量化技術,能有效降低記憶體頻寬瓶頸。此外,結合投機解碼(Speculative Decoding)技術,利用小型草稿模型預測 Token 並由主模型驗證,在 CPU 上實現了顯著的推理加速,為企業在非 GPU 環境部署程式碼助理提供高效方案。
Hugging Face 發布技術指南,詳細說明如何利用 W2V2-BERT 進行低資源語言的自動語音辨識(ASR)微調。W2V2-BERT 結合了 Wav2Vec 2.0 與 BERT 的優勢,特別適合訓練樣本稀缺的語言。本教學涵蓋了從數據準備、特徵提取、CTC 模型配置到使用 Trainer API 進行訓練與評估的完整實作流程。