Hugging Face 的 Text Generation Inference (TGI) 推出 Multi-LoRA 服務功能。開發者只需在 GPU 上部署一個基礎模型(如 Llama 3),就能動態載入並同時運行多達 30 個不同的 LoRA 微調適配器(Adapters)。這項技術大幅降低了多模型部署的 GPU 顯存與硬體成本,並透過優化的批處理技術確保低延遲,是 LLMOps 領域的重大優化。
Hugging Face 發表了專為文件視覺問答(DocVQA)設計的超大型開源數據集 Docmatix。該數據集規模比現有同類數據集大上百倍,包含 240 萬張文件圖片及 950 萬個高質量的問答對。Docmatix 的推出解決了多模態模型在處理複雜 PDF、報表等視覺文件時微調數據不足的痛點,將顯著提升開源視覺語言模型(VLM)的文件解析與問答能力。
Hugging Face 發表全新小語言模型家族 SmolLM,提供 135M、360M 和 1.7B 三種參數規格,專為本地端與行動裝置部署設計。該系列模型在高品質的教育與程式數據集(如 Cosmopedia v2 和 FineWeb-Edu)上進行訓練,效能超越同量級的 MobileLLM 和 Qwen2-0.5B。SmolLM 採 Apache 2.0 開源授權,並同步開源其訓練數據與配方,為邊緣運算與隱私優先的 AI 應用提供極佳選擇。
為了協助用戶上手全新發布的 Argilla 2.0,Argilla 團隊利用其開源合成數據生成框架 distilabel 打造了專屬技術支持機器人。他們將官方文件切片,透過 distilabel 驅動 LLM 自動生成高質量的「問題-答案」對,並進行演化與過濾。最後利用這些合成數據微調開源模型,在不依賴人工標註下,快速構建出能精準回答產品技術問題的 AI 助理。
本期 Replicate Intelligence 探討了從「以模型為中心」轉向「以資料為中心」的 AI 趨勢。重點介紹了如何進行高品質的資料整理(Data Curation)以及利用 AI 進行合成資料生成(Data Generation),這兩者是提升開源模型微調效果與推論品質的關鍵基石。
首屆 AI 數學奧林匹亞(AIMO)進步獎由 NuminaMath 奪得,其在私有測試集上取得 29/50 的佳績。該模型基於 DeepSeek-Math-Base 7B,採用獨特的兩階段微調策略:第一階段混合鏈式思考(CoT)與工具整合推理(TIR),第二階段則針對奧林匹亞級難題進行拒絕採樣微調。團隊已將包含 86 萬條數據的 NuminaMath 數據集與模型權重完全開源,為開源 AI 數學推理領域樹立了新里程碑。
Hugging Face 宣布與 KerasHub(前身為 KerasNLP 與 KerasCV)達成全新整合。開發者現在可以使用簡單的 API,直接在 Hugging Face Hub 上儲存與載入 KerasHub 模型。這項整合支援 Keras 3 的多後端特性,讓使用者能無縫在 JAX、PyTorch 或 TensorFlow 之間切換,大幅簡化了跨框架模型的部署與微調流程。
Hugging Face 正在 Hub 上實驗一項新功能,利用微軟開源的 Presidio 引擎自動偵測數據集中的個人識別資訊(PII)。此舉旨在防止敏感數據(如身分證號、信用卡、電子郵件等)意外洩露,提升開源 AI 社群的數據隱私與合規性。開發者將能更輕鬆地在分享或訓練模型前,識別並清理敏感資訊。
Hugging Face 發布技術指南,介紹如何將直接偏好最佳化(DPO)應用於視覺語言模型(VLM)。透過 TRL(Transformer Reinforcement Learning)庫,開發者可以輕鬆對 Idefics2 等多模態模型進行對齊訓練。此方法能有效減少 VLM 常見的「幻覺」問題,並顯著提升模型在視覺問答任務中的表現與人類偏好一致性。
Hugging Face 與 Google Cloud 合作,正式將 TPU(如 TPU v5e)引入其平台。用戶現在可以在 Hugging Face Spaces 和 Inference Endpoints 中直接選擇 TPU 作為硬體加速器。這項整合為部署大型語言模型和擴散模型提供了極具性價比的 GPU 替代方案,大幅降低了雲端推理的成本與門檻。
法國 Banque des Territoires(CDC 集團旗下)與技術夥伴 Polyconseil 及 Hugging Face 合作,針對其重大環境與生態轉型計畫推出「主權數據解決方案」。該方案旨在確保敏感的國土與環境數據在處理時符合歐洲嚴格的隱私法規(如 GDPR)。透過 Hugging Face 的開源模型生態系統與本地化部署,該計畫成功在不依賴非歐盟雲端服務的前提下,利用先進 AI 進行大規模文件分析與決策輔助,為公部門的 AI 主權化樹立了典範。
Hugging Face 宣布為其平台上的 15 萬多個資料集推出全新的搜尋與篩選功能。用戶現在可以透過任務類型、授權條款(如商業用途)、資料集大小(列數或檔案大小)以及語言等多重維度進行精準篩選。這項更新大幅優化了開發者與研究人員尋找特定機器學習訓練數據的效率。
Vercel 官方深入解析 Vercel Functions 的核心架構與應用場景。文章探討了 Serverless 與 Edge 兩種運行時(Runtime)的差異、如何解決冷啟動問題,並介紹了適用於長時間執行任務的背景函式(Background Functions),是現代 Web 開發者優化後端邏輯與降低延遲的必讀指南。
Vercel 宣布將 Vercel Functions 的串流(Streaming)功能改為「框架無關」(Framework-agnostic)。過去串流多與 Next.js 深度整合,如今不論是使用 Remix、Nuxt、SvelteKit 還是原生 Web API,開發者都能直接利用標準的 ReadableStream 進行資料串流。這對於需要即時生成 AI 回覆(如 LLM 輸出)的開發者來說,提供了極大的框架選擇彈性。
本文介紹在 Intel Gaudi 2 加速器上運行蛋白質語言模型 ProtST 的優化方案。ProtST 結合了蛋白質序列與生物醫學文本,是生醫領域的重要模型。透過 Hugging Face 的 Optimum Habana 整合,開發者與研究人員能輕鬆在 Gaudi 2 上實現高效能的蛋白質任務處理,提供 NVIDIA 之外的高性價比硬體選擇。
Hugging Face 發表全新的 Transformers Code Agent,透過讓 AI 撰寫並執行 Python 程式碼來解決複雜任務。該方法在評估通用 AI 助理能力的 GAIA 基準測試上取得了 SOTA(當前最佳)表現,證明了「程式碼執行」作為 Agent 推理工具,遠比傳統的 JSON 工具調用(Tool Calling)更具彈性與效率。此專案已完全開源,為開發者提供構建高效能 Agent 的新選擇。
Replicate 發布第 6 期技術情報,重點介紹 Google 全新開源的 Gemma 2 模型(包含 9B 與 27B 版本)已可在平台運行,其性能逼近更大參數的模型。同時,本期也更新了語言模型排行榜,並針對熱門的 Stable Diffusion 3 提供具體的提示詞與參數優化指南,幫助創作者解決人體畸變等常見生成問題。
Google 聯合 Hugging Face 推出新一代開源模型 Gemma 2,提供 9B 與 27B 兩種參數規格。27B 版本在同量級中表現極為優異,甚至能與體積兩倍大的模型競爭;9B 版本也超越了 Llama 3 8B。此系列模型採用知識蒸餾與混合注意力機制,並已在 Hugging Face 生態系中獲得全面支援。
智慧財產權平台 XLSCOUT 在 Hugging Face 專家團隊支援下,推出專為專利與 IP 領域設計的嵌入模型 ParaEmbed 2.0。該模型針對專利文本特有的複雜法律與技術術語進行優化,能顯著提升專利相似度檢索與相關 RAG 應用的精準度。這項合作展示了如何透過領域特定(Domain-specific)的微調,解決通用模型在專業領域表現不佳的痛點。
本期 Hugging Face 倫理與社會通訊聚焦於「數據品質」。文章指出,高質量的數據不僅能提升 AI 模型的技術表現,更是減少偏見、避免幻覺與實踐倫理 AI 的基石。內容探討了數據標註、多樣性、倫理採購以及如何透過開源社群協作來建立更具代表性且安全的數據集。
微軟推出的 Florence-2 是一款強大且輕量的視覺語言模型(VLM),僅有 232M 與 770M 兩種參數版本,卻能高效處理 OCR、目標檢測、圖像描述等多種任務。Hugging Face 官方部落格發布了這篇實用指南,詳細教學如何使用 Hugging Face 的 transformers 與 peft 函式庫,在自訂資料集上對 Florence-2 進行微調(Fine-tuning),並利用 LoRA 技術降低顯示記憶體需求,非常適合想在邊緣裝置或有限資源下部署視覺 AI 的開發者。
Replicate 發布最新技術情報,重點介紹在平台上架的超強開源程式碼模型 DeepSeek-Coder-V2,其性能在多項指標上超越 GPT-4 Turbo。此外,文章探討了 AI 搜尋技術的最新突破,以及 Replicate 如何利用自身平台技術構建 Discord 社群專用的自動化客服支援機器人,展示了開源 AI 在實際開發與社群營運中的強大應用潛力。
Hugging Face 發表「Data Is Better Together (DIBT)」計劃的階段性回顧與展望。該計劃旨在透過社群協作,解決高品質開源對齊數據不足的痛點。過去一年中,DIBT 透過 Argilla 等工具成功匯聚全球開發者,共同標註與生成了多個高質量的偏好與提示詞數據集。未來,該計劃將進一步擴展任務類型,推動更具包容性與去中心化的 AI 數據生態。
知名簡報平台 Prezi 為了在產品中導入多模態 AI 功能,與 Hugging Face 展開深度合作。透過利用 Hugging Face Hub 的開源模型生態系,並加入「專家支持計畫(Expert Support Program)」,Prezi 獲得了 HF 頂尖工程師的直接技術指導。這項合作不僅解決了模型微調與推理優化的技術瓶頸,更大幅縮短了其機器學習路線圖的時程,實現高效的多模態功能落地。
Vercel 正式發布 AI SDK 3.2,本次更新帶來兩大核心功能:首先是全新的 `embed` 與 `embedMany` API,讓開發者能輕鬆生成向量嵌入以支援 RAG 應用;其次是支援 `maxSteps` 參數,實現自動化的多步驟工具調用(Multi-step Tool Calling),讓 AI 能在單次呼叫中連續執行多個工具,極大提升了建構 AI Agent 的效率與靈活性。
傳統的 HumanEval 程式碼評測基準已逐漸飽和且過於簡單。Hugging Face 與研究團隊合作推出新一代基準 BigCodeBench,包含 1,140 個實用編程任務,涵蓋 139 個第三方 Python 函式庫。此基準旨在考驗 LLM 在複雜、多步驟及真實開發場景下的程式碼生成與指令遵循能力,成為評估 Code LLM 的新一代標準。
Stable Diffusion 3 (SD3) 引入了全新的架構與三種文字編碼器。本指南介紹如何透過自然語言描述(而非標籤堆疊)來獲得最佳圖像、如何精準渲染文字,以及如何調整 CFG 比例(建議 4.5-6.0)與步數等關鍵參數,幫助開發者與創作者在 Replicate 上發揮 SD3 的最大潛力。
本教學指導搭載 Apple Silicon(M 系列晶片)Mac 的使用者,如何利用 PyTorch 的 MPS(Metal Performance Shaders)硬體加速技術,在本地端部署並運行 Stable Diffusion 3 圖像生成模型。這讓開發者與創作者無需依賴雲端 API,即可在個人電腦上進行高效、隱私且免費的本地 AI 繪圖。
Replicate 宣布支援用戶部署自定義版本的 Stable Diffusion 3 (SD3)。開發者可以使用開源工具 Cog 將微調後的 SD3 模型、自定義權重(如 LoRA)打包,並上傳至 Replicate 平台。部署完成後,即可透過直觀的網頁介面進行測試,或利用生產級的 API 進行大規模圖像生成,大幅降低了雲端 GPU 部署、自動擴展與維護的門檻,非常適合新創團隊與獨立開發者快速將 AI 應用落地。
Replicate 發表最新技術週報,重點包括:1. 介紹如何透過稀疏自編碼器(SAE)在 GPT 模型中定位與提取特定概念;2. 展示利用瀏覽器進行低延遲、隱私安全的即時語音轉文字技術;3. 宣布 Replicate 平台即將迎來 NVIDIA H100 GPU,大幅提升開源模型推理與微調的速度。