Hugging Face 推出統一的工具調用(Tool Use)標準,解決了過去不同開源模型工具格式不一的痛點。現在開發者只需定義標準 Python 函數,即可透過 `apply_chat_template` 自動轉換並傳遞給 Llama 3.1、Mistral 等支援的模型。此更新全面整合至 `transformers`、`huggingface_hub` 與 TGI,大幅降低了 AI Agent 的開發與切換門檻。
阿布達比技術創新研究所(TII)推出 Falcon Mamba 7B,這是首個在效能上能與主流 Transformer 抗衡的無注意力機制(Attention-free)模型。基於 Mamba 狀態空間模型(SSM)架構,它在處理極長文本時具有記憶體佔用恆定與推論速度極快的優勢,並以 Apache 2.0 協議開源。
Hugging Face 宣布收購專注於大規模資料版本控制的新創公司 XetHub。XetHub 的技術能讓 Git 輕鬆擴展並管理數 PB 級的資料集與機器學習模型,解決傳統 Git LFS 的效能瓶頸。此收購將幫助 Hugging Face 升級其基礎設施,為全球開發者提供更流暢、高效的大型 AI 資產協作與版本控制體驗。
Hugging Face 發布 2024 年安全功能亮點,展示其在保護開源 AI 生態系上的多項努力。平台引入了自動化惡意軟體與 Safetensors 安全掃描、敏感金鑰(Secrets)偵測,並與 Sigstore 合作推出模型加密簽章。此外,也強化了細粒度存取權限(Scoped Tokens)與多因素驗證(MFA),為開發者與企業提供更安全可靠的模型託管環境。
Hugging Face 宣布與知名圖像增強庫 Albumentations 合作,推出專為文件圖像(如收據、合約、掃描檔)設計的 TextImage 數據增強技術。此技術能模擬真實世界中的折痕、陰影、污漬及掃描噪點,解決 Document AI 模型在面對低質量現實圖像時識別率下降的問題。開發者可直接將其整合至 Hugging Face 的數據處理與訓練流程中。
Replicate Intelligence 第 9 期彙整了近期三大 AI 技術突破。首先是 Black Forest Labs 推出的開源影像生成模型 FLUX.1,其品質直逼 Midjourney v6;其次是 Meta 釋出的 SAM 2,將物件分割技術從靜態圖片延伸至動態影片;最後是 fast.ai 創辦人 Jeremy Howard 推出專為快速開發設計的全新 Python 網頁框架 FastHTML。
由 Stable Diffusion 核心團隊創立的 Black Forest Labs 發表了全新文字生成圖片模型 FLUX.1。該模型擁有 120 億參數,在文字渲染、細節描繪與指令遵循上皆超越現有開源模型。Replicate 已同步上架 FLUX.1 的 schnell、dev 與 pro 三種版本,開發者可直接透過 API 進行整合與部署。
Google 宣布推出 Gemma 家族新成員:僅有 2.6B 參數但性能強悍的 Gemma 2 2B 輕量模型;專為過濾有害內容設計的安全分類器 ShieldGemma(提供 2B、9B、27B 版本);以及包含逾 400 個稀疏自編碼器的 Gemma Scope,為 AI 領域提供前所未有的模型內部決策「可解釋性」研究工具。
Hugging Face 介紹了如何利用 optimum-quanto 量化工具來優化 diffusers 中的 Diffusion Transformers (DiT) 模型。隨著 DiT 模型(如 PixArt、HunyuanDiT)體積日益龐大,記憶體成為運行的瓶頸。透過將模型權重進行 8-bit 或 4-bit 量化,開發者可以在消費級 GPU 上以極低的精度損失運行這些大型生成模型,顯著降低 VRAM 需求。
Hugging Face 宣布與 NVIDIA 深度整合,在 Hugging Face Hub 上推出全新「無伺服器推論 (Serverless Inference)」服務。該服務由 NVIDIA NIM 微服務與 DGX Cloud 驅動,開發者無需管理複雜的 GPU 基礎設施,即可一鍵部署 Llama 3、Mistral 等熱門開源模型,並享有 TensorRT 優化帶來的極致效能與低延遲。
Replicate 發布第 8 期技術情報。本次更新重點包括:全面支援 Meta 最新發布的頂級開源模型 Llama 3.1(包含 405B 旗艦模型);推出全新的安全分類器(如 Llama Guard 3),協助開發者過濾有害內容;以及正式開放「模型搜尋 API」,讓開發者能透過程式碼輕鬆檢索與篩選 Replicate 上的數萬個 AI 模型。
本文介紹了 Hugging Face 提出的 LAVE(LLM 輔助 VQA 評估)方法,並在巨型文檔問答資料集 Docmatix 上進行測試。傳統評估指標(如 ANLS)因過於嚴格而不利於 Zero-shot 模型,而 LAVE 利用 LLM 作為裁判,能更公正地評估模型。結果顯示,雖然強大 LLM 的 Zero-shot 能力顯著,但在特定文檔理解任務中,微調(Fine-tuning)依然是提升中小型模型性能的關鍵。
Meta 推出最強開源模型 Llama 3.1 405B,Replicate 隨即宣布全面支援其 API 運行。開發者無需自行準備昂貴的 GPU 基礎設施,即可透過 Replicate 的雲端平台,以極低的延遲與簡單的一行程式碼整合該模型。此服務支援 128k 脈絡長度,並提供結構化輸出等功能,大幅降低了企業與開發者應用頂級開源 AI 的門檻。
Meta 正式發布 Llama 3.1 系列,包含 8B、70B 及首款能與頂級閉源模型媲美的 405B 旗艦模型。此版本將上下文視窗大幅提升至 128k,並增強了多語言能力。Hugging Face 同步推出完整生態系支援,涵蓋 Transformers 整合、TGI 推論優化、TRL 微調以及 FP8 量化,降低 405B 的部署門檻。
Hugging Face 配合 Apple WWDC 24 的更新,發表了將 Mistral 7B 轉換並運行於 Core ML 的完整指南。 透過 Core ML 轉換工具與 4-bit 等量化技術,開發者能將模型部署至 Apple Silicon 晶片,充分利用 Apple 類神經網路引擎(ANE)與統一記憶體。 此舉大幅降低了在 macOS、iOS 等 Apple 生態系中本地部署高效能開源 LLM 的門檻。
Hugging Face 發表了專為文件視覺問答(DocVQA)設計的超大型開源數據集 Docmatix。該數據集規模比現有同類數據集大上百倍,包含 240 萬張文件圖片及 950 萬個高質量的問答對。Docmatix 的推出解決了多模態模型在處理複雜 PDF、報表等視覺文件時微調數據不足的痛點,將顯著提升開源視覺語言模型(VLM)的文件解析與問答能力。
Hugging Face 的 Text Generation Inference (TGI) 推出 Multi-LoRA 服務功能。開發者只需在 GPU 上部署一個基礎模型(如 Llama 3),就能動態載入並同時運行多達 30 個不同的 LoRA 微調適配器(Adapters)。這項技術大幅降低了多模型部署的 GPU 顯存與硬體成本,並透過優化的批處理技術確保低延遲,是 LLMOps 領域的重大優化。
Hugging Face 發表全新小語言模型家族 SmolLM,提供 135M、360M 和 1.7B 三種參數規格,專為本地端與行動裝置部署設計。該系列模型在高品質的教育與程式數據集(如 Cosmopedia v2 和 FineWeb-Edu)上進行訓練,效能超越同量級的 MobileLLM 和 Qwen2-0.5B。SmolLM 採 Apache 2.0 開源授權,並同步開源其訓練數據與配方,為邊緣運算與隱私優先的 AI 應用提供極佳選擇。
為了協助用戶上手全新發布的 Argilla 2.0,Argilla 團隊利用其開源合成數據生成框架 distilabel 打造了專屬技術支持機器人。他們將官方文件切片,透過 distilabel 驅動 LLM 自動生成高質量的「問題-答案」對,並進行演化與過濾。最後利用這些合成數據微調開源模型,在不依賴人工標註下,快速構建出能精準回答產品技術問題的 AI 助理。
本期 Replicate Intelligence 探討了從「以模型為中心」轉向「以資料為中心」的 AI 趨勢。重點介紹了如何進行高品質的資料整理(Data Curation)以及利用 AI 進行合成資料生成(Data Generation),這兩者是提升開源模型微調效果與推論品質的關鍵基石。
首屆 AI 數學奧林匹亞(AIMO)進步獎由 NuminaMath 奪得,其在私有測試集上取得 29/50 的佳績。該模型基於 DeepSeek-Math-Base 7B,採用獨特的兩階段微調策略:第一階段混合鏈式思考(CoT)與工具整合推理(TIR),第二階段則針對奧林匹亞級難題進行拒絕採樣微調。團隊已將包含 86 萬條數據的 NuminaMath 數據集與模型權重完全開源,為開源 AI 數學推理領域樹立了新里程碑。
Hugging Face 發布技術指南,介紹如何將直接偏好最佳化(DPO)應用於視覺語言模型(VLM)。透過 TRL(Transformer Reinforcement Learning)庫,開發者可以輕鬆對 Idefics2 等多模態模型進行對齊訓練。此方法能有效減少 VLM 常見的「幻覺」問題,並顯著提升模型在視覺問答任務中的表現與人類偏好一致性。
Hugging Face 宣布與 KerasHub(前身為 KerasNLP 與 KerasCV)達成全新整合。開發者現在可以使用簡單的 API,直接在 Hugging Face Hub 上儲存與載入 KerasHub 模型。這項整合支援 Keras 3 的多後端特性,讓使用者能無縫在 JAX、PyTorch 或 TensorFlow 之間切換,大幅簡化了跨框架模型的部署與微調流程。
Hugging Face 正在 Hub 上實驗一項新功能,利用微軟開源的 Presidio 引擎自動偵測數據集中的個人識別資訊(PII)。此舉旨在防止敏感數據(如身分證號、信用卡、電子郵件等)意外洩露,提升開源 AI 社群的數據隱私與合規性。開發者將能更輕鬆地在分享或訓練模型前,識別並清理敏感資訊。
法國 Banque des Territoires(CDC 集團旗下)與技術夥伴 Polyconseil 及 Hugging Face 合作,針對其重大環境與生態轉型計畫推出「主權數據解決方案」。該方案旨在確保敏感的國土與環境數據在處理時符合歐洲嚴格的隱私法規(如 GDPR)。透過 Hugging Face 的開源模型生態系統與本地化部署,該計畫成功在不依賴非歐盟雲端服務的前提下,利用先進 AI 進行大規模文件分析與決策輔助,為公部門的 AI 主權化樹立了典範。
Hugging Face 與 Google Cloud 合作,正式將 TPU(如 TPU v5e)引入其平台。用戶現在可以在 Hugging Face Spaces 和 Inference Endpoints 中直接選擇 TPU 作為硬體加速器。這項整合為部署大型語言模型和擴散模型提供了極具性價比的 GPU 替代方案,大幅降低了雲端推理的成本與門檻。
Hugging Face 宣布為其平台上的 15 萬多個資料集推出全新的搜尋與篩選功能。用戶現在可以透過任務類型、授權條款(如商業用途)、資料集大小(列數或檔案大小)以及語言等多重維度進行精準篩選。這項更新大幅優化了開發者與研究人員尋找特定機器學習訓練數據的效率。
本文介紹在 Intel Gaudi 2 加速器上運行蛋白質語言模型 ProtST 的優化方案。ProtST 結合了蛋白質序列與生物醫學文本,是生醫領域的重要模型。透過 Hugging Face 的 Optimum Habana 整合,開發者與研究人員能輕鬆在 Gaudi 2 上實現高效能的蛋白質任務處理,提供 NVIDIA 之外的高性價比硬體選擇。
Hugging Face 發表全新的 Transformers Code Agent,透過讓 AI 撰寫並執行 Python 程式碼來解決複雜任務。該方法在評估通用 AI 助理能力的 GAIA 基準測試上取得了 SOTA(當前最佳)表現,證明了「程式碼執行」作為 Agent 推理工具,遠比傳統的 JSON 工具調用(Tool Calling)更具彈性與效率。此專案已完全開源,為開發者提供構建高效能 Agent 的新選擇。
Replicate 發布第 6 期技術情報,重點介紹 Google 全新開源的 Gemma 2 模型(包含 9B 與 27B 版本)已可在平台運行,其性能逼近更大參數的模型。同時,本期也更新了語言模型排行榜,並針對熱門的 Stable Diffusion 3 提供具體的提示詞與參數優化指南,幫助創作者解決人體畸變等常見生成問題。