Cohere For AI 發表全新開源多語言模型家族 Aya Expanse(包含 8B 與 32B 參數版本),支援 23 種語言。該模型透過創新的資料套利、合成資料生成與多語言偏好對齊技術,在多項基準測試中擊敗了 Llama 3.1、Gemma 2 等同級甚至更大規模的模型,為全球多語言 AI 研究樹立了新標竿。
Hugging Face 推出全新微服務 HUGS(Hugging Face Microservices),旨在簡化開源 AI 模型的部署流程。HUGS 提供經過高度優化且開箱即用的 Docker 容器,支援 Llama、Mistral 等熱門模型,並針對 NVIDIA、AMD 及 AWS 等硬體進行效能優化。開發者可以透過與 OpenAI 相容的 API 快速整合,在私有雲或主流雲端平台上輕鬆擴展 AI 應用。
CinePile 2.0 是一個專為長影片理解設計的問答資料集更新版本。本次更新引入了「對抗性精煉(Adversarial Refinement)」技術,旨在解決 LLM 生成干擾項過於簡單或存在偏誤的問題。透過篩選掉不需看影片就能回答的漏洞題目,CinePile 2.0 能更精準地評估多模態模型對複雜視覺與敘事邏輯的真實理解能力。
Google 與 Hugging Face 宣布將 SynthID Text 技術整合至 Transformers 庫中。這項技術能在不影響文本生成品質的前提下,於 LLM 輸出的機率分佈中嵌入隱形浮水印。開發者現在可以輕鬆在自己的模型中啟用此功能,以識別和追蹤 AI 生成的文本,應對虛假訊息與版權爭議。
Hugging Face 宣布與 AI 安全領導廠商 Protect AI 展開合作,旨在提升開源機器學習(ML)社群的模型安全性。雙方將共同應對日益嚴重的開源模型安全威脅,如惡意代碼注入與反序列化漏洞。透過整合先進的安全掃描技術,此合作將幫助開發者在 Hugging Face Hub 上更安全地分享與下載模型,降低供應鏈安全風險。
Hugging Face 的 Diffusers 程式庫已正式支援 Stability AI 最新推出的 Stable Diffusion 3.5 Large 模型。此模型擁有 80 億參數,在提示詞遵循度、圖像品質及多樣性上皆有顯著提升。開發者現在可以透過簡單的程式碼載入模型,並利用 CPU Offloading、bfloat16 及量化技術,在消費級 GPU 上順暢運行。
Hugging Face 正式發布 Transformers.js v3,最大亮點為引進 WebGPU 支援,使瀏覽器端模型推論速度較以往的 CPU/WASM 提升達 100 倍。此版本也將 npm 套件重新命名為 @huggingface/transformers,並新增支援 Llama 3、Gemma、Phi-3 等熱門模型。此外,新版本擴展了語音合成(TTS)與多模態任務,為網頁開發者提供更強大的無伺服器端(Serverless)AI 解決方案。
Stability AI 正式推出最新一代文字生成圖片模型 Stable Diffusion 3.5,並已同步上架至 AI 雲端託管平台 Replicate。開發者與創作者現在無需自行配置高規格 GPU 顯示卡,即可直接透過 Replicate 提供的雲端 API 快速將 SD 3.5 整合至自己的應用程式或工作流中,極大地降低了開發與部署的門檻。
Outlines 團隊與 Hugging Face 合作發布了 outlines-core 0.1.0,將結構化生成的核心邏輯(如 FSM 與 Token 遮罩)用 Rust 重寫。這項更新不僅大幅降低了引導生成時的 CPU 開銷與延遲,也讓 Rust 開發者能直接在 Rust 生態系中實現精準的 JSON 或正規表示式輸出控制,同時保持對 Python 的完美支援。
Hugging Face 發布技術教學,介紹如何在 Inference Endpoints 上部署語音對語音(Speech-to-Speech, S2S)模型。透過自訂 EndpointHandler 與串流(Streaming)技術,開發者可以實現低延遲的即時語音互動。本文以開源的 Mini-Omni 模型為例,展示了從環境設定、撰寫自訂推論邏輯到部署至 GPU 節點的完整流程。
在微調 LLM 時,梯度累積(Gradient Accumulation)常被用來模擬大 Batch Size。然而,Hugging Face 指出,當訓練樣本長度不一時,傳統「直接除以累積步數」的作法會導致數學上的權重偏差。這篇技術部落格詳細解釋了此問題,並介紹了在 Hugging Face Trainer 中引入的全新修正機制,確保梯度累積與真實大 Batch Size 的訓練結果完全一致。
Hugging Face 發表與 AMD 合作的最新進展,介紹代號「Turin」的第 5 代 AMD EPYC 處理器。憑藉 Zen 5 架構與對 FP16/BF16 的硬體優化,新一代處理器在 LLM 推論與微調上展現極佳效能。開發者可透過 Hugging Face 的 Optimum 庫與 TGI 輕鬆部署,為非 GPU 環境提供強大的 AI 算力選擇。
Hugging Face 介紹了在 transformers 庫中實現的「動態投機(Dynamic Speculation)」技術。傳統的輔助生成(Assisted Generation)使用固定長度的草稿 Token 進行驗證,而動態投機則會根據草稿模型的即時接受率,動態調整預測長度(K 值)。這項改進能在不犧牲生成品質的前提下,顯著減少不必要的計算並提升推理速度,讓開發者更輕鬆地優化 LLM 部署。
Hugging Face 宣布推出「Open FinLLM Leaderboard」,這是一個專為金融領域大語言模型(FinLLMs)設計的開源評測排行榜。該排行榜旨在解決通用評測基準無法準確反映金融專業能力的問題,透過多維度的金融數據集(如情感分析、關係抽取、金融問答等)來評估模型。這為金融機構與研究人員在選擇、微調和部署金融 AI 模型時,提供了一個透明且標準化的參考依據。
隨著 Qwen、DeepSeek、Yi 等中國開源模型在 Hugging Face 排行榜上名列前茅,中國 AI 勢力正加速全球擴張。這些模型憑藉強大的多語言能力、數學與程式碼推理性能,以及極高的性價比,成為全球開發者在 Llama 之外的重要選擇。本文總結了中國 AI 透過開源生態系打破地理限制、走向國際的關鍵策略與面臨的挑戰。
Hugging Face 發表了專為捷克語設計的全新大型語言模型(LLM)評估基準「BenCzechMark」。由於多數主流基準測試皆以英語為主,此項目旨在填補捷克語在 AI 評估領域的空白。該基準涵蓋多種語言理解與生成任務,能更準確地衡量模型在捷克語語境與文化背景下的實際表現。
Hugging Face 釋出全新開源影片資料集「FineVideo」的幕後製作過程。為了解決高品質影片數據稀缺的問題,該項目收錄了超過 4.3 萬部影片(約 3,400 小時),並提供高達 120 萬個詳細的影片與文字配對。文章深入探討了其自動化清理、場景分割與多模態模型標註的管線(Pipeline)設計,旨在為社群提供訓練下一代影片理解與生成模型(Video-LLM)的標準基石。
本文介紹 Hugging Face 與 Intel 合作的最新部署方案。透過 optimum-intel 工具,開發者可以輕鬆將 Transformers 模型轉換並量化(如 INT4)為 OpenVINO 格式。接著,利用全新且輕量化的 openvino-genai API,即可在 Intel CPU、GPU 及 NPU 上實現極速的生成式 AI 推理,大幅簡化了從模型訓練到邊緣端部署的流程。
微調 Black Forest Labs 的 Flux 模型雖然門檻低,但要達到頂尖效果仍需技巧。Replicate 官方分享了利用「合成數據」優充微調的技術,核心在於使用視覺語言模型(VLM)為訓練集自動生成極其詳盡的合成標籤(Synthetic Captions),以及利用 AI 生成多樣化圖像來擴充訓練集。這些方法能有效防止模型過擬合,並顯著提升 Flux 對複雜提示詞的理解與執行能力。
Hugging Face 釋出最新指南,介紹如何將現有的預訓練大語言模型(LLM)微調至 1.58-bit(三進制模型)。傳統的 BitNet 1.58B 需要極為昂貴的從頭預訓練,而此方法允許開發者直接對現有開源模型(如 Llama)進行極限非線性量化微調。這項技術將權重限制在 -1、0、1 三個值,極大降低了顯存佔用與計算頻寬,讓大模型在消費級硬體甚至 CPU 上也能高效運行。
Hugging Face 宣布在 HuggingChat 中推出「社群工具 (Community Tools)」功能。這項更新讓 HuggingChat 上的開源模型(如 Llama 3.1、Command R+)能夠調用由社群開發的各種工具,例如圖像生成、網頁抓取、計算機等。開發者可以使用 Python 輕鬆建立並分享工具,使開源 AI 助理具備更強大的 Agent 實用能力。
Hugging Face 旗下熱門的分散式訓練工具庫 Accelerate 正式迎來 1.0.0 版本。此版本標誌著 API 的全面穩定與成熟,大幅優化了 PyTorch FSDP 和 DeepSpeed 的整合,並提升了大模型推理(Big Model Inference)的資源調配效率。對於需要跨 GPU/TPU 進行模型微調或部署的開發者與研究人員而言,這是一次關鍵的重大升級。
Replicate 宣布支援透過其 HTTP API 微調 FLUX.1 [dev] 模型。開發者只需準備好訓練圖片並發送 API 請求,即可自動完成微調,並直接在 Replicate 上部署與運行專屬的客製化圖像生成模型。這項更新大幅簡化了自動化工作流與產品整合的難度,讓開發者能輕鬆將客製化 AI 繪圖功能嵌入自己的應用程式中。
Hugging Face 官方部落格盤點了 5 個被低估的「幕後英雄」工具。這些工具能解決開發者在處理 AI 模型與資料集時的痛點,包括支援多線程與斷點續傳的 huggingface-cli、免費測試 15 萬個模型的 Serverless 推論 API、免下載即可用 SQL 查詢的 Dataset Viewer、完全在瀏覽器運行的 Gradio-lite,以及兼顧安全與極速載入的 safetensors 格式。這些工具能顯著優化 AI 開發工作流。
在 LLM 訓練中,傳統的 Padding 會浪費大量算力。Hugging Face 介紹了結合 Flash Attention 2 的 Packing(序列打包)技術,將多個短樣本拼接成固定長度,並利用 FA2 的變長注意力(varlen)避免樣本間干擾。這項優化能顯著提升訓練吞吐量並降低顯存佔用,已整合至 TRL 等工具中。
Replicate 宣布為熱門開源圖像生成模型 FLUX.1 推出微調(LoRA)支援。用戶現在可以透過 Replicate 的 API,僅需一行程式碼就能使用自己的圖片訓練專屬模型。這讓開發者與創作者能更輕易地在 FLUX.1 上實現特定人物、產品或藝術風格的客製化生成,大幅降低了商業應用的技術門檻。
本篇 Hugging Face 部落格文章深入介紹了由 Georgi Gerganov 開發的輕量級 C/C++ 張量庫 GGML。GGML 是 llama.cpp 的底層核心,專為消費級硬體(如 CPU 和 Apple Silicon)優化。文章解析了其無依賴性、高效量化(4-bit/8-bit)以及如何演進至現今主流的 GGUF 格式,是理解本地端 LLM 部署的必讀指南。
Vercel 探討了構建可擴展 AI 應用的核心挑戰與解決方案。文章指出,傳統網頁架構難以應對 AI 的高延遲與高成本,開發者應採用串流(Streaming)技術提升用戶體驗,並透過邊緣運算(Edge Functions)與快取機制降低延遲。此外,利用 Vercel AI SDK 的統一 API 與可觀測性工具,能有效簡化多模型管理並優化生產環境性能。
Hugging Face 推出統一的工具調用(Tool Use)標準,解決了過去不同開源模型工具格式不一的痛點。現在開發者只需定義標準 Python 函數,即可透過 `apply_chat_template` 自動轉換並傳遞給 Llama 3.1、Mistral 等支援的模型。此更新全面整合至 `transformers`、`huggingface_hub` 與 TGI,大幅降低了 AI Agent 的開發與切換門檻。
阿布達比技術創新研究所(TII)推出 Falcon Mamba 7B,這是首個在效能上能與主流 Transformer 抗衡的無注意力機制(Attention-free)模型。基於 Mamba 狀態空間模型(SSM)架構,它在處理極長文本時具有記憶體佔用恆定與推論速度極快的優勢,並以 Apache 2.0 協議開源。