Hugging Face 宣布與 AWS 達成新合作,將其平台上的熱門開源模型整合至 Amazon Bedrock。開發者無需自行管理複雜的底層基礎設施,即可透過 Bedrock 的託管服務與 API 快速呼叫、部署並擴展 Hugging Face 上的模型。此舉大幅降低了企業在 AWS 生態系中使用開源 AI 模型的門檻,並簡化了計費與安全合規流程。
Google 發表全新一代輕量級視覺語言模型 PaliGemma 2,基於 SigLIP 視覺編碼器與 Gemma 2 文本解碼器。本次釋出包含 3B、10B 與 28B 三種參數規模,並提供多種輸入解析度(最高達 896x896)。PaliGemma 2 在圖像描述、視覺問答、目標檢測與文件理解等任務上表現優異,且已全面整合至 Hugging Face 生態系,支援快速微調與部署。
本文介紹了 Hugging Face、Keras 與 Google TPU 團隊合作的最新實驗,旨在評估大語言模型(LLM)在被指出錯誤後的「自我糾錯」能力。實驗採用類似 Chatbot Arena 的雙盲測試,利用 Keras 的多後端優勢與 TPU 的強大算力,測試多款開源模型。結果顯示,多數模型在沒有外部具體反饋的情況下,自我糾錯能力仍有極大提升空間。
Hugging Face 宣布推出針對阿拉伯語大語言模型(LLM)的全新評估基準「AraGen」及其排行榜。該基準採用創新的「3C3H」評估框架,從文化(Culture)、語境(Context)、能力(Capability)以及實用(Helpfulness)、誠實(Honesty)、無害(Harmlessness)六大維度進行評估。此舉旨在解決過去阿拉伯語評估過度依賴英文翻譯數據集、忽略在地文化與語言特性的問題,為多語言 AI 評估樹立新標竿。
量化資產管理公司 CFM 與 Hugging Face 合作,探索如何在金融領域高效應用 AI。他們並未直接在生產環境部署昂貴的大型 LLM,而是利用大模型生成高質量的標註數據與洞察,進而微調專門的小型模型(SLM)。這種「知識蒸餾」策略不僅大幅降低了推理成本與延遲,還在特定金融 NLP 任務上保持了極高的準確度。
歐盟《AI 法案》(EU AI Act)已正式生效,Hugging Face 針對開源社群推出實用指南。文章釐清了開源模型在何種情況下可享有豁免(如釋出權重與架構),並指出當模型運算量超過 10^25 FLOPs 或被用於高風險領域時,開發者仍需承擔合規義務。此指南旨在幫助開源開發者在推動創新的同時,避免觸犯法律紅線。
Hugging Face 發表全新輕量級視覺語言模型 SmolVLM(約 2.2B 參數),專為本機與邊緣設備設計。該模型結合了 SigLIP 視覺編碼器與 SmolLM2 語言模型,不僅支援多圖輸入與影片分析,在多項基準測試中更展現出媲美更大尺寸模型的性能。SmolVLM 採 Apache 2.0 開源授權,極低記憶體佔用使其成為開發者在終端裝置部署 VLM 的理想選擇。
隨著託管的模型與數據集規模暴增,Hugging Face 傳統的 Git-LFS 架構面臨元數據處理緩慢和鎖定等瓶頸。為此,他們重構了上傳與下載架構,將文件存儲與 Git 解耦,改用自研的 HTTP 傳輸機制、Rust 編寫的 `hf-transfer` 工具,並優化 S3 直連與 CDN 緩存。這項變革大幅提升了數百 GB 級大模型與數百萬文件數據集的傳輸速度與穩定性。
AI 雲端託管平台 Replicate 宣布大幅提升 FLUX.1 圖像生成模型的微調(Fine-tuning)速度。透過底層優化,用戶現在能以極快的速度訓練出專屬的 FLUX LoRA 模型。最重要的是,Replicate 將這些優化技術與訓練程式碼完全開源,讓開發者不僅能在其平台上快速部署,也能在自己的硬體上實現高效訓練。
Hugging Face 釋出深度科普文章,帶領讀者從零開始設計 Transformer 的位置編碼。文章從傳統絕對位置編碼(APE)的缺陷出發,指出其無法應對長文本外推的痛點,進而引入相對位置編碼(RPE)的概念。最終,透過簡單的複數與 2D 旋轉矩陣,一步步推導出當前主流大模型(如 Llama、Mistral)標配的 RoPE(旋轉位置編碼),證明這項最先進技術其實符合直覺且人人都能推導出來。
Hugging Face 宣布推出專為日語設計的「開放式日語 LLM 排行榜」。該排行榜旨在解決現有英文基準無法準確評估日語能力的問題,採用了多個日語標準評測數據集。這將為開發者與研究人員提供一個公開、透明且可重複驗證的平台,用以評估與比較各類開源日語大語言模型的表現。
Hugging Face 發表全新的儲存優化方案,將傳統的檔案級儲存(如 Git LFS)轉型為「分塊儲存(Chunk-based Storage)」。透過內容定義分塊(CDC)與內容定址儲存(CAS)技術,Hub 能跨儲存庫進行資料去重。這對於微調(Fine-tune)與合併(Merge)模型的儲存能節省極大空間,並顯著加快上傳與下載速度。
Hugging Face 介紹了 Meta 的 LayerSkip 技術,該技術透過「自投機解碼(Self-Speculative Decoding)」來加速 LLM 推理。傳統投機解碼需要額外的草稿模型,而 LayerSkip 讓單一模型在推理時自我預測與驗證。透過在訓練時加入層丟棄與早期退出損失,模型能用前幾層快速生成草稿,再由完整模型驗證,顯著降低記憶體佔用並提升速度。
本文介紹了首屆多語言大型語言模型(LLM)辯論賽。傳統的靜態評估方法(如多選題)已難以衡量模型的深層推理與說服力,因此研究人員設計了讓模型針對特定議題進行多輪多語言辯論的機制。透過這種動態對抗,不僅能更精準地評估模型在非英語環境下的邏輯一致性,也為 LLM 的安全性和對齊(Alignment)提供了全新的評估維度。
Hugging Face 與 AI 評估新創公司 Atla 合作推出「Judge Arena」基準測試。該項目旨在解決「LLM 作為裁判(LLM-as-a-judge)」時常見的偏見與失真問題,透過與人類專家評分進行對齊,系統化評估各家大模型在擔任裁判時的表現,為 AI 評估自動化提供更具公信力的參考標準。
AI 部署平台 Replicate 正式推出 NVIDIA L40S GPU 算力選項。與傳統的 A100 或 A10G 相比,L40S 在圖像生成(如 Stable Diffusion)和中小型語言模型推理上,提供了更優異的性能與更低的運算成本,是開發者優化 AI 部署成本的新選擇。
Hugging Face 官方發文鼓勵機器學習研究人員將其開源數據集託管至 Hugging Face Hub。透過 Hub 提供的強大工具(如數據集瀏覽器、版本控制與 metadata 標記),研究人員能更輕鬆地推廣其研究成果。此舉旨在降低數據集獲取門檻,進一步推動全球開源 AI 社群的協作與創新。
JetBrains PyCharm 與 Hugging Face 展開合作,在最新版本中提供原生整合。開發者現在無需離開編輯器,即可直接瀏覽 Hugging Face Hub 上的數十萬個開源模型與資料集。此整合還支援程式碼自動補全、模型卡片預覽以及快速生成載入程式碼,大幅提升 AI 與機器學習的開發效率。
開源數據標註平台 Argilla 發布 2.4 版本,主打與 Hugging Face Hub 的深度無程式碼整合。用戶現在可以直接在 Hugging Face Spaces 上部署 Argilla,並透過直觀的 UI 介面進行數據導入、協作標註與導出。這大幅降低了為大語言模型(LLM)準備指令微調(SFT)和偏好對齊(DPO)數據集的門檻,讓非技術背景的領域專家也能輕鬆參與數據策劃。
Hugging Face 發表「通用輔助生成 (UAG)」技術,解決了傳統投機解碼(Speculative Decoding)必須要求大小模型使用相同 Tokenizer 的限制。UAG 透過跨 Tokenizer 的對齊機制,讓開發者能自由搭配任意輕量模型(如 Gemma-2B)來加速大型目標模型(如 Llama-3-70B)。此技術已整合至 Hugging Face 的 Transformers 庫中,能顯著降低推論延遲並節省運算成本。
非營利組織 Digital Green 為了向農民提供精確的農業建議,開發了基於 RAG 的問答系統。透過 Hugging Face 專家支援服務,他們導入了「LLM-as-a-Judge」自動化評估框架。此方案不僅能有效衡量回答的真實性與相關性,還透過開源模型替代昂貴的專有模型,在維持高評估準確度的同時大幅降低了營運成本。
Cohere For AI 發表全新開源多語言模型家族 Aya Expanse(包含 8B 與 32B 參數版本),支援 23 種語言。該模型透過創新的資料套利、合成資料生成與多語言偏好對齊技術,在多項基準測試中擊敗了 Llama 3.1、Gemma 2 等同級甚至更大規模的模型,為全球多語言 AI 研究樹立了新標竿。
Google 與 Hugging Face 宣布將 SynthID Text 技術整合至 Transformers 庫中。這項技術能在不影響文本生成品質的前提下,於 LLM 輸出的機率分佈中嵌入隱形浮水印。開發者現在可以輕鬆在自己的模型中啟用此功能,以識別和追蹤 AI 生成的文本,應對虛假訊息與版權爭議。
CinePile 2.0 是一個專為長影片理解設計的問答資料集更新版本。本次更新引入了「對抗性精煉(Adversarial Refinement)」技術,旨在解決 LLM 生成干擾項過於簡單或存在偏誤的問題。透過篩選掉不需看影片就能回答的漏洞題目,CinePile 2.0 能更精準地評估多模態模型對複雜視覺與敘事邏輯的真實理解能力。
Hugging Face 推出全新微服務 HUGS(Hugging Face Microservices),旨在簡化開源 AI 模型的部署流程。HUGS 提供經過高度優化且開箱即用的 Docker 容器,支援 Llama、Mistral 等熱門模型,並針對 NVIDIA、AMD 及 AWS 等硬體進行效能優化。開發者可以透過與 OpenAI 相容的 API 快速整合,在私有雲或主流雲端平台上輕鬆擴展 AI 應用。
Hugging Face 發布技術教學,介紹如何在 Inference Endpoints 上部署語音對語音(Speech-to-Speech, S2S)模型。透過自訂 EndpointHandler 與串流(Streaming)技術,開發者可以實現低延遲的即時語音互動。本文以開源的 Mini-Omni 模型為例,展示了從環境設定、撰寫自訂推論邏輯到部署至 GPU 節點的完整流程。
Hugging Face 宣布與 AI 安全領導廠商 Protect AI 展開合作,旨在提升開源機器學習(ML)社群的模型安全性。雙方將共同應對日益嚴重的開源模型安全威脅,如惡意代碼注入與反序列化漏洞。透過整合先進的安全掃描技術,此合作將幫助開發者在 Hugging Face Hub 上更安全地分享與下載模型,降低供應鏈安全風險。
Hugging Face 的 Diffusers 程式庫已正式支援 Stability AI 最新推出的 Stable Diffusion 3.5 Large 模型。此模型擁有 80 億參數,在提示詞遵循度、圖像品質及多樣性上皆有顯著提升。開發者現在可以透過簡單的程式碼載入模型,並利用 CPU Offloading、bfloat16 及量化技術,在消費級 GPU 上順暢運行。
Outlines 團隊與 Hugging Face 合作發布了 outlines-core 0.1.0,將結構化生成的核心邏輯(如 FSM 與 Token 遮罩)用 Rust 重寫。這項更新不僅大幅降低了引導生成時的 CPU 開銷與延遲,也讓 Rust 開發者能直接在 Rust 生態系中實現精準的 JSON 或正規表示式輸出控制,同時保持對 Python 的完美支援。
Hugging Face 與 Keras 團隊宣布 Llama 3.2 模型正式登陸 Keras 生態系。開發者現在可以透過 KerasNLP 輕鬆載入 Llama 3.2 的 1B 與 3B 輕量級模型。得益於 Keras 3 的多後端架構,使用者能自由切換 JAX、PyTorch 或 TensorFlow,並利用 LoRA 等技術進行高效微調與跨平台部署。