Google 官方正式發布 CodeGemma 程式碼模型系列,基於 Gemma 架構。提供專攻 IDE 程式碼補全(Fill-in-the-Middle)的 2B 版本,以及適合程式碼生成與對話的 7B 版本。該系列模型已深度整合至 Hugging Face 生態系,支援多種主流程式語言,為開發者提供高效且可本地運行的開源 AI 助手選擇。
Hugging Face 宣布其公共政策(Public Policy)倡議,旨在橋接 AI 社群與全球政策制定者。他們強調開源 AI 對於安全性、市場競爭與創新至關重要。未來將持續參與歐盟 AI 法案、美國行政命令等政策討論,確保開源開發者的聲音被聽見,避免過度監管扼殺創新。
Hugging Face 宣布與知名雲端安全廠商 Wiz Research 建立合作夥伴關係。雙方將共同致力於識別並修復 Hugging Face 平台上的安全漏洞,特別是針對模型託管、租戶隔離以及 Spaces 的容器安全。此合作旨在為開源 AI 社群建立更強大的安全防禦機制,防範惡意模型與潛在的雲端基礎設施攻擊。
這篇 Hugging Face 部落格文章介紹了一種實用的 Text2SQL(自然語言轉 SQL)解決方案。透過 Hugging Face Dataset Viewer API 獲取數據集的結構與 Schema,並利用 MotherDuck 開源的 DuckDB-NSQL-7B 模型,將使用者的提問轉化為 DuckDB 兼容的 SQL 查詢。這讓開發者與數據分析師無需手動下載數據,即可直接對 Hugging Face 上的海量數據集進行即時的自然語言數據分析。
SetFit 是一款高效的少樣本文字分類框架。本文介紹如何結合 Hugging Face Optimum Intel,在 Intel Xeon 處理器上進行硬體級推論加速。透過 OpenVINO 等技術,開發者無需 GPU 即可在 CPU 上實現極低延遲與高吞吐量的 NLP 模型部署。
Hugging Face 宣布與 Cloudflare 深度整合,推出無伺服器 GPU 推理服務。開發者現在可以直接在 Hugging Face Hub 上,一鍵將熱門的開源模型(如 Llama 和 Mistral)部署至 Cloudflare Workers AI。這項合作免除了管理 GPU 基礎設施的繁瑣工作,並利用 Cloudflare 的全球邊緣網路提供低延遲、高彈性的 AI 推理能力。
Pollen-Vision 是一個專為機器人設計的開源視覺庫,旨在簡化 Zero-Shot(零樣本)視覺模型(如 OWL-ViT、SAM 等)的整合。它提供統一的 API,讓機器人無需重新訓練即可透過自然語言或點擊來識別與定位物體。此工具能顯著降低機器人視覺開發的門檻,加速具身智能(Embodied AI)的應用落地。
Hugging Face 詳細解析了「二進位(Binary)」與「純量(Scalar)」嵌入向量量化技術,能將向量大小分別壓縮 32 倍與 4 倍。 透過將 float32 轉換為 int8 或 1-bit,不僅能顯著減少向量資料庫的記憶體(RAM)開銷,還能利用硬體加速大幅提升檢索速度。 此技術已整合至 sentence-transformers 庫中,並支援「重排(Rescoring)」機制,在極低精度損失下實現高效能的 RAG 檢索。
Hugging Face 與 Lighthouz AI 合作推出「Chatbot Guardrails Arena」,這是一個專為評估大語言模型(LLM)安全防護網(Guardrails)而設計的開源社群平台。該平台旨在測試各大模型與防護系統在面對惡意提示、越獄攻擊及敏感話題時的防禦能力。透過標準化的基準測試,開發者可以直觀地比較不同防護方案的優劣,構建更安全可靠的 AI 應用。
Hugging Face 發布技術指南,展示如何在搭載 Intel Meteor Lake(Core Ultra)處理器的筆電上本機部署微軟 Phi-2(2.7B)模型。透過 Optimum Intel 與 OpenVINO 進行 INT4 量化,開發者能充分利用筆電的 CPU、GPU 或 NPU 進行低延遲、隱私安全的本機 AI 推理,為 AI PC 的個人助理應用提供實踐範例。
Hugging Face 發布了當時最大的開源合成數據集 Cosmopedia,內含 250 億 Token。該項目利用 Mixtral-8x7B 模型,根據精心設計的提示詞與主題生成教科書、部落格和教學等多元內容。實驗證明,使用此合成數據預訓練的 1.8B 模型(Cosmo-1.8B)在多項基準測試中超越了同量級的知名模型,為 LLM 預訓練提供了全新的合成數據生成範式。
Hugging Face 介紹了 GaLore(梯度低秩投影)技術,這是一種新型的記憶體優化訓練方法。與 LoRA 不同,GaLore 透過將梯度投影到低秩空間,大幅減少了優化器狀態的記憶體佔用。這使得開發者可以直接在單張 24GB 記憶體的消費級顯卡(如 RTX 4090)上,進行 7B 模型的全參數微調甚至從頭預訓練。
Hugging Face 宣布與 NVIDIA 深度整合,將 DGX Cloud 的強大算力直接引入平台。開發者現在可以輕鬆調用 NVIDIA H100 GPU 來訓練與微調大型語言模型,無需自行管理複雜的底層基礎設施。這項合作大幅降低了獲取頂級 AI 算力的門檻,加速了企業與研究人員的模型開發流程。
Hugging Face 發表全新開源 PyTorch 量化工具庫 Quanto,現已整合至 Optimum 生態系。Quanto 支援權重與激活值的量化(包括 int4、int8 與 float8),且具備跨平台相容性,可在 CPU、GPU 及 Apple Silicon (MPS) 上運行。開發者只需幾行程式碼即可對 Transformers 和 Diffusers 模型進行訓練後量化(PTQ)或量化感知訓練(QAT)。
Hugging Face 宣布推出 WebSight 數據集,專為訓練視覺語言模型(VLM)進行「截圖轉網頁程式碼(Screenshot-to-Code)」而設計。該數據集包含約 200 萬個由合成技術產生的網頁截圖及其對應的乾淨 HTML/CSS 程式碼。透過 WebSight,開發者與研究人員能更有效率地微調多模態模型,加速自動化前端開發與設計稿轉程式碼的技術落地。
Hugging Face 與 Intel 合作展示如何使用 Optimum Intel 和 fastRAG 框架優化 CPU 上的嵌入向量(Embeddings)計算。透過 OpenVINO 和 Intel Extension for PyTorch (IPEX) 等技術,開發者無需昂貴的 GPU,即可在標準 Intel CPU 上實現高效能、低延遲的 RAG 檢索系統,顯著降低企業部署成本。
Hugging Face 發表全新基準測試「ConTextual」並上線排行榜。該基準專注於評估多模態大模型(MLLM)在處理「富含文本的圖像」(如圖表、資訊圖表、街景招牌等)時的圖文聯合推理能力。這項測試超越了單純的 OCR 文字識別,更考驗模型結合視覺上下文與文本進行深度推理的實力,為評估當前頂尖多模態模型提供了更貼近真實應用場景的標準。
Hugging Face 宣布與開源數據標註平台 Argilla 深度整合。使用者現在可以一鍵在 Hugging Face Spaces 上部署 Argilla,邀請社群成員共同進行數據標註、反饋與篩選(如 RLHF/DPO 數據)。這項合作降低了社群協作建構高品質數據集的門檻,有助於推動開源 AI 模型的對齊與優化。
Hugging Face 宣布在 optimum-habana 中支援文字生成 Pipeline,使開發者能輕鬆在 Intel Gaudi 2 AI 加速器上部署大語言模型。此更新簡化了程式碼,並針對 Gaudi 2 硬體進行優化,提供極佳的推理效能與性價比,是 NVIDIA GPU 之外的強大替代方案。
由 Hugging Face 與 ServiceNow 主導的 BigCode 社群,聯合 NVIDIA 正式發布了新一代開源程式碼大語言模型 StarCoder2。該系列提供 3B、7B 和 15B 三種參數版本,並同步推出全新升級的 The Stack v2 資料集。StarCoder2 支援超過 600 種程式語言,並在程式碼生成、補全與修復等任務上展現出同量級模型中的頂尖性能,持續推動負責任且開放的 AI 開發。
Hugging Face 發表全新語音模型評測平台「TTS Arena」。該平台借鑑了 LMSYS Chatbot Arena 的群眾外包盲測機制,讓使用者聆聽兩段由不同匿名 TTS 模型生成的語音並進行投票。透過 Elo 評分系統,TTS Arena 旨在解決傳統客觀指標無法準確反映人類聽覺偏好的痛點,建立一個客觀且動態的語音合成模型排行榜。
隨著 AI 生成內容爆發,如何識別「AI 製造」成為關鍵。Hugging Face 發布的這篇指南深入探討了 AI 水印技術,涵蓋文字生成(如透過調整 Token 機率分佈的綠名單機制)與影像生成(如 Stable Signature 等隱形潛在空間水印)。文章不僅介紹了現有的開源工具,也客觀分析了水印技術在對抗剪裁、改寫等攻擊時的魯棒性限制與未來挑戰。
Hugging Face 聯合 AI 安全新創 Haize Lab 推出「Red-Teaming Resistance Leaderboard」(紅隊對抗排行榜)。該榜單旨在評估開源與商業大語言模型(LLM)在面對惡意越獄(Jailbreak)與對抗性攻擊時的防禦能力。透過自動化紅隊測試工具,量化模型在安全對齊上的真實強度,為開發者提供更具實戰價值的安全參考指標。
本指南介紹如何在 Hugging Face 生態系中微調 Google 的 Gemma 開源模型(2B 與 7B)。文章詳細說明了如何利用 PEFT(參數高效微調)技術,特別是 QLoRA(4-bit 量化微調),在消費級 GPU 上進行訓練。透過結合 transformers、peft 與 trl(SFTTrainer)等套件,開發者可以輕鬆載入模型、設定 LoRA 參數、格式化數據集,並將微調後的權重上傳至 Hugging Face Hub,是實作 Gemma 微調的必讀教學。
Matryoshka 嵌入模型(MRL)允許單一模型輸出多種不同維度的向量,如同俄羅斯套娃般大包小。 這項技術能讓開發者在不重新訓練模型的情況下,自由截斷維度,大幅降低向量資料庫的儲存與檢索成本。 Hugging Face 的 sentence-transformers 庫已原生支援此技術,為 RAG 與向量檢索提供極高的部署彈性。
Google 正式推出全新開源模型家族 Gemma,包含 2B 與 7B 兩種參數大小,並提供預訓練與指令微調版本。 Gemma 採用與 Gemini 相同的技術與架構,在多項基準測試中表現優於同尺寸的 Llama 2 與 Mistral。 Hugging Face 已同步支援 Gemma,開發者可直接透過 Transformers、TGI、PEFT 等工具進行部署與微調。
Hugging Face 與韓國 AI 獨角獸 Upstage 合作推出「Open Ko-LLM 排行榜」,旨在解決韓語模型缺乏統一評估標準的問題。該排行榜基於開源社群力量,提供客觀的韓語 LLM 性能評比,涵蓋理解力、推理力及常識等多維度指標。此舉將大幅推動韓國本土開源 AI 生態系的發展,並為非英語系國家的 LLM 評估樹立新典範。
Hugging Face 的 PEFT 庫正式支援多種先進的 LoRA 合併技術,包括 TIES-Merging、DARE 和 Task Arithmetic。這些方法解決了傳統線性合併時常見的參數干擾與性能衰退問題。開發者現在可以透過簡單的 API,將針對不同任務微調的適配器融合成單一模型,大幅提升多任務模型的部署效率。
Hugging Face 指出,利用開源模型與工具(如 distilabel)生成合成數據(Synthetic Data),已成為現代 AI 開發的重要趨勢。這種方法不僅能將數據準備成本降低數倍,還能大幅縮短開發週期。更重要的是,透過蒸餾技術訓練小型專屬模型,能顯著減少推論與訓練過程中的碳排放,實現更永續的 AI 生態。
AMD 與 Hugging Face 合作舉辦「Pervasive AI 開發者大賽」,旨在推廣 AMD 的 AI 硬體生態系。競賽分為生成式 AI、機器人 AI 與 PC AI 三大賽道,參賽者需利用 AMD Radeon GPU、Ryzen AI 或 Kria 開發套件,並結合 Hugging Face 的模型進行開發。本活動提供豐富的硬體支援與高達 15 萬美元的總獎金,吸引全球開發者共襄盛舉。