Hugging Face 宣布其託管服務 Inference Endpoints 正式支援 AWS Inferentia2 (Inf2) 執行個體。這項整合讓開發者無需繁瑣的編譯設定,即可將 Llama、Mistral 等大型語言模型部署至 AWS 的專屬推論晶片上。相較於傳統 GPU,Inferentia2 能大幅降低推論成本並提升吞吐量,為企業提供更具成本效益的生產環境部署選擇。
Hugging Face 與 Dell 聯手推出 Dell Enterprise Hub,旨在簡化企業在地端(On-Premise)部署 AI 模型的流程。該平台提供針對 Dell PowerEdge 等硬體優化的容器與主流開源模型(如 Llama 3、Mistral),確保高效能與安全性。企業用戶可直接在熟悉的 Dell 基礎設施中一鍵部署、微調開源模型,完美解決資料隱私與合規性痛點。
Hugging Face 宣布與微軟深化合作,將其開源模型庫與 Azure AI Studio 進行深度整合。開發者現在可以直接在 Azure 上以無伺服器 API(Model-as-a-Service)形式部署熱門開源模型。此外,雙方也加強了對 Windows AI 本地端運算(如 ONNX Runtime)的支援,全面打通從雲端到邊緣端的開發流程。
Hugging Face 宣布推出「Spaces Dev Mode(開發者模式)」,解決過去開發 Spaces 需頻繁 Git push 的痛點。新模式支援 SSH 連線與本地 VS Code 整合,程式碼變更可即時同步並熱重載,大幅縮短 AI 應用的開發與除錯週期,提供更流暢的雲端開發體驗。
Hugging Face 宣布與 AMD 展開深度合作,全面優化 AMD Instinct MI300X GPU。透過 AMD ROCm 軟體棧與 Hugging Face 核心庫(如 Transformers、TGI)的無縫整合,開發者無需修改程式碼即可在 MI300X 上運行 Llama 3 等大型模型。MI300X 憑藉 192GB HBM3 超大記憶體,為企業提供極具性價比且能擺脫單一晶片供應商依賴的高效能 AI 算力選擇。
隨著 LLM 上下文長度增加,KV Cache 佔用的記憶體成為推論瓶頸。Hugging Face 探討了 KV Cache 量化技術(如 INT8 和 INT4),這項技術能減少高達 75% 的快取記憶體佔用。這不僅能顯著提升推論的批次大小(Batch Size),還能在不犧牲太多精度的情況下,讓消費級顯卡也能運行超長文本生成。
Hugging Face 宣布推出「Open Arabic LLM Leaderboard」,這是一個專為阿拉伯語大語言模型設計的開源評測排行榜。該平台旨在解決阿拉伯語在 AI 評測上的資源匱乏問題,透過多維度的基準測試(如文化理解、推理與語言生成),幫助社群客觀評估並推動阿拉伯語 AI 模型的發展。
Hugging Face 與 LangChain 宣布推出全新的官方合作夥伴套件 langchain-huggingface。此套件旨在簡化開源模型與 LangChain 生態系的整合,提供更穩定、高效的連接方式。開發者現在可以透過統一的 API,輕鬆調用 Hugging Face 上的嵌入模型、本地 Pipeline 以及託管端點,大幅提升開發效率。
Google 發表全新開源視覺語言模型 PaliGemma,結合了 SigLIP 視覺編碼器與 Gemma-2B 語言模型。PaliGemma 具備強大的圖像描述、視覺問答(VQA)、物件偵測與 OCR 能力,並提供多種解析度版本。該模型已深度整合至 Hugging Face 生態系,非常適合開發者進行特定下游任務的微調。
Hugging Face 推出 Transformers Agents 2.0,對其 Agent 框架進行了全面重構。新版本主打兩大核心 Agent:能直接撰寫並執行 Python 程式碼的 CodeAgent,以及基於 ReAct 思考循環的 ReactAgent。此版本大幅簡化了工具(Tools)的自訂與分享機制,並支援多種開源與商業 LLM,為開發者提供更靈活、強大的 Agent 開發體驗。
Hugging Face 宣布其企業級平台 Enterprise Hub 已正式上架 AWS Marketplace。企業客戶現在可以直接使用現有的 AWS 帳戶進行訂閱,並將費用合併至 AWS 帳單中,簡化企業內部的採購與財務審批流程。此舉讓企業能更安全、合規地在 AWS 雲端環境中協作、部署與管理開源 AI 模型與數據集。
本文介紹如何結合 Intel Gaudi 2 AI 加速器與 Intel Xeon 處理器,打造具成本效益的企業級檢索增強生成(RAG)應用。透過 Hugging Face 的 TEI 與 TGI 技術,企業能在 Xeon 上高效處理向量嵌入,並在 Gaudi 2 上加速大語言模型推理,為非 Nvidia 生態系提供強大的替代方案。
Hugging Face 宣布推出「希伯來語 LLM 開放排行榜」(Open Leaderboard for Hebrew LLMs)。該平台旨在為希伯來語的大型語言模型提供客觀、標準化且開源的評估基準,解決非英語系語言在主流評測中資源匱乏的問題,有助於開發者評估與優化特定語系模型的表現。
Hugging Face 宣布與獨立評測機構 Artificial Analysis 合作,將其 LLM 效能排行榜引入平台。該榜單不僅評估模型品質,更著重於實際部署指標,如吞吐量(Tokens/sec)、首字延遲(TTFT)與每百萬 Token 的成本。這讓開發者在選擇模型與託管服務商(如 Groq、Together AI 等)時,能有更直觀且數據驅動的決策依據。
Hugging Face 介紹了如何在 Inference Endpoints 上整合自動語音辨識(ASR)與語者辨識(Diarization)。透過結合 Whisper 與 PyAnnote 模型,並導入投機解碼(Speculative Decoding)技術,大幅提升了語音轉文字的推理速度與精準度。此方案為開發者提供了一個開箱即用、具備高擴展性的生產級語音處理管線。
本文深入探討如何利用結構化生成(Structured Generations)解決 LLM 輸出格式不穩定的痛點。透過約束解碼(Constrained Decoding)技術(如 Outlines 或 TGI),能強迫模型輸出符合特定 JSON Schema 的內容。文章分析了這種技術的運作原理、如何進行評估,以及它對模型推理品質與生成速度的實際影響,是開發 Production-ready AI 應用的必讀指南。
Hugging Face 與 BigCode 社群推出 StarCoder2-Instruct-15B。該模型最大特色在於採用「完全透明」與「寬鬆授權」的自我對齊流程。傳統指令模型常依賴 GPT-4 生成數據導致商用受限,而 StarCoder2-Instruct 完全使用開源模型自身生成數據進行訓練,在確保商用合規的同時,於 HumanEval 等基準測試中展現優異性能。
Snowflake 推出全新開源企業級大語言模型 Arctic,採用 MoE(混合專家)架構。Replicate 迅速跟進,提供託管 API 服務。開發者現在無需自行配置昂貴的 GPU 硬體,只需透過 Replicate 的 API 或 SDK,即可用極低的成本與簡單的程式碼,在雲端部署並運行這款強大的開源模型。
Hugging Face 發表「Open Chain of Thought (CoT) 排行榜」,旨在解決傳統基準測試無法有效評估模型推理過程的問題。該排行榜專注於數學、邏輯與科學等需要多步驟思考的任務,並提供公開透明的評測標準。這將幫助開發者與研究人員深入了解開源模型在複雜推理上的真實實力與瓶頸。
Hugging Face 發表通用型代理人 JAT(Jack of All Trades),採用統一的 Transformer 架構,在 Atari、BabyAI、Meta-World 等多種強化學習環境與文字任務上進行聯合訓練。此研究展示了單一模型如何同時掌握多種不同領域的技能,並開源了數據集與模型權重,推動具身智能發展。
Hugging Face 與 Open Life Science AI 等機構合作推出「Open Medical-LLM Leaderboard」。該排行榜整合了 MedQA、MedMCQA、PubMedQA 及 MMLU 醫學子集等基準測試,旨在客觀評估 LLM 在醫療與臨床任務上的表現。這為醫療領域的 AI 研究人員與開發者提供了一個公開、標準化且易於比較的評估平台,有助於推動安全且精確的醫療 AI 發展。
Meta 正式推出全新一代開源大型語言模型 Llama 3,首波釋出 8B 與 70B 兩種參數版本。此版本採用 128k 詞彙量的新分詞器、支援 8K 上下文長度,並在超過 15 兆 Token 的超大資料集上進行訓練,程式碼與推理能力皆有飛躍性提升。Hugging Face 生態系已在第一時間全面整合,支援 Llama 3 的部署、微調與推論,為開源 AI 社群注入強大動力。
Hugging Face 介紹了 Gradio 的「Reload 模式」(熱重載)。開發者只需使用 `gradio app.py` 指令啟動服務,之後修改任何 UI 佈局或 Python 代碼並儲存,瀏覽器便會自動刷新呈現最新效果。這免去了過去頻繁手動重啟 Python 伺服器的繁瑣步驟,讓 AI 應用的原型設計與迭代變得無比流暢。
Hugging Face 宣布上線 LiveCodeBench 排行榜,旨在解決傳統程式碼評估基準(如 HumanEval)容易遭受數據污染的問題。LiveCodeBench 透過持續收集 LeetCode、AtCoder 等平台的全新編程競賽題目,確保模型在未曾接觸過的數據上進行測試。該基準不僅評估程式碼生成,還涵蓋程式碼修復、測試案例生成及執行等多維度能力,為 Code LLM 提供更客觀、動態的實力排名。
Hugging Face 與開源密碼學公司 Zama 合作,介紹如何在 Hugging Face Endpoints 上部署全同態加密(FHE)模型。透過 FHE 技術,用戶的敏感數據在傳輸與計算過程中皆保持加密狀態,雲端伺服器可在不解密的情況下完成推理。此方案為醫療、金融等高隱私需求行業提供了一種安全使用雲端 AI 算力的新途徑。
生醫 AI 平台 Ryght 宣布與 Hugging Face 專家支援團隊合作。面對醫療領域嚴格的 HIPAA 合規性、複雜的醫學術語與高昂的模型微調成本,Ryght 透過 Hugging Face 的技術指導,優化了開源模型的微調與推理效率。此合作成功讓 Ryght 快速推出專為臨床研究與數據分析設計的安全 AI 助理,大幅降低運算成本並縮短產品上市時間。
Hugging Face 正式發布 Idefics2,這是一款擁有 80 億參數的開源視覺語言模型(VLM)。它基於 Mistral-7B 與 SigLIP 構建,顯著提升了 OCR、圖表理解及多圖對話能力。Idefics2 支援原生解析度與長寬比,並以 Apache 2.0 授權釋出,極適合開發者進行微調與商業部署。
Hugging Face 發布視覺語言模型(VLM)科普指南,詳解其結合圖像編碼器與文字解碼器的架構設計。文章涵蓋了從多模態預訓練到指令微調的完整訓練流程,並介紹了 LLaVA、Idefics 等主流開源模型。此外,也提供了如何使用 Hugging Face transformers 庫進行推理的實用程式碼範例,是理解多模態 AI 的必讀教材。
Hugging Face 宣布與 Google Cloud 合作,將其平台上數千個開源大語言模型(LLM)整合至 Vertex AI Model Garden。開發者現在無需複雜的設定,即可直接在 Google Cloud 環境中一鍵部署、微調及管理這些開源模型。此舉大幅降低了企業在雲端部署開源 AI 模型的門檻,並提升了運算資源的利用效率。
Google 官方正式發布 CodeGemma 程式碼模型系列,基於 Gemma 架構。提供專攻 IDE 程式碼補全(Fill-in-the-Middle)的 2B 版本,以及適合程式碼生成與對話的 7B 版本。該系列模型已深度整合至 Hugging Face 生態系,支援多種主流程式語言,為開發者提供高效且可本地運行的開源 AI 助手選擇。