Hugging Face 配合 Apple WWDC 24 的更新,發表了將 Mistral 7B 轉換並運行於 Core ML 的完整指南。 透過 Core ML 轉換工具與 4-bit 等量化技術,開發者能將模型部署至 Apple Silicon 晶片,充分利用 Apple 類神經網路引擎(ANE)與統一記憶體。 此舉大幅降低了在 macOS、iOS 等 Apple 生態系中本地部署高效能開源 LLM 的門檻。
Hugging Face 的 Text Generation Inference (TGI) 推出 Multi-LoRA 服務功能。開發者只需在 GPU 上部署一個基礎模型(如 Llama 3),就能動態載入並同時運行多達 30 個不同的 LoRA 微調適配器(Adapters)。這項技術大幅降低了多模型部署的 GPU 顯存與硬體成本,並透過優化的批處理技術確保低延遲,是 LLMOps 領域的重大優化。
Hugging Face 宣布與 KerasHub(前身為 KerasNLP 與 KerasCV)達成全新整合。開發者現在可以使用簡單的 API,直接在 Hugging Face Hub 上儲存與載入 KerasHub 模型。這項整合支援 Keras 3 的多後端特性,讓使用者能無縫在 JAX、PyTorch 或 TensorFlow 之間切換,大幅簡化了跨框架模型的部署與微調流程。
法國 Banque des Territoires(CDC 集團旗下)與技術夥伴 Polyconseil 及 Hugging Face 合作,針對其重大環境與生態轉型計畫推出「主權數據解決方案」。該方案旨在確保敏感的國土與環境數據在處理時符合歐洲嚴格的隱私法規(如 GDPR)。透過 Hugging Face 的開源模型生態系統與本地化部署,該計畫成功在不依賴非歐盟雲端服務的前提下,利用先進 AI 進行大規模文件分析與決策輔助,為公部門的 AI 主權化樹立了典範。
Hugging Face 宣布其託管服務 Inference Endpoints 正式支援 AWS Inferentia2 (Inf2) 執行個體。這項整合讓開發者無需繁瑣的編譯設定,即可將 Llama、Mistral 等大型語言模型部署至 AWS 的專屬推論晶片上。相較於傳統 GPU,Inferentia2 能大幅降低推論成本並提升吞吐量,為企業提供更具成本效益的生產環境部署選擇。
Hugging Face 宣布與微軟深化合作,將其開源模型庫與 Azure AI Studio 進行深度整合。開發者現在可以直接在 Azure 上以無伺服器 API(Model-as-a-Service)形式部署熱門開源模型。此外,雙方也加強了對 Windows AI 本地端運算(如 ONNX Runtime)的支援,全面打通從雲端到邊緣端的開發流程。
Hugging Face 與 Dell 聯手推出 Dell Enterprise Hub,旨在簡化企業在地端(On-Premise)部署 AI 模型的流程。該平台提供針對 Dell PowerEdge 等硬體優化的容器與主流開源模型(如 Llama 3、Mistral),確保高效能與安全性。企業用戶可直接在熟悉的 Dell 基礎設施中一鍵部署、微調開源模型,完美解決資料隱私與合規性痛點。
Hugging Face 宣布與 AMD 展開深度合作,全面優化 AMD Instinct MI300X GPU。透過 AMD ROCm 軟體棧與 Hugging Face 核心庫(如 Transformers、TGI)的無縫整合,開發者無需修改程式碼即可在 MI300X 上運行 Llama 3 等大型模型。MI300X 憑藉 192GB HBM3 超大記憶體,為企業提供極具性價比且能擺脫單一晶片供應商依賴的高效能 AI 算力選擇。
本文介紹如何結合 Intel Gaudi 2 AI 加速器與 Intel Xeon 處理器,打造具成本效益的企業級檢索增強生成(RAG)應用。透過 Hugging Face 的 TEI 與 TGI 技術,企業能在 Xeon 上高效處理向量嵌入,並在 Gaudi 2 上加速大語言模型推理,為非 Nvidia 生態系提供強大的替代方案。
Hugging Face 宣布與獨立評測機構 Artificial Analysis 合作,將其 LLM 效能排行榜引入平台。該榜單不僅評估模型品質,更著重於實際部署指標,如吞吐量(Tokens/sec)、首字延遲(TTFT)與每百萬 Token 的成本。這讓開發者在選擇模型與託管服務商(如 Groq、Together AI 等)時,能有更直觀且數據驅動的決策依據。
Vercel 正式發布 AI SDK 3.1,並宣布開源專案 ModelFusion 的創辦人 Lars Grammel 加入 Vercel 團隊。本次更新引入了全新的 Core API(如 generateText 與 streamText),提供統一且型別安全的介面來操作各大 LLM。此外,新版本大幅簡化了結構化資料生成(Structured Outputs)與工具調用(Tool Calling)的開發流程。
本文深入探討如何利用結構化生成(Structured Generations)解決 LLM 輸出格式不穩定的痛點。透過約束解碼(Constrained Decoding)技術(如 Outlines 或 TGI),能強迫模型輸出符合特定 JSON Schema 的內容。文章分析了這種技術的運作原理、如何進行評估,以及它對模型推理品質與生成速度的實際影響,是開發 Production-ready AI 應用的必讀指南。
生醫 AI 平台 Ryght 宣布與 Hugging Face 專家支援團隊合作。面對醫療領域嚴格的 HIPAA 合規性、複雜的醫學術語與高昂的模型微調成本,Ryght 透過 Hugging Face 的技術指導,優化了開源模型的微調與推理效率。此合作成功讓 Ryght 快速推出專為臨床研究與數據分析設計的安全 AI 助理,大幅降低運算成本並縮短產品上市時間。
Hugging Face 正式發布 Idefics2,這是一款擁有 80 億參數的開源視覺語言模型(VLM)。它基於 Mistral-7B 與 SigLIP 構建,顯著提升了 OCR、圖表理解及多圖對話能力。Idefics2 支援原生解析度與長寬比,並以 Apache 2.0 授權釋出,極適合開發者進行微調與商業部署。
Hugging Face 宣布與 Cloudflare 深度整合,推出無伺服器 GPU 推理服務。開發者現在可以直接在 Hugging Face Hub 上,一鍵將熱門的開源模型(如 Llama 和 Mistral)部署至 Cloudflare Workers AI。這項合作免除了管理 GPU 基礎設施的繁瑣工作,並利用 Cloudflare 的全球邊緣網路提供低延遲、高彈性的 AI 推理能力。
Hugging Face 發布了當時最大的開源合成數據集 Cosmopedia,內含 250 億 Token。該項目利用 Mixtral-8x7B 模型,根據精心設計的提示詞與主題生成教科書、部落格和教學等多元內容。實驗證明,使用此合成數據預訓練的 1.8B 模型(Cosmo-1.8B)在多項基準測試中超越了同量級的知名模型,為 LLM 預訓練提供了全新的合成數據生成範式。
Hugging Face 聯合 AI 安全新創 Haize Lab 推出「Red-Teaming Resistance Leaderboard」(紅隊對抗排行榜)。該榜單旨在評估開源與商業大語言模型(LLM)在面對惡意越獄(Jailbreak)與對抗性攻擊時的防禦能力。透過自動化紅隊測試工具,量化模型在安全對齊上的真實強度,為開發者提供更具實戰價值的安全參考指標。
Hugging Face 指出,利用開源模型與工具(如 distilabel)生成合成數據(Synthetic Data),已成為現代 AI 開發的重要趨勢。這種方法不僅能將數據準備成本降低數倍,還能大幅縮短開發週期。更重要的是,透過蒸餾技術訓練小型專屬模型,能顯著減少推論與訓練過程中的碳排放,實現更永續的 AI 生態。
Hugging Face 推出全新的 NPHardEval 排行榜,旨在透過計算複雜度理論(如 P、NP-Complete、NP-Hard 問題)來嚴格評估大型語言模型(LLM)的邏輯推理與規劃能力。為了解決傳統基準測試容易因訓練數據污染而失效的問題,NPHardEval 採用動態更新機制,定期生成全新測驗。這項工具能幫助研究人員更準確地衡量模型在面對複雜優化問題時的真實推理極限。
Hugging Face 宣佈旗下高效能大語言模型推理框架 Text Generation Inference (TGI) 正式支援 AWS Inferentia2 (Inf2) 執行個體。透過與 AWS Neuron SDK 的整合,開發者現在能以極具性價比的方式在 AWS 上部署 Llama 2、Mistral 等主流開源模型。此舉不僅簡化了專用硬體上的部署流程,更可望降低高達 50% 的推理成本。
Hugging Face 與 AI 評測新創 Patronus AI 合作,推出全新的「企業情境排行榜」(Enterprise Scenarios Leaderboard)。此排行榜旨在解決傳統學術基準(如 MMLU)與實際企業應用脫節的問題。評測涵蓋金融分析(如 SEC 申報文件)、法律合約理解、客戶服務以及隱私資訊(PII)防範等真實場景,為企業選擇最適合的 LLM 提供客觀的實戰數據參考。
本文介紹如何使用開源 LLM(如 Mixtral-8x7B)作為 LangChain Agent。過去 Agent 多依賴 GPT-4,但隨著開源模型推理能力提升,透過正確的 Prompt 格式(如 ReAct 框架)與 Hugging Face TGI 整合,開源模型也能穩定執行工具調用與多步驟推理,提供高隱私且低成本的替代方案。
Hugging Face 宣布旗下 TRL(Transformer Reinforcement Learning)微調工具包正式整合 Unsloth。開發者現在只需修改幾行程式碼,即可在進行監督式微調(SFT)時獲得 2 倍以上的訓練速度提升,並減少高達 60% 的 VRAM 記憶體消耗。此整合支援 Llama-2、Mistral 等主流開源模型,且完全不損害模型精度。
2023 年是開源大語言模型(LLM)的黃金時代。從 Meta 發布 LLaMA 奠定基礎,到 Mistral 推出高效的 MoE 模型,開源社群在模型架構、量化技術(QLoRA)與對齊方法(DPO)上取得突破。Hugging Face 的 Open LLM Leaderboard 更成為推動這波開源浪潮的核心樞紐,縮短了開源與閉源模型之間的差距。
Mistral AI 發表全新混合專家(MoE)模型 Mixtral 8x7B,總參數 46.7B 但每次 token 僅啟用 12.9B,速度極快。其在多項基準測試中超越 Llama 2 70B 及 GPT-3.5,並支援 32k 脈絡長度。Hugging Face 已於 Transformers、TGI 及推理終端全面整合,並採 Apache 2.0 開源授權。
本指南深入解析混合專家模型(MoE)的核心技術。MoE 透過門控網路(Router)將輸入 token 分流至不同的專家網路(FFN),實現「高參數量、低計算量」的優勢。文中探討了 MoE 的歷史、訓練挑戰(如負載均衡與記憶體佔用),以及如何高效部署與微調此類模型。
Hugging Face 與 NVIDIA 合作推出 Optimum-NVIDIA 庫,旨在簡化 TensorRT-LLM 的使用門檻。開發者只需將原本的 Transformers 模型載入程式碼替換為 Optimum-NVIDIA 的對應類別,即可在 NVIDIA GPU 上獲得極致的推理加速與顯存優化,並支援 FP8 等低精度量化。
Hugging Face 釋出技術指南,比較 RoBERTa、Llama 2 與 Mistral 7B 在「災難推特分類」任務上的表現。 透過 LoRA(低秩適應)技術,詳細分析了傳統編碼器模型與現代生成式大模型在分類精準度、訓練時間與硬體資源(VRAM)上的折衷。 結果顯示,雖然 7B 模型具備強大理解力,但較小的 RoBERTa 在特定分類任務上依然展現出極高的成本效益與競爭力。
這是一篇由 Replicate 釋出的實用教學,指導開發者如何建構檢索增強生成(RAG)系統。文章詳細說明了如何使用 bge-large-en 模型生成文本嵌入向量,並將其儲存於 ChromaDB 向量資料庫中。最後,透過部署在 Replicate 上的 Mistral-7B-Instruct 模型,根據檢索到的上下文生成精確的回答。
Mistral 7B 是由 Mistral AI 推出的高效能開源大型語言模型,在多項基準測試中超越了 Llama 2 13B。 本文詳細說明 Mistral 7B 的核心技術優勢(如分組查詢注意力與滑動窗口注意力),並展示如何利用 Replicate 平台。 開發者只需簡單的 API 呼叫(如 Python 或 Node.js),即可快速將此模型整合至自己的應用程式中。