Hugging Face 宣布其文字生成推理(TGI)框架現已整合 Intel Gaudi 加速器後端。這項合作讓開發者能直接在 Intel Gaudi 2 和 Gaudi 3 晶片上部署高效能 LLM,並享有連續批處理(Continuous Batching)與張量並行(Tensor Parallelism)等優化技術。此舉為企業在 NVIDIA 之外,提供了一個極具成本效益且易於部署的 AI 推理硬體新選擇。
本文為 Hugging Face 釋出的實用指南,詳細介紹如何在 AWS 環境中部署與微調熱門的 DeepSeek-R1 及其蒸餾(Distilled)模型。內容涵蓋使用 Hugging Face LLM DLC(深度學習容器)與 TGI 技術在 Amazon SageMaker 上進行低延遲推論部署,以及如何透過 SageMaker 訓練作業與 Hugging Face TRL 庫進行高效微調(如 LoRA),並提供針對不同模型大小的 AWS 硬體配置建議。
Hugging Face 的 Text Generation Inference (TGI) 宣布支援多後端架構,正式整合 NVIDIA TensorRT-LLM 與 vLLM。這項更新讓開發者無需在 TGI 的生產級功能(如 Tokenizer、工具調用、安全防護)與其他引擎的極致效能之間做抉擇。現在,用戶可以透過簡單的設定,直接在 TGI 中調用 TRT-LLM 的硬體優化或 vLLM 的高吞吐量優勢。
生醫 AI 平台 Ryght 宣布與 Hugging Face 專家支援團隊合作。面對醫療領域嚴格的 HIPAA 合規性、複雜的醫學術語與高昂的模型微調成本,Ryght 透過 Hugging Face 的技術指導,優化了開源模型的微調與推理效率。此合作成功讓 Ryght 快速推出專為臨床研究與數據分析設計的安全 AI 助理,大幅降低運算成本並縮短產品上市時間。
Hugging Face 宣佈旗下高效能大語言模型推理框架 Text Generation Inference (TGI) 正式支援 AWS Inferentia2 (Inf2) 執行個體。透過與 AWS Neuron SDK 的整合,開發者現在能以極具性價比的方式在 AWS 上部署 Llama 2、Mistral 等主流開源模型。此舉不僅簡化了專用硬體上的部署流程,更可望降低高達 50% 的推理成本。
Hugging Face 分享了優化 LoRA 模型推論的技術突破。傳統上,為不同用戶切換微調模型會面臨嚴重的「冷啟動」延遲;新方案透過在 Text Generation Inference (TGI) 中實現動態載入 LoRA 轉接器(Adapters),讓共享同一個基礎模型的不同微調版本能即時切換,使整體推論速度提升達 300%,大幅降低多租戶架構的部署成本與延遲。
本文系統性介紹 Hugging Face 的開源 LLM 生態系。核心組件包括用於模型載入與推理的 Transformers、實現高效微調的 PEFT、專為高並發部署設計的 Text Generation Inference (TGI),以及支援對齊演算法(如 SFT、DPO)的 TRL。透過這些工具的協同效應,開發者可以低成本、高效地完成從模型選型、微調到生產線部署的全流程。
Hugging Face 介紹了其託管服務 Inference Endpoints,旨在簡化大型語言模型(LLM)的部署流程。開發者只需在 Hugging Face Hub 選擇模型,即可一鍵部署至 AWS 或 Azure 的安全 GPU 環境。該服務整合了 Text Generation Inference (TGI) 技術,支援動態批處理與張量並行,大幅提升推理效率並降低成本。
本案例研究探討了企業級生成式 AI 平台 Writer 如何與 Hugging Face 深度合作。Writer 透過 Hugging Face 的 Transformers、Accelerate 以及 Text Generation Inference (TGI) 等技術,成功開發並部署了專為企業設計的 Palmyra 系列模型。這不僅大幅降低了模型訓練與推論的成本,更在確保數據隱私與合規性的前提下,為企業客戶提供了高度客製化的 AI 解決方案。
Hugging Face 宣布推出專為 Amazon SageMaker 設計的全新深度學習容器(DLC),用於部署大型語言模型(LLM)。該容器整合了 Text Generation Inference (TGI) 技術,支援張量並行、動態批處理與 Token 串流。開發者現在能以極低延遲與高吞吐量,在 AWS 託管環境中輕鬆部署 Falcon、Llama 等開源大模型。