AI 部署平台 Replicate 正式推出 NVIDIA L40S GPU 算力選項。與傳統的 A100 或 A10G 相比,L40S 在圖像生成(如 Stable Diffusion)和中小型語言模型推理上,提供了更優異的性能與更低的運算成本,是開發者優化 AI 部署成本的新選擇。
Hugging Face 釋出最新指南,介紹如何將現有的預訓練大語言模型(LLM)微調至 1.58-bit(三進制模型)。傳統的 BitNet 1.58B 需要極為昂貴的從頭預訓練,而此方法允許開發者直接對現有開源模型(如 Llama)進行極限非線性量化微調。這項技術將權重限制在 -1、0、1 三個值,極大降低了顯存佔用與計算頻寬,讓大模型在消費級硬體甚至 CPU 上也能高效運行。
本篇 Hugging Face 部落格文章深入介紹了由 Georgi Gerganov 開發的輕量級 C/C++ 張量庫 GGML。GGML 是 llama.cpp 的底層核心,專為消費級硬體(如 CPU 和 Apple Silicon)優化。文章解析了其無依賴性、高效量化(4-bit/8-bit)以及如何演進至現今主流的 GGUF 格式,是理解本地端 LLM 部署的必讀指南。
Hugging Face 宣布與 NVIDIA 深度整合,在 Hugging Face Hub 上推出全新「無伺服器推論 (Serverless Inference)」服務。該服務由 NVIDIA NIM 微服務與 DGX Cloud 驅動,開發者無需管理複雜的 GPU 基礎設施,即可一鍵部署 Llama 3、Mistral 等熱門開源模型,並享有 TensorRT 優化帶來的極致效能與低延遲。
Hugging Face 的 Text Generation Inference (TGI) 推出 Multi-LoRA 服務功能。開發者只需在 GPU 上部署一個基礎模型(如 Llama 3),就能動態載入並同時運行多達 30 個不同的 LoRA 微調適配器(Adapters)。這項技術大幅降低了多模型部署的 GPU 顯存與硬體成本,並透過優化的批處理技術確保低延遲,是 LLMOps 領域的重大優化。
Hugging Face 與 Google Cloud 合作,正式將 TPU(如 TPU v5e)引入其平台。用戶現在可以在 Hugging Face Spaces 和 Inference Endpoints 中直接選擇 TPU 作為硬體加速器。這項整合為部署大型語言模型和擴散模型提供了極具性價比的 GPU 替代方案,大幅降低了雲端推理的成本與門檻。
AI 雲端託管平台 Replicate 宣佈即將引進強大的 NVIDIA H100 Tensor Core GPU。此硬體升級將全面支援平台上的模型推理(Predictions)與微調訓練(Training),為開發者帶來更低的延遲與更快的運算速度。目前官方已正式開放早期存取(Early Access)的申請管道,有高算力需求、想搶先體驗 H100 效能的開發者與企業,現在即可聯繫官方團隊加入測試名單。
Hugging Face 詳細介紹了其開源 LLM 推理框架 Text Generation Inference (TGI) 的基準測試方法。文章深入解析了首字延遲 (TTFT)、每 token 延遲 (TPOT) 與吞吐量等關鍵指標,並指導開發者如何使用 TGI 內建工具進行壓力測試。這對於需要在生產環境中部署與優化大模型、權衡成本與性能的工程師來說是必讀指南。
Hugging Face 宣布其託管服務 Inference Endpoints 正式支援 AWS Inferentia2 (Inf2) 執行個體。這項整合讓開發者無需繁瑣的編譯設定,即可將 Llama、Mistral 等大型語言模型部署至 AWS 的專屬推論晶片上。相較於傳統 GPU,Inferentia2 能大幅降低推論成本並提升吞吐量,為企業提供更具成本效益的生產環境部署選擇。
本文介紹如何結合 Intel Gaudi 2 AI 加速器與 Intel Xeon 處理器,打造具成本效益的企業級檢索增強生成(RAG)應用。透過 Hugging Face 的 TEI 與 TGI 技術,企業能在 Xeon 上高效處理向量嵌入,並在 Gaudi 2 上加速大語言模型推理,為非 Nvidia 生態系提供強大的替代方案。
Hugging Face 與開源密碼學公司 Zama 合作,介紹如何在 Hugging Face Endpoints 上部署全同態加密(FHE)模型。透過 FHE 技術,用戶的敏感數據在傳輸與計算過程中皆保持加密狀態,雲端伺服器可在不解密的情況下完成推理。此方案為醫療、金融等高隱私需求行業提供了一種安全使用雲端 AI 算力的新途徑。
Hugging Face 分享了優化 LoRA 模型推論的技術突破。傳統上,為不同用戶切換微調模型會面臨嚴重的「冷啟動」延遲;新方案透過在 Text Generation Inference (TGI) 中實現動態載入 LoRA 轉接器(Adapters),讓共享同一個基礎模型的不同微調版本能即時切換,使整體推論速度提升達 300%,大幅降低多租戶架構的部署成本與延遲。
Hugging Face 與 NVIDIA 合作推出 Optimum-NVIDIA 庫,旨在簡化 TensorRT-LLM 的使用門檻。開發者只需將原本的 Transformers 模型載入程式碼替換為 Optimum-NVIDIA 的對應類別,即可在 NVIDIA GPU 上獲得極致的推理加速與顯存優化,並支援 FP8 等低精度量化。
Hugging Face 介紹如何使用 AWS Inferentia2(Inf2 執行個體)來加速 Llama 2 模型的推理。透過 Optimum Neuron 整合庫,開發者可以輕鬆將 Llama 2 編譯並部署至 AWS 自研晶片上。這不僅能顯著提升文字生成速度(降低延遲),還能大幅降低雲端部署的硬體成本,是 NVIDIA GPU 之外的高性價比替代方案。
Hugging Face 宣布其 Inference Endpoints 正式支援高效部署嵌入模型(Embedding Models)。此服務整合了 Text Embeddings Inference (TEI) 技術,提供極低的延遲、動態批處理與高吞吐量。開發者只需幾鍵即可在專屬雲端基礎設施(如 AWS 或 Azure)上部署開源嵌入模型,極大簡化了 RAG(檢索增強生成)與向量搜尋系統的建置流程。
Hugging Face 宣布為每月 9 美元的 PRO 訂閱用戶升級 Serverless 推理 API 服務。PRO 用戶將享有更高的速率限制、更低的延遲,並能直接調用 Llama 2、Falcon 與 StarCoder 等熱門大型開源模型。這項升級讓開發者在部署專屬端點前,能以極低成本進行高效的原型開發與測試。
本文介紹 Hugging Face Transformers 庫中原生整合的量化方案。主要涵蓋 bitsandbytes(包含 8-bit 與用於 QLoRA 的 4-bit 量化)以及 GPTQ 技術。文章詳細解析了各量化方案的運作原理、記憶體節省幅度、推論速度表現,並提供對應的程式碼範例,幫助開發者在有限的硬體資源下部署與微調大型語言模型。
美國知名消費回饋平台 Fetch 每日需處理數百萬張發票收據。為了提升 OCR、商品匹配與商家分類等 NLP 任務的效率,Fetch 採用了 Amazon SageMaker 與 Hugging Face 的整合方案。此舉不僅讓機器學習模型的推理延遲大幅降低 50%,同時也優化了運算成本與部署流程。
本文系統性介紹 Hugging Face 的開源 LLM 生態系。核心組件包括用於模型載入與推理的 Transformers、實現高效微調的 PEFT、專為高並發部署設計的 Text Generation Inference (TGI),以及支援對齊演算法(如 SFT、DPO)的 TRL。透過這些工具的協同效應,開發者可以低成本、高效地完成從模型選型、微調到生產線部署的全流程。
Hugging Face 介紹了其託管服務 Inference Endpoints,旨在簡化大型語言模型(LLM)的部署流程。開發者只需在 Hugging Face Hub 選擇模型,即可一鍵部署至 AWS 或 Azure 的安全 GPU 環境。該服務整合了 Text Generation Inference (TGI) 技術,支援動態批處理與張量並行,大幅提升推理效率並降低成本。
阿布達比技術創新研究所(TII)推出的 Falcon-40B 與 Falcon-7B 模型正式整合至 Hugging Face 生態系統。這款模型在 Open LLM 排行榜上名列前茅,並採用了優化推理效率的 Multi-Query Attention 架構。本篇部落格介紹了如何使用 Transformers 庫進行推理、量化以及微調 Falcon 模型。
Hugging Face 與 AWS 合作,透過 optimum-neuron 工具套件,簡化了在 AWS Inferentia2 (Inf2) 實例上部署 Transformers 模型的流程。開發者現在可以輕鬆將 PyTorch 模型編譯並運行於專為深度學習推理設計的 Inf2 晶片上。這項整合不僅大幅降低了雲端推理成本,還顯著提升了模型吞吐量並降低延遲。
Hugging Face 與 Intel 合作,展示在 Habana Gaudi2 晶片上運行 1760 億參數的大型語言模型 BLOOMZ 的推理表現。 透過 optimum-habana 整合,開發者只需修改幾行程式碼,即可在 Gaudi2 上輕鬆部署並加速 LLM。 基準測試顯示 Gaudi2 在處理超大型模型時,展現出超越 NVIDIA A100 的優異吞吐量與低延遲,為企業提供極具性價比的替代方案。
Mantis NLP 團隊分享了他們將 NLP 模型部署全面轉向 Hugging Face Inference Endpoints 的實戰經驗。相較於傳統自建 AWS SageMaker 或 EC2 基礎設施,Hugging Face 提供極低的維護門檻、靈活的自動縮放(包括縮減至零)以及極具競爭力的價格。這項轉變不僅大幅縮短了產品上線時間,也讓團隊能更專注於模型本身的研發而非繁雜的運維工作。
本文為 Hugging Face 與 Intel 合作系列文章的第二部分,聚焦於推論加速。介紹如何透過 Intel 第四代 Xeon 可擴充處理器(Sapphire Rapids)內建的 Intel AMX 技術,並結合 Hugging Face Optimum Intel 與 IPEX 工具,實現 BF16 與 INT8 的混合精度推論。測試顯示,這能為 Transformer 模型帶來數倍的效能提升,且只需修改極少量的代碼。
Hugging Face 與 Intel 合作,展示如何在新一代 Intel Sapphire Rapids 處理器上加速 Transformer 模型。 透過內建的 Intel AMX(進階矩陣擴充)指令集,能顯著提升 BF16 與 INT8 的運算效率。 開發者只需搭配 optimum-intel 庫,即可輕鬆在 CPU 上實現高達數倍的推理與訓練加速,無需繁瑣的底層代碼修改。
本文為 Hugging Face 官方發布的推理(Inference)解決方案指南,系統性介紹了四大核心方案:免費且即開即用的 Serverless Inference API、適合生產環境且安全可控的 Inference Endpoints、用於展示與應用的 Spaces,以及與 AWS/Azure 合作的雲端整合方案。旨在幫助開發者根據預算、延遲與隱私需求,選擇最適合的開源模型部署路徑。
Hugging Face 介紹了 `optimum-intel` 與 Intel OpenVINO 的整合。開發者可使用簡單的 `OVModel` API 直接在 Intel CPU 和 GPU 上載入、優化並運行 Hugging Face 模型。此工具還整合了 NNCF 框架,支援將模型量化至 INT8,在極低精度損失下顯著提升推理效率並降低延遲,非常適合邊緣運算與伺服器部署。
Hugging Face Inference Endpoints 是一項完全託管的服務,旨在簡化機器學習模型的部署流程。用戶只需點擊幾下,即可將 Hugging Face Hub 上的任何模型部署到 AWS 或 Azure 等雲端基礎設施。該服務支援 GPU/CPU 彈性縮放、自訂容器與私有連線(VPC),大幅降低了開發者與企業維護生產級推論 API 的門檻與成本。
Hugging Face 介紹了其 `Accelerate` 函式庫如何解決超大型模型(如 BLOOM-176B)在單一或有限 GPU 上因記憶體不足而無法加載的痛點。透過 PyTorch 的「元設備(Meta Device)」進行空權重初始化,並結合 `device_map="auto"` 自動將模型層分配至 GPU、CPU 甚至硬碟。這項技術讓開發者與研究人員能在消費級硬體或有限的資源下,進行超大模型的推理與微調。