Hugging Face 宣布在 Inference Endpoints 中支援「Remote VAE」解碼功能。在運行 FLUX.1 或 Stable Diffusion 等大型圖像生成模型時,VAE 解碼通常會消耗大量 GPU 顯存(VRAM)。透過將 VAE 解碼步驟與潛在空間生成解耦並進行遠端處理,開發者可以在較小、較便宜的 GPU 上部署大型擴散模型,同時優化整體的推論吞吐量與頻寬傳輸。
Hugging Face 發布技術教學,介紹如何在 Inference Endpoints 上部署語音對語音(Speech-to-Speech, S2S)模型。透過自訂 EndpointHandler 與串流(Streaming)技術,開發者可以實現低延遲的即時語音互動。本文以開源的 Mini-Omni 模型為例,展示了從環境設定、撰寫自訂推論邏輯到部署至 GPU 節點的完整流程。
個人理財應用 Rocket Money 面臨交易分類模型流量劇烈波動的挑戰。透過導入 Hugging Face Inference Endpoints,他們實現了自動彈性伸縮(Auto-scaling),不僅大幅降低基礎設施成本,還簡化了部署流程,讓數據科學團隊無需依賴繁重的 DevOps 即可快速將模型推向生產環境,同時保持極低的延遲。
Hugging Face 宣布調整其平台定價機制。本次更新推出了每月 9 美元的 PRO 方案,為個人創作者與研究人員提供 GPU 額度與進階功能。同時,針對 Spaces 硬體升級、Inference Endpoints 與 AutoTrain 等付費服務,全面改為更靈活的按需計費(Pay-as-you-go)模式,而免費社群版功能則維持不變。