Hugging Face 宣布與歐洲最大雲端服務商 OVHcloud 合作,將其納入「推理供應商(Inference Providers)」生態系。開發者現在可以直接在 Hugging Face Hub 上,選擇由 OVHcloud 託管的基礎設施來運行開源 AI 模型。此合作為重視 GDPR 合規與數據主權的企業,提供了安全、高效且具成本效益的無伺服器(Serverless)推理新選擇。
Hugging Face 與 Google Cloud 達成全新戰略合作,旨在為開發者提供更便利的開源 AI 開發環境。 開發者現在可以直接在 Google Cloud 的 Vertex AI 和 GKE 上一鍵部署 Hugging Face 的數十萬個開源模型。 此合作還整合了 Google Cloud Marketplace,並支援 TPU 與 GPU 加速,大幅降低企業與個人開發者訓練與部署 AI 的門檻。
Hugging Face 宣佈與 Public AI 合作,正式將其整合至「推理提供商(Inference Providers)」生態系中。開發者現在可以直接在 Hugging Face Hub 上,選擇由 Public AI 提供的無伺服器(Serverless)API 來運行 Llama、Mistral 等熱門開源模型。此舉不僅簡化了 AI 應用的部署流程,也為開發者在尋求高效能、低延遲且具成本效益的推理基礎設施時,提供了全新的選擇。
Hugging Face 宣布與 Together AI 深度整合,推出全新微調解決方案。開發者現在可以直接從 Hugging Face Hub 選擇任何開源大語言模型,並利用 Together AI 的高效能 GPU 叢集與微調 API 進行訓練。此合作大幅簡化了微調的工作流程,免去繁瑣的硬體設定,並提供極具成本效益的無伺服器微調體驗。
Hugging Face 宣布與 NVIDIA 合作推出「訓練集群即服務」(Training Cluster as a Service)。這項新服務旨在簡化大規模 AI 模型的訓練流程,讓企業與開發者無需處理繁雜的基礎設施設定,即可直接在 Hugging Face 平台上租用由 NVIDIA 技術支援的高效能 GPU 運算集群,快速進行模型微調與訓練。
Microsoft 與 Hugging Face 宣布深化合作,將 Hugging Face 的開源模型庫與 Azure AI Foundry(前身為 Azure AI Studio)進行深度整合。開發者現在可以直接在 Azure 安全且具備合規性的企業級環境中,輕鬆搜尋、部署與微調數十萬個 Hugging Face 的開源模型,大幅簡化企業導入開源 AI 的工作流程。
AI 雲端託管平台 Replicate 宣布正式支援 NVIDIA H100 GPU。這項硬體升級將為平台用戶帶來顯著的效能提升,並透過縮短運算時間來降低實際使用成本。對於需要在雲端高效運行或微調開源模型的開發者與研究人員而言,這是一個高性價比的新選擇。
Hugging Face 宣布新增三家無伺服器(Serverless)推論合作夥伴:Hyperbolic、Nebius AI Studio 與 Novita AI。開發者現在能直接在 Hugging Face 生態系中,以更具彈性、低延遲且具成本效益的方式呼叫各類主流開源模型。這項更新不僅擴展了 Hugging Face 的推論 API 選擇,也為去中心化運算與高效能 GPU 雲端服務帶來更多應用場景。
AI 部署平台 Replicate 正式推出 NVIDIA L40S GPU 算力選項。與傳統的 A100 或 A10G 相比,L40S 在圖像生成(如 Stable Diffusion)和中小型語言模型推理上,提供了更優異的性能與更低的運算成本,是開發者優化 AI 部署成本的新選擇。
Hugging Face 推出全新微服務 HUGS(Hugging Face Microservices),旨在簡化開源 AI 模型的部署流程。HUGS 提供經過高度優化且開箱即用的 Docker 容器,支援 Llama、Mistral 等熱門模型,並針對 NVIDIA、AMD 及 AWS 等硬體進行效能優化。開發者可以透過與 OpenAI 相容的 API 快速整合,在私有雲或主流雲端平台上輕鬆擴展 AI 應用。
Hugging Face 與 Google Cloud 合作,正式將 TPU(如 TPU v5e)引入其平台。用戶現在可以在 Hugging Face Spaces 和 Inference Endpoints 中直接選擇 TPU 作為硬體加速器。這項整合為部署大型語言模型和擴散模型提供了極具性價比的 GPU 替代方案,大幅降低了雲端推理的成本與門檻。
AI 雲端託管平台 Replicate 宣佈即將引進強大的 NVIDIA H100 Tensor Core GPU。此硬體升級將全面支援平台上的模型推理(Predictions)與微調訓練(Training),為開發者帶來更低的延遲與更快的運算速度。目前官方已正式開放早期存取(Early Access)的申請管道,有高算力需求、想搶先體驗 H100 效能的開發者與企業,現在即可聯繫官方團隊加入測試名單。
Hugging Face 宣布其託管服務 Inference Endpoints 正式支援 AWS Inferentia2 (Inf2) 執行個體。這項整合讓開發者無需繁瑣的編譯設定,即可將 Llama、Mistral 等大型語言模型部署至 AWS 的專屬推論晶片上。相較於傳統 GPU,Inferentia2 能大幅降低推論成本並提升吞吐量,為企業提供更具成本效益的生產環境部署選擇。
Hugging Face 宣布與微軟深化合作,將其開源模型庫與 Azure AI Studio 進行深度整合。開發者現在可以直接在 Azure 上以無伺服器 API(Model-as-a-Service)形式部署熱門開源模型。此外,雙方也加強了對 Windows AI 本地端運算(如 ONNX Runtime)的支援,全面打通從雲端到邊緣端的開發流程。
Hugging Face 宣布其企業級平台 Enterprise Hub 已正式上架 AWS Marketplace。企業客戶現在可以直接使用現有的 AWS 帳戶進行訂閱,並將費用合併至 AWS 帳單中,簡化企業內部的採購與財務審批流程。此舉讓企業能更安全、合規地在 AWS 雲端環境中協作、部署與管理開源 AI 模型與數據集。
Hugging Face 宣布與 NVIDIA 深度整合,將 DGX Cloud 的強大算力直接引入平台。開發者現在可以輕鬆調用 NVIDIA H100 GPU 來訓練與微調大型語言模型,無需自行管理複雜的底層基礎設施。這項合作大幅降低了獲取頂級 AI 算力的門檻,加速了企業與研究人員的模型開發流程。
Hugging Face 宣佈旗下高效能大語言模型推理框架 Text Generation Inference (TGI) 正式支援 AWS Inferentia2 (Inf2) 執行個體。透過與 AWS Neuron SDK 的整合,開發者現在能以極具性價比的方式在 AWS 上部署 Llama 2、Mistral 等主流開源模型。此舉不僅簡化了專用硬體上的部署流程,更可望降低高達 50% 的推理成本。
Hugging Face 針對 Llama 2 (7B、13B、70B) 在 Amazon SageMaker 上的部署進行了全面的效能基準測試。測試涵蓋了多種 AWS g5 與 p4 實例,評估指標包括首字延遲 (TTFT)、吞吐量 (tokens/sec) 與成本。這份指南能幫助開發者在部署開源大模型時,在效能與雲端預算之間取得最佳平衡。
Hugging Face 宣布其 Hub 服務正式登陸 AWS Marketplace。企業客戶現在可以直接使用現有的 AWS 帳戶訂閱與支付 Hugging Face 的服務(如 Enterprise Hub)。這項合作簡化了企業的採購與財務審批流程,並允許企業利用現有的 AWS 承諾消費(Commitments)來抵扣 Hugging Face 的費用,加速企業級 AI 應用的落地。
Hugging Face 宣布與微軟 Azure 展開深度合作,於 Azure 機器學習平台推出 Hugging Face Model Catalog。這項整合讓開發者能直接在 Azure 安全且合規的基礎設施中,一鍵部署與微調數萬個 Hugging Face 的開源模型。此舉大幅降低了企業採用開源 AI 技術的門檻,並強化了 Azure 的開源生態系。
Hugging Face 與 AWS 宣布建立戰略合作夥伴關係,AWS 成為其首選雲端供應商。雙方將深度整合,讓開發者能透過 Amazon SageMaker 輕鬆訓練與部署 Hugging Face 上的超大型 AI 模型。此外,合作也將優化 AWS 自研晶片(Trainium 與 Inferentia)對開源模型的支援,大幅降低企業導入生成式 AI 的成本與門檻。
Mantis NLP 團隊分享了他們將 NLP 模型部署全面轉向 Hugging Face Inference Endpoints 的實戰經驗。相較於傳統自建 AWS SageMaker 或 EC2 基礎設施,Hugging Face 提供極低的維護門檻、靈活的自動縮放(包括縮減至零)以及極具競爭力的價格。這項轉變不僅大幅縮短了產品上線時間,也讓團隊能更專注於模型本身的研發而非繁雜的運維工作。
本文為 Hugging Face 官方發布的推理(Inference)解決方案指南,系統性介紹了四大核心方案:免費且即開即用的 Serverless Inference API、適合生產環境且安全可控的 Inference Endpoints、用於展示與應用的 Spaces,以及與 AWS/Azure 合作的雲端整合方案。旨在幫助開發者根據預算、延遲與隱私需求,選擇最適合的開源模型部署路徑。
Hugging Face 宣布與 AWS 達成全新合作夥伴關係,將其熱門的 Transformers 庫深度整合至 Amazon SageMaker。透過全新推出的 Hugging Face 深度學習容器(DLCs),開發者可以更輕鬆、快速地在 AWS 雲端上進行 NLP 模型的訓練、微調與推理部署。此合作大幅降低了企業在大規模機器學習基礎設施管理上的門檻。