Showing:inferentiaResearchersClear ×
Hugging Face 宣布其託管服務 Inference Endpoints 正式支援 AWS Inferentia2 (Inf2) 執行個體。這項整合讓開發者無需繁瑣的編譯設定,即可將 Llama、Mistral 等大型語言模型部署至 AWS 的專屬推論晶片上。相較於傳統 GPU,Inferentia2 能大幅降低推論成本並提升吞吐量,為企業提供更具成本效益的生產環境部署選擇。