Hugging Face BlogMar 16, 2022, 12:00 AM
Accelerate BERT inference with Hugging Face Transformers and AWS Inferentia
介紹如何利用 AWS Inferentia 晶片與 SageMaker,將 Hugging Face BERT 模型的推論效能最大化並降低成本。
本教學介紹如何結合 Hugging Face Transformers、AWS Neuron SDK 與 Amazon SageMaker,在 AWS Inferentia (inf1) 實例上部署 BERT 模型。透過將模型編譯為 Neuron 格式,開發者能以極低的延遲和更低的成本進行大規模 NLP 推論,非常適合需要高吞吐量生產環境的團隊。
想看英文原文 / 完整內容?
前往 Hugging Face Blog 原文 →摘要由 AI 整理,以原文為準。