Arm 宣佈將參與即將舉行的 PyTorch Conference。本次參展重點將聚焦於如何透過 Arm 架構優化 PyTorch 效能,包含針對伺服器端(如 AWS Graviton)與邊緣裝置(如 ExecuTorch)的加速方案。此外,Arm 也將展示其開源的 KleidiAI 函式庫如何與 PyTorch 深度整合,提升 AI 模型在 Arm 處理器上的執行效率。
Hugging Face 與 Intel 合作展示如何使用 Optimum Intel 和 fastRAG 框架優化 CPU 上的嵌入向量(Embeddings)計算。透過 OpenVINO 和 Intel Extension for PyTorch (IPEX) 等技術,開發者無需昂貴的 GPU,即可在標準 Intel CPU 上實現高效能、低延遲的 RAG 檢索系統,顯著降低企業部署成本。
本篇為 Hugging Face 與 Intel 合作的第二部分,深入探討在現代 CPU(如 Intel Xeon)上優化 BERT 推理的進階技術。文章重點介紹了 Intel Extension for PyTorch (IPEX)、INT8 量化以及 Bfloat16 混合精度運算。透過這些軟硬體協同優化與 NUMA 核心綁定,開發者能在不犧牲精度的前提下,獲得數倍的推理吞吐量提升。