Hugging Face BlogMay 16, 2023, 12:00 AM

Smaller is better: Q8-Chat, an efficient generative AI experience on Xeon

Hugging Face 與 Intel 合作推出 Q8-Chat,展示如何利用 8-bit 量化在 Intel Xeon CPU 上高效運行生成式 AI。

Hugging Face 介紹了與 Intel 合作的 Q8-Chat 專案,展示在 Intel Xeon 處理器上高效運行生成式 AI 的可行性。透過 optimum-intel 庫與 SmoothQuant 技術,將模型進行 8-bit (INT8) 量化,大幅降低記憶體佔用並提升推理速度。此方案結合第四代 Intel Xeon 的 AMX 加速技術,證明無需昂貴的 GPU,利用現有 CPU 架構也能部署低延遲的聊天機器人。

想看英文原文 / 完整內容?

前往 Hugging Face Blog 原文 →

摘要由 AI 整理,以原文為準。