Hugging Face 發表全新開源 PyTorch 量化工具庫 Quanto,現已整合至 Optimum 生態系。Quanto 支援權重與激活值的量化(包括 int4、int8 與 float8),且具備跨平台相容性,可在 CPU、GPU 及 Apple Silicon (MPS) 上運行。開發者只需幾行程式碼即可對 Transformers 和 Diffusers 模型進行訓練後量化(PTQ)或量化感知訓練(QAT)。
Hugging Face 宣布與微軟 ONNX Runtime 深度整合,Hub 上超過 13 萬個模型現在能輕鬆轉換並加速。開發者只需透過 Hugging Face Optimum 庫,即可在 CPU 和 GPU 上實現顯著的推理延遲降低與吞吐量提升。此舉大幅降低了開源模型在生產環境中的部署門檻與硬體成本。
Hugging Face 介紹了與 Intel 合作的 Q8-Chat 專案,展示在 Intel Xeon 處理器上高效運行生成式 AI 的可行性。透過 optimum-intel 庫與 SmoothQuant 技術,將模型進行 8-bit (INT8) 量化,大幅降低記憶體佔用並提升推理速度。此方案結合第四代 Intel Xeon 的 AMX 加速技術,證明無需昂貴的 GPU,利用現有 CPU 架構也能部署低延遲的聊天機器人。
本文探討 Hugging Face 在文件 AI(Document AI)領域的加速方案。針對 LayoutLMv3 與免 OCR 的 Donut 等多模態模型,Hugging Face 介紹了如何利用 Optimum 庫、ONNX Runtime 及量化技術,克服多模態模型在生產環境中的高延遲與高成本挑戰,實現高效能的文件自動化處理。
本指南介紹如何結合 Hugging Face Transformers 與 Intel Habana Gaudi (HPU) 進行 BERT 模型的預訓練。透過 optimum-habana 整合,開發者只需修改幾行程式碼,即可將訓練任務轉移至 Gaudi 晶片,大幅提升訓練效率並降低成本。文章提供完整的程式碼範例與配置步驟,適合需要大規模預訓練自訂模型的工程師。
本文介紹 Hugging Face 推出的一站式硬體優化工具包 Optimum,展示如何將 Transformers 模型轉換為 ONNX 格式。透過簡單的 optimum-cli 命令行工具或 Python API,開發者即可完成轉換,並利用 ONNX Runtime 在各種硬體上實現顯著的推理加速與量化優化,解決過去手動轉換繁瑣且易出錯的痛點。
Hugging Face 與 Graphcore 宣布推出全新支援 IPU(Intelligence Processing Unit)的 Transformers 模型陣容。透過專屬的 optimum-graphcore 工具包,開發者可以輕鬆在 Graphcore 的硬體上部署與加速 BERT、GPT-2 等主流模型。此合作旨在降低硬體加速門檻,為開發者提供除了 GPU 之外的高效能替代方案。
Hugging Face 宣布與 Intel 旗下的 Habana Labs 展開合作,旨在提升 Transformer 模型的訓練與部署效率。 雙方共同推出了 `optimum-habana` 開源庫,讓開發者能輕鬆將 Hugging Face 模型遷移至 Habana Gaudi 處理器(HPU)上運行。 此合作為開發者提供除了傳統 GPU 之外,更具性價比的高性能深度學習硬體選擇,僅需修改幾行程式碼即可啟用。
Hugging Face 與 Graphcore 合作推出 Optimum 整合方案,讓開發者能輕鬆在 IPU(智慧處理單元)上運行 Transformers 模型。透過專屬的 IPUTrainer,開發者只需修改極少程式碼,即可將現有的 PyTorch 訓練流程轉移至 IPU,大幅提升特定 AI 任務的運算效率。
Hugging Face 宣布與 AI 晶片公司 Graphcore 建立合作夥伴關係,共同優化 Transformer 模型。 雙方推出了開源庫 `optimum-graphcore`,使開發者能輕鬆將模型部署至 Graphcore 的智慧處理單元(IPU)上。 此合作旨在降低硬體加速門檻,為開發者在 GPU 之外提供更高效、具成本效益的 AI 算力選擇。