Hugging Face 介紹了與 Intel 合作的 DeepMath 專案,這是一個基於 smolagents 輕量級框架構建的數學推理 Agent。傳統 LLM 在數學計算上容易出錯,而 DeepMath 採用「Code Agent」機制,讓輕量級開源模型透過撰寫並執行 Python 程式碼來解答複雜數學題。此方案不僅降低了算力門檻,還能在 Intel 硬體上實現高效能的本地端推理。
Hugging Face 介紹如何利用 OpenVINO 在 Intel CPU 上優化並運行視覺語言模型(VLM)。開發者只需透過安裝環境、轉換模型、執行推論三個簡單步驟,即可在無獨立顯卡的 Intel 硬體上實現高效的多模態處理,大幅降低 VLM 的本地部署門檻,非常適合邊緣運算與個人開發環境。
Intel 與 Hugging Face 合作介紹先進的僅權重量化演算法 AutoRound。它透過符號梯度下降優化權重捨入決策,顯著降低 4-bit 等低位元量化帶來的精度損失。該技術全面支援 LLM 與視覺語言模型(VLM),並已深度整合至 Hugging Face 生態系,讓開發者能更輕鬆地在消費級硬體上部署高效能模型。
本文介紹如何結合 Intel Gaudi 2 AI 加速器與 Intel Xeon 處理器,打造具成本效益的企業級檢索增強生成(RAG)應用。透過 Hugging Face 的 TEI 與 TGI 技術,企業能在 Xeon 上高效處理向量嵌入,並在 Gaudi 2 上加速大語言模型推理,為非 Nvidia 生態系提供強大的替代方案。
Hugging Face 與 Intel 合作展示如何使用 Optimum Intel 和 fastRAG 框架優化 CPU 上的嵌入向量(Embeddings)計算。透過 OpenVINO 和 Intel Extension for PyTorch (IPEX) 等技術,開發者無需昂貴的 GPU,即可在標準 Intel CPU 上實現高效能、低延遲的 RAG 檢索系統,顯著降低企業部署成本。
Hugging Face 介紹了如何在 Intel CPU 上微調 Stable Diffusion。透過 Intel Extension for PyTorch (IPEX) 與 Optimum Intel 庫,開發者可利用第四代 Xeon 處理器的 AMX 技術進行 BF16 混合精度訓練。這為缺乏 GPU 資源或想利用現有 CPU 伺服器的團隊,提供了一個高性價比的微調方案。
本文介紹 Hugging Face 與 Intel 合作的優化方案。透過 Optimum Intel 與神經網路壓縮框架(NNCF),開發者可以輕鬆對 Stable Diffusion 進行訓練後量化(PTQ)。這項技術能將模型壓縮至 INT8 精度,在顯著降低記憶體佔用的同時,大幅加速 Intel CPU 上的圖像生成速度,且幾乎不損失圖像品質。
Hugging Face 介紹了 `optimum-intel` 與 Intel OpenVINO 的整合。開發者可使用簡單的 `OVModel` API 直接在 Intel CPU 和 GPU 上載入、優化並運行 Hugging Face 模型。此工具還整合了 NNCF 框架,支援將模型量化至 INT8,在極低精度損失下顯著提升推理效率並降低延遲,非常適合邊緣運算與伺服器部署。
Hugging Face 與 Intel Habana Labs 合作推出 optimum-habana 庫。開發者只需將標準的 Trainer 替換為 GaudiTrainer,即可在 AWS DL1 等 Gaudi 實例上進行高效能、低成本的 Transformer 模型訓練。這為 NVIDIA 之外的 AI 晶片生態系提供了一個強大的替代方案,能有效降低高達 40% 的訓練成本。
Hugging Face 與 Intel 合作,展示如何利用 Intel Extension for PyTorch (IPEX) 和 oneCCL 提升 CPU 上的模型微調效率。透過自動混合精度(BFloat16)與優化的分散式通訊,開發者可以在 Intel Xeon 處理器上實現高效的多節點分散式訓練。這為缺乏 GPU 資源或希望活化現有 CPU 叢集的企業提供了極具成本效益的替代方案。