Hugging Face 推出全新支援,簡化 AMD ROCm 運算核心(Kernels)的構建與分享。開發者現在可以更輕鬆地在平台上打包與分發適用於 AMD GPU 的自訂運算核心(如 Triton 核心),解決了以往 AMD 生態系中編譯與部署優化核心的痛點,進一步提升 AMD 硬體在 AI 推理與訓練上的效能與易用性。
Replicate 發表技術專文,深入解析如何優化 FLUX.1 Kontext [dev] 圖像生成模型。文章聚焦於「Taylor Seer」優化技術,這是一種利用泰勒展開式來評估並剪枝模型參數的方法。透過此技術,Replicate 成功在維持高品質圖像生成的同時,顯著降低了推論延遲與 GPU 記憶體成本,為開發者提供更高效的 FLUX 部署方案。
Intel 與 Hugging Face 合作介紹先進的僅權重量化演算法 AutoRound。它透過符號梯度下降優化權重捨入決策,顯著降低 4-bit 等低位元量化帶來的精度損失。該技術全面支援 LLM 與視覺語言模型(VLM),並已深度整合至 Hugging Face 生態系,讓開發者能更輕鬆地在消費級硬體上部署高效能模型。
Replicate 平台上的 FLUX 模型現在運行速度顯著加快。官方不僅提升了推論效能,還將這些優化技術與程式碼完全開源,讓開發者可以深入了解其運作原理,並能在此基礎上進行二次開發與自定義部署。
Hugging Face 釋出 AudioLDM 2 的推理加速指南。透過將模型轉為 float16 半精度、將預設的 200 步調度器替換為僅需 25 步的 DPMSolverMultistepScheduler,並結合 PyTorch 2.0 的 torch.compile 技術,開發者可以將音訊生成速度提升數倍,在 GPU 上實現秒級的文字轉語音與音樂生成。
Bark 是 Suno 推出基於 Transformer 的文字轉語音(TTS)與音訊生成模型。由於其包含多個子模型,推理時極耗資源。本文詳細說明如何透過 Hugging Face Transformers 整合的優化技術,包括啟用半精度(fp16)、智慧 CPU 卸載(CPU Offloading)、PyTorch 2.0 的 SDPA(縮放點積注意力)以及 `torch.compile`,在不犧牲音質的前提下,將 VRAM 佔用降低 50% 以上,並顯著提升生成速度。
Hugging Face 發布 Diffusers 開源庫推出兩個月的進展報告。本次更新核心在於全面整合 Stable Diffusion,並推出圖生圖(Img2Img)與局部繪製(Inpainting)等全新 Pipeline。此外,團隊大幅優化了記憶體佔用,引入 Attention Slicing 技術,讓 4GB 顯存的 GPU 也能順利運行擴散模型,並新增了多種採樣調度器(Schedulers)。
Hugging Face 介紹了如何將硬體優化工具包 Optimum 與受歡迎的 Transformers Pipelines 整合。開發者現在能直接載入 ONNX 格式模型並傳入 Pipeline 中,在 CPU 或 GPU 上實現顯著的延遲降低與吞吐量提升。這項更新免去了手動導出 ONNX 的繁瑣步驟,極大地簡化了生產環境的部署流程。
本文為 Hugging Face 與 Intel 合作的 CPU 優化指南首篇。文章深入探討 CPU 物理核心與超線程對深度學習的影響,並詳細說明如何透過正確配置 PyTorch 的 Intra-op/Inter-op 執行緒與環境變數(如 OMP_NUM_THREADS)來避免資源競爭。最後介紹了利用 ONNX Runtime 進行算子融合,為 BERT 在 CPU 上的部署奠定高效基礎。
Hugging Face 探討如何透過區塊稀疏(Block Sparse)技術優化 Transformer 模型。傳統的稠密矩陣計算在處理長文本時會面臨平方級的複雜度瓶頸,而區塊稀疏化能將矩陣劃分為多個區塊,僅對非零區塊進行計算。此方法不僅能與 GPU 硬體高效協作,還能大幅降低記憶體消耗並加速推理與訓練,為開發更輕量、更快速的語言模型提供新途徑。