Hugging Face 與社群合作推出 mmBERT,這是基於 ModernBERT 架構的多語言版本。mmBERT 繼承了 ModernBERT 的現代化改進(如 FlashAttention、RoPE 與 8192 token 長文本支持),旨在取代傳統的 mBERT 與 XLM-RoBERTa。它能顯著提升多語言文本分類、命名實體識別(NER)及檢索(RAG)等任務的運算效率,為開發者提供更強大且省資源的開源選擇。
Hugging Face 與 LightOn 等團隊聯合推出 ModernBERT,旨在取代已問世 6 年但仍被廣泛使用的 BERT 模型。ModernBERT 採用現代化架構,將上下文長度從 512 提升至 8192 標記,並原生支援 FlashAttention-2 與 RoPE。在保持極高推理速度與低記憶體佔用的同時,其在檢索、分類與嵌入等任務上的表現全面超越 DeBERTa-v3,為 RAG 與搜尋系統注入全新動力。
本指南介紹如何結合 Hugging Face Transformers 與 Intel Habana Gaudi (HPU) 進行 BERT 模型的預訓練。透過 optimum-habana 整合,開發者只需修改幾行程式碼,即可將訓練任務轉移至 Gaudi 晶片,大幅提升訓練效率並降低成本。文章提供完整的程式碼範例與配置步驟,適合需要大規模預訓練自訂模型的工程師。
本教學介紹如何結合 Hugging Face Transformers、AWS Neuron SDK 與 Amazon SageMaker,在 AWS Inferentia (inf1) 實例上部署 BERT 模型。透過將模型編譯為 Neuron 格式,開發者能以極低的延遲和更低的成本進行大規模 NLP 推論,非常適合需要高吞吐量生產環境的團隊。
本指南深入淺出地解析了 Google 提出的革命性 NLP 模型 BERT。文章詳細介紹了其基於 Transformer Encoder 的雙向架構,並剖析了「遮罩語言模型 (MLM)」與「下一句預測 (NSP)」兩大核心預訓練機制。最後,展示了如何透過 Hugging Face 輕鬆將 BERT 應用於各種下游自然語言處理任務。
本篇為 Hugging Face 與 Intel 合作的第二部分,深入探討在現代 CPU(如 Intel Xeon)上優化 BERT 推理的進階技術。文章重點介紹了 Intel Extension for PyTorch (IPEX)、INT8 量化以及 Bfloat16 混合精度運算。透過這些軟硬體協同優化與 NUMA 核心綁定,開發者能在不犧牲精度的前提下,獲得數倍的推理吞吐量提升。
本文為 Hugging Face 與 Intel 合作的 CPU 優化指南首篇。文章深入探討 CPU 物理核心與超線程對深度學習的影響,並詳細說明如何透過正確配置 PyTorch 的 Intra-op/Inter-op 執行緒與環境變數(如 OMP_NUM_THREADS)來避免資源競爭。最後介紹了利用 ONNX Runtime 進行算子融合,為 BERT 在 CPU 上的部署奠定高效基礎。