阿聯酋技術創新研究所(TII)在 Hugging Face 上發布了全新的 Falcon-H1 系列模型。該系列主打「混合頭(Hybrid-Head)」架構,旨在解決傳統 Transformer 模型在處理長文本時的運算瓶頸。透過結合不同的注意力機制或序列處理技術,Falcon-H1 成功在推論效率、記憶體佔用與模型性能之間取得全新平衡,為開源 AI 社群注入高效能的新選擇。
Hugging Face 宣布 Sentence Transformers 支援訓練「靜態嵌入(Static Embeddings)」模型。相較於傳統 Transformer 模型,靜態嵌入不需逐層計算,訓練速度快上 400 倍,且推理速度極快、記憶體佔用極小。這項技術非常適合用於資源受限的設備(如手機、邊緣裝置)或作為大規模檢索(RAG)的第一階段粗篩。
在 LLM 訓練中,傳統的 Padding 會浪費大量算力。Hugging Face 介紹了結合 Flash Attention 2 的 Packing(序列打包)技術,將多個短樣本拼接成固定長度,並利用 FA2 的變長注意力(varlen)避免樣本間干擾。這項優化能顯著提升訓練吞吐量並降低顯存佔用,已整合至 TRL 等工具中。