Showing:packingDevelopersClear ×
在 LLM 訓練中,傳統的 Padding 會浪費大量算力。Hugging Face 介紹了結合 Flash Attention 2 的 Packing(序列打包)技術,將多個短樣本拼接成固定長度,並利用 FA2 的變長注意力(varlen)避免樣本間干擾。這項優化能顯著提升訓練吞吐量並降低顯存佔用,已整合至 TRL 等工具中。