這篇 Hugging Face 的經典技術指南介紹了自迴歸語言模型中不同的文本生成解碼策略。內容涵蓋傳統的貪婪搜索(Greedy Search)與束搜索(Beam Search),並探討如何透過隨機採樣(Sampling)、溫度調節(Temperature)、Top-K 與 Top-p(核採樣)來解決生成文本重複或單調的問題。這對於想優化 LLM 輸出品質的開發者與研究者來說是必讀的基礎教學。
本文為 Hugging Face 的經典指南,詳細介紹如何從頭訓練全新的語言模型。內容涵蓋使用 tokenizers 快速訓練 Byte-Level BPE 分詞器、準備 Esperanto(世界語)數據集、配置 RoBERTa 模型架構,並利用 Trainer API 進行高效預訓練。這對於想為特定領域或罕見語言構建專屬模型的開發者與研究人員而言,是極具價值的實戰教學。