NVIDIA Nemotron-Labs 發表全新擴散語言模型(Diffusion Language Models),旨在解決傳統自迴歸模型逐字生成的效能瓶頸。 該技術利用類似影像生成的擴散機制,在文本生成中實現高度並行化,大幅提升推論速度。 此研究展示了非自迴歸模型在維持文本品質的同時,實現「光速般」超高吞吐量生成的新路徑。
Hugging Face 宣布在 optimum-habana 中支援文字生成 Pipeline,使開發者能輕鬆在 Intel Gaudi 2 AI 加速器上部署大語言模型。此更新簡化了程式碼,並針對 Gaudi 2 硬體進行優化,提供極佳的推理效能與性價比,是 NVIDIA GPU 之外的強大替代方案。
Hugging Face 介紹了全新解碼方法「對比搜索(Contrastive Search)」,現已整合至 Transformers 庫中。該方法透過引入「退化懲罰」機制,在保持模型預測概率的同時,避免生成與前文語意重複的詞彙。相比傳統的束搜索(Beam Search)或隨機採樣(Sampling),對比搜索能生成更具連貫性、多樣性且無重複的長文本,達到接近人類寫作的水準。
Hugging Face 官方部落格介紹了結合 TensorFlow 與 XLA(加速線性代數)編譯器來優化文本生成的方法。透過在 generate() 函數中啟用 jit_compile=True,開發者可以顯著減少推論延遲。然而,由於 XLA 需要靜態形狀(static shapes),使用時必須對輸入進行固定長度的填充與截斷。
本文介紹 Hugging Face Transformers 支援的「受約束的束搜索(Constrained Beam Search)」技術。傳統束搜索僅依賴機率,而此技術允許開發者指定必須出現在生成結果中的特定詞彙或短語。這在機器翻譯、摘要生成及特定領域的文本生成中非常實用,能有效控制輸出品質並確保關鍵資訊不遺漏。
這篇 Hugging Face 的經典技術指南介紹了自迴歸語言模型中不同的文本生成解碼策略。內容涵蓋傳統的貪婪搜索(Greedy Search)與束搜索(Beam Search),並探討如何透過隨機採樣(Sampling)、溫度調節(Temperature)、Top-K 與 Top-p(核採樣)來解決生成文本重複或單調的問題。這對於想優化 LLM 輸出品質的開發者與研究者來說是必讀的基礎教學。