ServiceNow AI 發表專文探討 vLLM V0 到 V1 的架構演進。文章指出,在進行大語言模型(LLM)的強化學習(RL)訓練時,底層推理引擎(如 vLLM)的精確度與穩定性至關重要。過去在 V0 版本中,微小的推理偏差或不確定性常導致 RL 訓練難以收斂,迫使研究員進行無謂的演算法修正;而 vLLM V1 透過重構底層,實現了「正確性優先」的設計,大幅提升了 RL 訓練的效率與可預測性。
Hugging Face 的 TRL 團隊推出與 vLLM 協同部署(Co-located)的新功能。在進行線上強化學習(如 PPO、GRPO)訓練時,生成階段常是效能瓶頸。透過在相同 GPU 上同時運行訓練與 vLLM 推理引擎,此技術能無縫共享權重並利用 vLLM 的高效生成能力,顯著提升 GPU 利用率並縮短整體訓練時間。
隨著大語言模型(LLM)應用的普及,如何在高併發流量下維持低延遲與高吞吐量成為關鍵挑戰。本文深入分析了 LLM 推論的記憶體瓶頸(特別是 KV Cache),並探討如何結合「連續批處理(Continuous Batching)」與「請求佇列(Request Queueing)」機制。透過在推論引擎層與網關層實施合理的佇列策略,能有效防止 GPU 記憶體溢位(OOM),並在維持高吞吐量的同時,優化首字延遲(TTFT)與字元間延遲(ITL)。
Hugging Face 的 Text Generation Inference (TGI) 宣布支援多後端架構,正式整合 NVIDIA TensorRT-LLM 與 vLLM。這項更新讓開發者無需在 TGI 的生產級功能(如 Tokenizer、工具調用、安全防護)與其他引擎的極致效能之間做抉擇。現在,用戶可以透過簡單的設定,直接在 TGI 中調用 TRT-LLM 的硬體優化或 vLLM 的高吞吐量優勢。
Outlines 團隊與 Hugging Face 合作發布了 outlines-core 0.1.0,將結構化生成的核心邏輯(如 FSM 與 Token 遮罩)用 Rust 重寫。這項更新不僅大幅降低了引導生成時的 CPU 開銷與延遲,也讓 Rust 開發者能直接在 Rust 生態系中實現精準的 JSON 或正規表示式輸出控制,同時保持對 Python 的完美支援。
本指南深入探討如何在實際生產環境中優化大語言模型(LLM)的部署。內容涵蓋降低顯示記憶體(vRAM)佔用的關鍵技術,如 KV 快取、4-bit/8-bit 量化(GPTQ、AWQ)與 FlashAttention;並介紹提升推論吞吐量的進階方法,包括連續批次處理(Continuous Batching)、投機解碼(Speculative Decoding)以及多 GPU 分散式推論。這是一份針對開發者將開源模型落地的必讀實戰手冊。