本教學為 Hugging Face 官方指南,介紹如何訓練第一個 Decision Transformer (DT)。DT 將強化學習(RL)重新框架為序列建模問題,利用 Transformer 架構預測動作。教學涵蓋離線強化學習(Offline RL)的概念、如何使用 Hugging Face 的 `transformers` 庫與 `DecisionTransformerModel`,並在 Gym 環境中進行實作與評估,是結合 NLP 技術與控制任務的經典入門。
Hugging Face 宣布在其 transformers 函式庫中正式支援 Decision Transformer (DT)。此模型顛覆傳統強化學習(RL)方法,不使用價值函數或策略梯度,而是將狀態、動作與目標回報視為序列,利用類似 GPT 的自注意力機制來預測下一步動作。這項整合大幅降低了離線強化學習(Offline RL)的門檻,讓開發者能用熟悉的 Transformer 工具鏈進行決策模型的訓練。