本文為 Hugging Face 深度強化學習系列教程中 Q-Learning 的後半部分。內容專注於 Q-Learning 演算法的具體執行步驟,詳細解析 Epsilon-Greedy 策略如何平衡「探索與利用」,並引導讀者使用 Python 與 Gymnasium 庫在 FrozenLake 等經典環境中從零實作 Q-Table,最後將訓練好的 Agent 上傳至 Hugging Face Hub。
本教程為 Hugging Face 深度強化學習課程的第一部分,深入淺出地介紹了 Q-Learning 的基本原理。內容涵蓋強化學習的核心要素(如 Agent、環境、獎勵)、馬可夫決策過程(MDP),以及如何利用 Bellman 方程式更新 Q-table。適合想要踏入強化學習與 RLHF 領域的開發者與研究人員。