Hugging Face 發表 Waypoint-1.5,這是一款專為消費級 GPU 優化的互動式世界模擬器。相較於前代,它在提升視覺與物理保真度的同時,大幅降低了硬體門檻。這讓研究人員與開發者能在單張家用顯示卡上,高效進行具身智能(Embodied AI)與強化學習代理的訓練,加速 AI 與物理世界互動的研究。
Hugging Face 發表全新的「AI vs. AI」多智能體競賽系統,結合深度強化學習(DRL)與遊戲環境。開發者可將訓練好的智能體上傳至 Hugging Face Hub,系統會自動安排對戰並以 Elo 評分系統進行即時排名。首波活動以 Unity ML-Agents 的足球遊戲展開,旨在推動多智能體強化學習的社群發展。
本教學為 Hugging Face 官方指南,介紹如何訓練第一個 Decision Transformer (DT)。DT 將強化學習(RL)重新框架為序列建模問題,利用 Transformer 架構預測動作。教學涵蓋離線強化學習(Offline RL)的概念、如何使用 Hugging Face 的 `transformers` 庫與 `DecisionTransformerModel`,並在 Gym 環境中進行實作與評估,是結合 NLP 技術與控制任務的經典入門。
本教學為 Hugging Face 深度強化學習課程的一部分,深入探討當前最主流的強化學習演算法「近端策略優化 (PPO)」。文章解析了 PPO 如何透過「剪裁代理目標函數」解決傳統策略梯度法步長過大導致崩潰的問題,並引導讀者使用 Stable-Baselines3 進行實戰演練,是理解 LLM 對齊技術(如 RLHF)的重要基石。
本教學為 Hugging Face 深度強化學習課程的一部分,詳細解析 Advantage Actor Critic (A2C) 演算法。A2C 結合了 Actor(負責決策)與 Critic(負責評估)的優勢,並透過優勢函數(Advantage Function)降低變異數,提升訓練穩定度。讀者將學習其核心數學原理,並了解如何實作與訓練 AI 代理人。
本文為 Hugging Face 深度強化學習課程的第四單元,詳細介紹了策略梯度(Policy Gradient)與 REINFORCE 演算法的理論基礎。讀者將學習如何使用 PyTorch 建立策略網路、進行動作採樣、計算損失函數並更新權重。最後,教學還包含如何將訓練好的 Agent 部署並分享至 Hugging Face Hub。
本文為 Hugging Face 深度強化學習(Deep RL)課程的第三單元,專注於「深度 Q 學習(Deep Q-Learning, DQN)」。文章詳細介紹了 DQN 的核心概念(如時間差分學習、經驗回放與目標網路),並手把手教學如何使用 Stable-Baselines3 程式庫訓練一個能玩經典街機遊戲《Space Invaders》的 AI 代理人,最後將模型上傳至 Hugging Face Hub。
本文為 Hugging Face 深度強化學習系列教程中 Q-Learning 的後半部分。內容專注於 Q-Learning 演算法的具體執行步驟,詳細解析 Epsilon-Greedy 策略如何平衡「探索與利用」,並引導讀者使用 Python 與 Gymnasium 庫在 FrozenLake 等經典環境中從零實作 Q-Table,最後將訓練好的 Agent 上傳至 Hugging Face Hub。
本教程為 Hugging Face 深度強化學習課程的第一部分,深入淺出地介紹了 Q-Learning 的基本原理。內容涵蓋強化學習的核心要素(如 Agent、環境、獎勵)、馬可夫決策過程(MDP),以及如何利用 Bellman 方程式更新 Q-table。適合想要踏入強化學習與 RLHF 領域的開發者與研究人員。
本指南為 Hugging Face 深度強化學習課程的第一章。文章系統性地介紹了強化學習(RL)的核心架構,包含 Agent 與環境的互動循環、獎勵機制,並深入探討「探索與利用」(Exploration vs. Exploitation)的權衡。最後介紹如何結合深度學習形成 Deep RL,並引導讀者使用 Stable-Baselines3 等開源工具進行實作。
Hugging Face 推出其首個 Unity ML-Agents 虛擬環境「Snowball Fight」(打雪仗)。此環境旨在提供一個趣味且具挑戰性的平台,讓開發者與研究人員能夠訓練、測試並分享他們的深度強化學習(DRL)模型。使用者可以利用 Unity ML-Agents 工具包進行訓練,並將訓練好的 Agent 模型上傳至 Hugging Face Hub 進行交流與對戰。