Showing:generalizationResearchersClear ×
本文探討 MiniMax 在 Agent 領域的最新研究思考。傳統 LLM 對齊(如 RLHF)偏重人類對話喜好,但對需要操作工具、適應動態環境的 AI Agent 而言,這種方式無法提升其泛化能力。MiniMax M2 提出重新定義 Agent 的對齊目標,應從「對齊人類偏好」轉向「對齊環境反饋與任務成功率」,以解決 Agent 在面對未知環境時的泛化瓶頸。