Hugging Face 發表全新基準測試「TextQuests」,旨在評估大型語言模型(LLM)在文字冒險遊戲(如 Zork)中的表現。這類遊戲要求模型具備強大的自然語言理解、常識推理、長期規劃與狀態追蹤能力。測試結果顯示,儘管現今 LLM 在傳統基準上表現優異,但在面對需要多步驟決策與試錯的文字遊戲時仍面臨極大挑戰。
Google DeepMind 發表了建構通用 AI 助手的長期願景,核心在於將 Gemini 擴展為一個「世界模型(World Model)」。 透過模擬真實世界的運作方式,Gemini 將不僅能處理多模態資訊,還能主動進行規劃並想像全新的體驗。 這項技術突破旨在讓 AI 助手具備更深度的環境理解與預測能力,為未來的通用人工智慧(AGI)奠定基礎。