摘要
嵌入在基于物理交互环境中的人工智能代理面临诸多挑战,包括推理、规划、总结和问答。当人类用户希望以自然语言指导或与代理交互时,这一问题更加复杂。尽管语言模型(LMs)是默认选择,但它们在涉及物理的任务上表现不佳。LM的物理推理能力是从观察数据中学习的,而非基于模拟。通常的做法是将模拟轨迹作为上下文,但由于模拟轨迹包含大量细粒度数值和语义数据,这种方法扩展性较差。本文提出了一种自然语言引导的方法,从详细的模拟日志中发现粗粒度模式(如'刚体碰撞'、'稳定支撑'等)。具体而言,我们合成在模拟日志上运行的程序,并将其映射到一系列高层激活模式。通过两个物理基准测试,我们表明这种对模拟日志的注释表示更有利于对物理系统的自然语言推理。我们展示了该方法如何使LM根据自然语言指定的目标生成有效的奖励程序,这些程序可用于规划或监督学习的上下文中。
AI 推荐理由
论文聚焦于通过自然语言引导发现物理模拟中的高层次模式,直接提升LLM的物理推理能力。
论文信息