角色扮演智能体 强化学习
摘要

当前角色扮演智能体(RPAs)通常通过模仿表层行为构建,缺乏内在认知一致性,易在复杂情境中出现“出戏”错误。为此,本文提出Character-R1框架,旨在提供全面且可验证的奖励信号以支持有效的角色感知推理。该框架包含三项核心设计:(1)认知焦点奖励,通过显式标签分析10个角色要素(如世界观)以结构化内部认知;(2)参考引导奖励,利用与参考回答的重叠度指标作为优化锚点,提升探索与性能;(3)角色条件奖励归一化,依据角色类别调整奖励分布,确保异构角色下的鲁棒优化。大量实验表明,Character-R1在知识、记忆等方面显著优于现有方法。

AI 推荐理由

论文提及memory作为评估维度之一,但核心聚焦于角色一致性奖励机制。

论文信息
作者 Yihong Tang, Kehai Chen, Xuefeng Bai, Benyou Wang, Zeming Liu et al.
发布日期 2026-01-08
arXiv ID 2601.04611
相关性评分 6/10 (相关)