摘要
测试时智能体记忆的演化是实现通用人工智能(AGI)的关键范式,通过经验积累增强复杂推理能力。然而,在良性任务演化过程中,智能体的安全对齐仍存在脆弱性,这一现象被称为智能体记忆误演化。为评估该现象,我们构建了Trust-Memevo基准,用于在良性任务演化过程中评估多维可信性,并揭示了在不同任务领域和评估设置下整体可信性的下降趋势。为解决此问题,我们提出了TAME,一种双记忆演化框架,分别演化执行器记忆以通过提炼可推广的方法来提升任务性能,并演化评估器记忆以基于历史反馈优化安全性和任务效用的评估。通过记忆过滤、草案生成、可信性优化、执行和双轨记忆更新的闭环流程,TAME在不牺牲效用的前提下保持可信性。实验表明,TAME有效缓解了记忆误演化问题,在可信性和任务性能方面均取得联合提升。
AI 推荐理由
论文核心围绕Agent Memory的演化与可信性问题,提出TAME框架直接针对记忆机制。
论文信息