摘要
执行感知的LLM智能体为从工具反馈中学习提供了一种有前景的范式,但由于此类反馈通常昂贵且获取缓慢,在线强化学习(RL)往往不切实际。高覆盖率的硬件验证正是这一挑战的典型例子,因其依赖工业模拟器和非微分执行信号。本文提出LLM4Cov,一种离线智能体学习框架,将验证建模为由确定性评估器引导的记忆无关状态转移。在此基础上,我们引入了执行验证的数据整理、策略感知的智能体数据合成以及最差状态优先采样,以在执行约束下实现可扩展的学习。我们进一步通过修订的评估协议,从现有验证套件中构建了一个现实对齐的基准。使用所提出的流程,一个紧凑的4B参数模型在智能体评估下实现了69.2%的覆盖率通过率,优于其教师模型5.3%,并表现出与大一数量级模型相当的竞争力。
AI 推荐理由
论文聚焦于基于执行反馈的智能体学习,涉及任务规划与目标导向行为。
论文信息