摘要
可验证奖励强化学习(RLVR)是训练现代推理模型的核心方法,但其未公开的训练数据引发了基准污染的担忧。与基于词元概率优化的预训练方法不同,RLVR通过自生成推理轨迹的奖励反馈对模型进行微调,使得传统的基于似然的检测方法效果不佳。本文发现RLVR会引发一种独特的行为特征:在RLVR训练过程中遇到的提示会导致更僵化和相似的生成结果,而未见过的提示则保留更高的多样性。我们提出了一种简单的黑盒检测器Min-$k$NN Distance,通过为给定提示采样多个完成结果并计算$k$个最小最近邻编辑距离的平均值来量化这种坍缩现象。该方法无需访问参考模型或词元概率。实验表明,Min-$k$NN Distance能够可靠地区分RL训练中见过和未见过的示例,并优于现有的成员推理和RL污染检测基线。
AI 推荐理由
论文聚焦于RLVR训练数据检测,与推理模型的行为特征密切相关,属于推理能力研究的核心内容。
论文信息