摘要
近期研究表明,在检测过程中引入思维链(Chain-of-Thought, CoT)推理可以增强模型检测合成图像的能力。然而,过长的推理过程会带来显著的资源开销,包括token消耗和延迟,尤其在处理明显伪造的图像时显得冗余。为了解决这一问题,本文提出Fake-HR1,一种大规模混合推理模型,据我们所知,这是首个能够根据生成检测任务的特征自适应判断是否需要进行推理的模型。为此,我们设计了一个两阶段训练框架:首先进行混合微调(Hybrid Fine-Tuning, HFT)以实现冷启动初始化,随后通过混合推理分组策略优化(Hybrid-Reasoning Grouped Policy Optimization, HGRPO)进行在线强化学习,隐式学习何时选择合适的推理模式。实验结果表明,Fake-HR1能够在不同类型的问题中自适应地进行推理,在推理能力和生成检测性能方面均优于现有大语言模型,同时显著提升了响应效率。
AI 推荐理由
论文核心围绕Chain-of-Thought(CoT)推理机制展开,提出自适应推理模型Fake-HR1。
论文信息