推理语言模型 复杂评估任务 儿童保护案例 父母合作评估
摘要

目的:推理语言模型(RLMs)在解决复杂推理任务方面取得了显著进展。本文探讨了其在利用案例报告评估儿童保护服务(CPS)干预过程中父母合作潜力的应用,该案例因素具有模糊和矛盾的信息。方法:开发了一个四阶段的工作流程,包括(1)案例报告收集,(2)基于推理的父母合作评估,(3)自动分类提取,以及(4)案例标签分配。比较了不同参数规模的RLMs(255B、32B、4B)的表现,并与人工验证数据进行对比。两名专家评审员独立分类了一组加权随机样本报告。结果:最大的RLM达到了最高的准确率(89%),优于初始方法(80%)。母亲的分类准确率(93%)高于父亲(85%),专家评审员也表现出类似差异。结论:RLMs的推理能力可以有效评估复杂的案例因素,如父母合作。评估父亲合作时准确率较低,支持了CPS干预中更关注母亲的专业倾向论点。

AI 推荐理由

论文核心研究RLMs在复杂推理任务中的应用,特别是对模糊信息的评估。

论文信息
作者 Dragan Stoll, Brian E. Perron, Zia Qi, Selina Steinmann, Nicole F. Eicher et al.
发布日期 2026-02-15
arXiv ID 2602.14216
相关性评分 9/10 (高度相关)