摘要
大型语言模型越来越多地依赖自我解释(如思维链推理)来提升多步骤问答任务的性能。尽管这些解释能提高准确性,但通常冗长且生成成本高,因此需要探讨真正必要的解释量。本文从信息瓶颈原理出发,将解释视为保留正确答案所需信息的压缩表示。通过构建一个限制解释长度并评估充分性的评估流程,并在ARC挑战数据集上使用多个语言模型进行实验,结果表明更简洁的解释往往仍能保持足够的准确性,而过度压缩则会导致性能下降。此外,实验还扩展至波斯语以验证其在资源有限语言中的适用性。
AI 推荐理由
论文聚焦于LLM的自我解释机制,探讨推理过程中的充分性与简洁性权衡,属于推理能力的核心研究。
论文信息