cost-aware reasoning sequential decision-making LLM agents environment interaction
摘要

随着大型语言模型(LLMs)被用于解决需要与环境交互以获取信息的复杂问题,如何在停止探索并提交答案时权衡成本与不确定性成为关键。本文提出了一种名为Calibrate-Then-Act(CTA)的框架,使LLM能够显式地推理成本-不确定性权衡,并据此进行更优的环境探索。该方法将信息检索和编程等任务形式化为不确定性下的顺序决策问题,并通过引入先验环境状态作为上下文输入,提升LLM的决策质量。实验结果表明,在信息检索问答和简化编程任务中,CTA显著提高了代理发现最优决策策略的能力。

AI 推荐理由

论文核心研究LLM在不确定环境中的成本-不确定性权衡推理机制,属于推理能力的直接应用。

论文信息
作者 Wenxuan Ding, Nicholas Tomlin, Greg Durrett
发布日期 2026-02-18
arXiv ID 2602.16699
相关性评分 9/10 (高度相关)