学术论文
ReAct: Synergizing reasoning and acting in language models
Shunyu Yao, Jeffrey Zhao, Dian Yu, Nan Du, Izhak Shafran, Karthik Narasimhan, Yuan Cao
2023-03-10
ICLR 2023
大语言模型推理与行动任务规划
摘要
尽管大型语言模型(LLMs)在语言理解和交互式决策任务中表现出色,其推理能力(如链式思考提示)和行动能力(如行动计划生成)却主要被作为两个独立课题进行研究。本文探索了让LLM以交错的方式同时生成推理轨迹和任务相关动作的方法,从而实现两者的协同:推理轨迹帮助模型归纳、跟踪和更新行动计划,并处理异常情况;而行动则使模型能够与外部知识库或环境交互,获取更多信息。我们将这种方法命名为 ReAct,并将其应用于多种语言和决策任务,结果显示其在效果上优于最先进的基线方法,同时提升了人类可解释性和可信度。具体来说,在问答(HotpotQA)和事实验证(Fever)任务中,ReAct 通过与简单的 Wikipedia API 交互,克服了链式思考推理中常见的幻觉和错误传播问题,生成了比没有推理轨迹的基线更具可解释性的人类式任务解决过程。此外,在两个交互式决策基准(ALFWorld 和 WebShop)上,ReAct 的成功率分别比模仿学习和强化学习方法高出34%和10%,且仅需一到两个上下文示例。
播客
0:00
加载中...
播放速度: