播播机~ 播播机~
播客中的战斗机,欧耶!
学术论文
最新的AI Agent研究成果和学术发现
Yunfan Gao, Yun Xiong, Yijie Zhong, Yuxi Bi, Ming Xue, Haofen Wang
近期大语言模型(LLM)在推理能力上的突破,使得检索增强生成(RAG)达到了前所未有的高度。通过将检索机制与高级推理相结合,LLM 现在能够应对日益复杂的问题。本文系统性地回顾了 RAG 与推理之间的协同作用,明确界定了 RAG 语境下的"推理"概念。我们构建了一个涵盖多维协作目标、代表性范式和技术实现的全面分类体系,并分析了双向协同的方法。此外,本文还批判性地评估了当前 RAG 评测中的局限性,包括多步推理缺乏中间监督,以及与成本-风险权衡相关的实际挑战。为弥合理论与实践的鸿沟,我们还针对多样化的真实应用场景,提供了实用指南。最后,本文指出了有前景的研究方向,如基于图的知识整合、混合模型协作和强化学习驱动的优化。总体而言,本研究为学术界和工业界推进 RAG 系统提供了理论框架和实践基础,助力下一代 RAG 解决方案的发展。。
Bang Liu, Xinfeng Li, Jiayi Zhang, Jinlin Wang, Tanjin He, Sirui Hong, Hongzhang Liu, Shaokun Zhang, Kaitao Song, Kunlun Zhu, Yuheng Cheng, Suyuchen Wang, Xiaoqiang Wang, Yuyu Luo, Haibo Jin, Peiyan Zhang, Ollie Liu, Jiaqi Chen, Huan Zhang, Zhaoyang Yu, Haochen Shi, Boyan Li, Dekun Wu, Fengwei Teng, Xiaojun Jia, Jiawei Xu, Jinyu Xiang, Yizhang Lin, Tianming Liu, Tongliang Liu, Yu Su, Huan Sun, Glen Berseth, Jianyun Nie, Ian Foster, Logan Ward, Qingyun Wu, Yu Gu, Mingchen Zhuge, Xiangru Tang, Haohan Wang, Jiaxuan You, Chi Wang, Jian Pei, Qiang Yang, Xiaoliang Qi, Chenglin Wu
大型语言模型(LLMs)的出现,推动了人工智能领域的变革性进步,为能够进行复杂推理、强大感知和多领域灵活行动的高级智能体铺平了道路。随着这些智能体在AI研究和实际应用中扮演越来越重要的角色,其设计、评估和持续改进也带来了复杂且多层面的挑战。本综述全面梳理了相关进展,将智能体置于一种模块化、类脑架构之中,融合了认知科学、神经科学和计算研究的原理。我们将探讨分为四个相互关联的部分。首先,深入分析智能体的模块化基础,系统地将其认知、感知和操作模块映射到人脑的类似功能,并阐释记忆、世界建模、奖励处理和类情感系统等核心组成部分。其次,讨论自我增强与适应性进化机制,探索智能体如何自主提升能力、适应动态环境,并通过自动化优化范式(包括新兴的AutoML和LLM驱动的优化策略)实现持续学习。第三,考察协作与进化的多智能体系统,研究智能体间互动、协作和社会结构中涌现的集体智能,突出其与人类社会动态的相似之处。最后,聚焦于构建安全、可靠且有益的AI系统,强调内在与外在的安全威胁、伦理对齐、鲁棒性以及实现可信实际部署所需的实际缓解策略。
Sirui Hong, Mingchen Zhuge, Jiaqi Chen, Xiawu Zheng, Yuheng Cheng, Ceyao Zhang, Jinlin Wang, Zili Wang, Steven Ka Shing Yau, Zijuan Lin, Liyang Zhou, Chenyu Ran, Lingfeng Xiao, Chenglin Wu, Jürgen Schmidhuber
MetaGPT 通过将标准化操作流程(SOPs)编码进提示序列,实现了更流畅的多智能体协作。每个智能体具备类似人类的领域专长,能够验证中间结果并减少错误。MetaGPT 采用装配线式的分工模式,将复杂任务拆解为多个子任务,由不同角色的智能体协作完成。在协同软件工程基准测试中,MetaGPT 生成的解决方案比以往基于对话的多智能体系统更连贯、更高效。该框架通过 SOPs 保证了沟通的一致性和中间产出的标准化,显著降低了因 LLM 间"闲聊"导致的逻辑混乱和错误。实验结果显示,MetaGPT 在代码生成等任务上达到了新的业界领先水平,并在处理复杂软件项目时表现出更强的健壮性和功能性。项目地址:https://github.com/geekan/MetaGPT
Zane Durante, Qiuyuan Huang, Naoki Wake, Ran Gong, Jae Sung Park, Bidipta Sarkar, Rohan Taori, Yusuke Noda, Demetri Terzopoulos, Yejin Choi, Katsushi Ikeuchi, Hoi Vo, Li Fei-Fei, Jianfeng Gao
本研究探讨了大型语言模型在常识知识方面的应用,特别是在大规模任务规划中的作用。我们提出了一种新的框架,利用LLM的常识推理能力来增强自主代理的任务规划能力。实验表明,与传统方法相比,我们的方法在复杂任务规划中表现出显著优势。
Zhiheng Xi, Wenxiang Chen, Xin Guo, Wei He, Yiwen Ding, Boyang Hong, Ming Zhang, Junzhe Wang, Senjie Jin, Enyu Zhou, Rui Zheng, Xiaoran Fan, Xiao Wang, Limao Xiong, Yuhao Zhou, Weiran Wang, Changhao Jiang, Yicheng Zou, Xiangyang Liu, Zhangyue Yin, Shihan Dou, Rongxiang Weng, Wensen Cheng, Qi Zhang, Wenjuan Qin, Yongyan Zheng, Xipeng Qiu, Xuanjing Huang, Tao Gui
长期以来,人类一直追求能够媲美甚至超越人类智能的人工智能(AI),而AI智能体被认为是实现这一目标的重要载体。AI智能体是一种能够感知环境、做出决策并采取行动的人工实体。过去的研究多聚焦于算法或训练策略的进步,以提升智能体在特定任务上的能力或表现,但缺乏一种能够适应多样场景的通用强大模型作为设计智能体的起点。近年来,随着大型语言模型(LLM)展现出多样且强大的能力,它们被视为通用人工智能(AGI)的潜在火花,为构建通用AI智能体带来了希望。许多研究者已将LLM作为基础,构建AI智能体并取得了显著进展。本文对基于LLM的智能体进行了全面综述。首先,追溯了智能体的哲学起源及其在AI领域的发展,并解释了为何LLM适合作为智能体的基础。随后,提出了一个包含"大脑、感知、行动"三大核心组件的通用LLM智能体框架,并说明该框架可根据不同应用场景进行定制。接着,系统梳理了LLM智能体在单体、多体和人机协作三大应用领域的广泛实践。进一步,探讨了智能体社会,分析了LLM智能体的行为与个性、智能体社会中涌现的社会现象,以及这些现象对人类社会的启示。最后,讨论了该领域的若干关键议题与未解难题。相关论文列表可在 https://github.com/WooooDyy/LLM-Agent-Paper-List 查阅。
Shunyu Yao, Jeffrey Zhao, Dian Yu, Nan Du, Izhak Shafran, Karthik Narasimhan, Yuan Cao
尽管大型语言模型(LLMs)在语言理解和交互式决策任务中表现出色,其推理能力(如链式思考提示)和行动能力(如行动计划生成)却主要被作为两个独立课题进行研究。本文探索了让LLM以交错的方式同时生成推理轨迹和任务相关动作的方法,从而实现两者的协同:推理轨迹帮助模型归纳、跟踪和更新行动计划,并处理异常情况;而行动则使模型能够与外部知识库或环境交互,获取更多信息。我们将这种方法命名为 ReAct,并将其应用于多种语言和决策任务,结果显示其在效果上优于最先进的基线方法,同时提升了人类可解释性和可信度。具体来说,在问答(HotpotQA)和事实验证(Fever)任务中,ReAct 通过与简单的 Wikipedia API 交互,克服了链式思考推理中常见的幻觉和错误传播问题,生成了比没有推理轨迹的基线更具可解释性的人类式任务解决过程。此外,在两个交互式决策基准(ALFWorld 和 WebShop)上,ReAct 的成功率分别比模仿学习和强化学习方法高出34%和10%,且仅需一到两个上下文示例。
白皮书
行业报告和技术指南
OpenAI
大型语言模型(LLM)在处理复杂、多步骤任务方面的能力正在不断提升。随着推理、多模态和工具使用等方面的进步,越来越多的系统被称为"智能体"(agents)。本指南为产品和工程团队首次构建智能体提供了实用建议,内容源自多个客户部署案例的经验总结,转化为可操作的最佳实践。指南包括以下内容: • 框架:帮助识别有前景的应用场景 • 设计:指导智能体的逻辑与编排 • 安全与有效性:确保智能体安全、可靠地运行阅读本指南后,你将获得坚实的基础知识,有信心迈出构建首个智能体的第一步。
Julia Wiesinger, Patrick Marlow, Vladimir Vuskovic
人类在处理混乱或复杂的模式识别任务时非常出色,但他们往往会依赖一些工具——比如书籍、Google搜索或计算器——来补充自己的知识,然后再得出结论。同样,生成式AI模型也可以被训练使用工具,以获取实时信息或建议现实世界中的行动。例如,一个模型可以利用数据库检索工具来访问特定信息,比如客户的购买历史,从而生成个性化的购物推荐。又比如,根据用户的请求,模型可以调用各种API,帮你发送邮件回复同事,或者代表你完成一笔金融交易。要实现这些功能,模型不仅需要访问一系列外部工具,还必须具备自主规划和执行任务的能力。这种将推理、逻辑和外部信息访问能力与生成式AI模型结合起来的方式,就是"智能体"(agent)的概念——它是一种超越单一生成式AI模型能力的程序。本白皮书将更详细地探讨这些相关内容。
优质长文
深度思考和行业洞察
CB Insights
CB Insights 最近基于他们的数据调研和分析,绘制了覆盖 26 个细分领域的 170 余家 AI Agent 初创企业的市场格局图谱。同时也探讨了关于 AI Agent 的当前进展、面临的挑战及未来发展路径
A16Z
2025年AI语音代理(Voice Agent)研究显示,语音技术正成为AI应用的关键入口。AI语音助手不仅能大幅降低企业人力成本,还能为普通用户带来更自然的交互体验。2024年,随着OpenAI、苹果、亚马逊、Meta等巨头的技术突破,AI语音助手的对话质量已接近真人,延迟和语气等难题基本解决,市场扩展速度极快。技术升级带来成本骤降,推动了价格战和商业模式创新。市场玩家分为三大类:底层技术开发者、通用平台型公司、垂直行业应用者。B2B企业服务、医疗健康和消费者领域成为主要应用场景。融资方面,模型公司、平台公司和垂直应用公司均获得大量资本支持。未来,AI语音助手将首先在高频电话行业(如金融、保险、医疗等)落地,逐步渗透更多场景。