《A Survey on Large Language Model based Autonomous Agents》深度解读：一篇读懂 LLM Agent 从架构、能力到评估的系统框架-尧图网站开发

写在前面欢迎大家关注Rocky的知乎Rocky DingAIGC算法工程师/开发工程师面试面经秘籍分享WeThinkIn/Interview-for-Algorithm-Engineer欢迎大家StarAIGC时代的《三年面试五年模拟》AI算法工程师/开发工程师求职面试秘籍独家资源【三年面试五年模拟】AI算法工程师面试秘籍Rocky最新撰写AI AgentAI智能体的深入浅出全维度解析文章深入浅出完整解析AI AgentAI智能体的核心基础知识AIGC算法岗/开发岗面试面经交流社群涵盖AI Agent、AIGC图像创作、AI视频、LLM大模型、AI多模态、数字人、传统深度学习、具身智能等AIGC面试干货资源欢迎大家加入https://t.zsxq.com/33pJ0大家好我是Rocky。核心导读这篇《A Survey on Large Language Model based Autonomous Agents》是一篇非常典型的早期 LLM Agent 综述。它发表于 Agent 概念快速升温的阶段试图把当时分散在游戏、工具调用、社交模拟、机器人、软件工程、科学研究等方向里的工作整理成一个统一视角LLM-based autonomous agent 到底由什么构成能力如何获得可以落在哪些应用里又应该如何评估。Rocky认为这篇论文真正有价值的地方不是简单列了 100 篇 Agent 论文而是给出了一个理解 Agent 的“系统骨架”Agent 不是一个会聊天的大模型而是由 profile、memory、planning、action 四类模块共同构成的任务执行系统。换句话说它把 Agent 从“模型能力叙事”拉回到了“系统工程叙事”。这和上一篇 Anthropic《Building effective agents》的工程经验可以形成互补。Anthropic 更像是在告诉开发者生产环境里不要迷信复杂框架要从简单可验证的模式开始。而这篇综述则更像是在告诉研究者如果要系统理解 LLM Agent就要同时看架构、能力、应用和评估。前者强调工程克制后者提供学术地图两者合在一起才更接近 Agent 落地的全貌。本文会沿着原论文的逻辑展开但不会做逐段翻译。Rocky会把论文中的分类体系进一步翻译成更适合 AI 算法工程师、Agent 产品团队和创业者理解的框架Agent 的核心不是“让 LLM 自主行动”而是让 LLM 在角色、记忆、规划、行动和反馈机制中形成一个可持续完成任务的闭环系统。问题背景作者到底想解决什么传统 autonomous agent 研究并不新。强化学习、机器人、游戏智能体、规划系统里早就有 agent 的概念。但早期 agent 往往在封闭环境里学习依赖有限知识和特定策略函数距离人类在开放环境中的学习方式有明显差距。LLM 出现之后这个问题发生了变化。大模型在大规模文本和网络知识上训练天然拥有更丰富的世界知识、语言交互能力和复杂任务推理能力。于是研究者开始把 LLM 放到 agent 的中心位置让它承担“控制器”角色理解任务、形成计划、调用工具、与环境交互、从反馈中调整行为。论文在 Figure 1 中展示了 2021 年 1 月到 2023 年 8 月 LLM-based autonomous agents 相关论文的快速增长趋势并按不同类别标注了 game agent、tool agent 等研究方向。这个图的价值不只是说明“论文变多了”而是说明 Agent 研究从少数孤立尝试开始变成一个需要系统梳理的领域。从这张图可以看到2023 年前后相关工作密集出现。Toolformer、ReAct、Reflexion、Generative Agents、HuggingGPT、Voyager、ToolLLM、ChatDev、MetaGPT 等工作分别从工具使用、推理行动、反思、社会模拟、模型协作、游戏探索、API 调用、软件工程多智能体等方向推进 Agent。它们看起来方向不同但背后都在回答同一个问题如何让 LLM 不只是回答问题而是持续感知、计划和行动。论文作者因此把综述组织成三个核心维度construction、application、evaluation。construction 关注 Agent 如何构建application 关注 Agent 能用在哪里evaluation 关注 Agent 如何被评估。这个三分法很实用因为它避免了只谈“模型多聪明”而是把 Agent 当成一个完整系统来看。Rocky认为这也是今天做 Agent 产品最容易踩坑的地方。很多团队只盯着模型本身觉得换上更强模型就能获得更强 Agent。但真正进入复杂任务后模型只是 Agent 系统中的一个核心引擎。没有角色设定、记忆机制、规划策略、工具接口、反馈评估模型能力很难稳定转化成任务结果。核心思路用一句主线串起来这篇论文的主线可以概括为LLM Agent 的发展是从单次问答能力走向“角色化、记忆化、规划化、工具化、可评估化”的系统能力。如果把传统 LLM 看作一个“语言推理引擎”那么 LLM Agent 就是在这个引擎外面加上若干系统模块让它能在环境中连续行动。Profile 模块定义它是谁Memory 模块保存它经历过什么Planning 模块决定它接下来怎么做Action 模块把决策转化为外部行为。能力获取部分则回答这些能力是靠 fine-tuning 学出来还是靠 prompt engineering、mechanism engineering 激发出来。这套框架非常适合用来理解 Agent 的本质。Agent 不等于一个 prompt也不等于一个 workflow更不等于某个框架的 API。Agent 是一个运行中的闭环系统。它的能力来自 LLM 的通用知识但它的可靠性来自系统设计。方法展开沿着论文原始逻辑拆解1. 统一架构Profile、Memory、Planning、Action 四个模块论文最重要的贡献之一是提出了一个统一架构框架用四个模块概括多数 LLM-based autonomous agentsprofiling module、memory module、planning module、action module。这张图非常关键。它把 Agent 从一个抽象概念拆成了四个工程组件。Profile 模块负责定义 Agent 的角色。一个 Agent 是程序员、老师、领域专家、消费者、法官还是游戏玩家会直接影响它的行为方式。Profile 可以手工设计也可以由 LLM 自动生成还可以从真实数据集中对齐得到。比如社会模拟中如果要模拟不同人群的行为就不能只写一句“你是一个用户”而要定义年龄、职业、偏好、心理特征、社会关系等信息。Memory 模块负责保存 Agent 的过去。论文把 memory 分成结构、格式和操作三个视角。结构上可以是 short-term memory也可以是 short-term long-term 的 hybrid memory格式上可以是自然语言、embedding、数据库、结构化记录操作上不只是读写还包括 reflection也就是从历史经验中抽象出更高层次的经验。Planning 模块负责让 Agent 面对复杂任务时先拆解再行动。论文区分了 planning without feedback 和 planning with feedback。前者像 Chain-of-Thought、least-to-most prompting 这类推理拆解后者则更接近 ReAct、Reflexion、Tree of Thoughts 等带环境反馈或自我修正的过程。Action 模块负责把计划变成动作。动作可以是内部知识生成也可以是外部工具调用包括 API、搜索、数据库、代码执行、机器人动作等。Agent 真正从“会说”变成“会做”很大程度上发生在 action 模块。Rocky认为这四个模块可以转化成一个非常实用的 Agent 设计检查表模块关键问题产品/工程含义ProfileAgent 扮演什么角色边界是什么决定行为风格、专业能力和责任范围Memory它记住什么、忘记什么、如何检索决定长期一致性、个性化和经验积累Planning它如何拆解任务、如何接收反馈决定复杂任务处理能力和错误恢复能力Action它能调用哪些工具、改变哪些状态决定从文本生成到真实执行的落地能力这个表的意义在于它提醒我们Agent 的设计不是“写一个超长系统提示词”而是分别设计身份、记忆、计划和行动再把它们放进统一闭环。2. Profile 模块角色不是装饰而是行为约束论文把 profile 生成方法分为三类handcrafting、LLM-generation、dataset alignment。Handcrafting 是人工指定角色比如“你是一个外向的人”“你是软件开发项目经理”。它灵活但当 Agent 数量很大时人工成本高而且容易带有设计者偏见。LLM-generation 是用大模型批量生成角色 profile。比如先给少量种子用户再让模型扩展出更多用户画像。这种方法适合大规模 agent population但精确控制较弱生成结果可能偏离预期。Dataset alignment 是从真实世界数据集中抽取 profile。比如用人口统计数据、用户行为数据、问卷数据来构造 Agent。它的优势是更贴近真实人群适合社会模拟和行为预测。Rocky认为profile 模块的本质不是“给 Agent 加人设”而是给决策系统增加先验约束。一个没有角色边界的 Agent会在不同任务中漂移一个过度固化的 Agent又会在新场景中失去弹性。真正好的 profile 设计应该服务于任务而不是服务于表演。3. Memory 模块Agent 能不能变聪明取决于它如何组织过去Memory 是 Agent 区别于单次 LLM 调用的核心模块。没有记忆模型每次都像第一次遇见世界有了记忆Agent 才能积累经验、保持一致性并在长期任务中自我演化。论文把 memory structure 分为 unified memory 和 hybrid memory。Unified memory 更接近短期上下文把历史信息直接写进 prompthybrid memory 同时模拟 short-term memory 和 long-term memory短期记忆保留当前状态长期记忆通过向量数据库或结构化存储保存重要经验。从工程角度看hybrid memory 更接近真实生产系统。短期记忆解决“现在发生了什么”长期记忆解决“过去哪些经验和当前任务相关”。但它也带来更多问题什么信息值得写入长期记忆如何避免错误记忆污染后续任务如何区分用户偏好、事实知识和任务状态如何处理隐私和过期信息Rocky认为Agent 记忆的难点不是存储而是治理。向量数据库能存很多东西但不是所有历史都值得记住RAG 能检索很多内容但不是所有检索结果都应该进入决策。未来成熟 Agent 的记忆系统会更像一个可审计的知识与经验管理层而不是一个无限增长的聊天记录仓库。4. Planning 模块从单路径推理到多路径探索规划能力决定 Agent 能否处理复杂任务。论文用 Figure 3 对比了 single-path reasoning 和 multi-path reasoning。Single-path reasoning 是沿着一条推理路径往前走比如 CoT、least-to-most prompting。它适合结构较清晰的问题成本较低但容易被早期错误带偏。Multi-path reasoning 则同时探索多个候选路径通过投票、搜索、比较或回溯选择更优路径比如 self-consistency、Tree of Thoughts 等思想。在 Agent 里planning 不只是写出一个计划更重要的是计划能否随着反馈更新。Planning without feedback 更像静态推理planning with feedback 才更接近真实执行。因为真实环境会不断告诉 Agent动作失败了、工具返回异常、代码测试没过、搜索结果不够、用户需求变了。这和上一篇 Anthropic 文章里的 Evaluator-optimizer、Orchestrator-workers、Agent loop 有很强呼应。复杂任务的关键不只是“计划得好”而是“计划失败后能不能修正”。Agent 的智能性很大程度上体现在错误恢复能力而不是第一次回答多漂亮。Rocky认为规划模块是 Agent 从“自动化脚本”走向“任务执行系统”的分水岭。脚本只会按路径走Agent 至少应该知道路径不通时怎么换路。5. Action 模块工具调用让 Agent 从语言世界进入现实世界Action 模块把 Agent 的决策转化为具体输出。论文把 action 分为是否使用工具。没有工具时Agent 的动作主要是生成文本使用工具后Agent 可以搜索、调用 API、写代码、操作数据库、控制机器人、与软件系统交互。这一步是 Agent 产品化的关键。因为只会说话的系统本质上仍是内容生成系统能可靠调用工具的系统才开始具备任务完成能力。但工具调用也放大了风险。LLM 的一次幻觉如果只是生成文本风险可能停留在误导如果连接到工具就可能变成错误下单、错误退款、错误删除文件、错误修改生产环境配置。工具越强越需要权限控制、沙盒、审计和回滚。Rocky认为Action 模块是 Agent 商业价值和安全风险同时上升的地方。AI Agent 真正的商业化不是“让模型多调用几个工具”而是把工具调用变成可控、可观测、可计费的生产流程。6. Capability Acquisition能力从哪里来论文把 Agent 能力获取分成两大类with fine-tuning 和 without fine-tuning。Fine-tuning 方法通过人类标注数据、LLM 生成数据或真实世界数据来提升模型能力。比如 ToolBench 用大量真实 API 生成指令数据来增强开源模型的工具使用能力MIND2WEB 用真实网站任务数据提升 web agent 能力SQL-PaLM 用跨领域 text-to-SQL 数据提升数据库任务能力。Without fine-tuning 则主要依赖 prompt engineering 和 mechanism engineering。Prompt engineering 用自然语言描述任务、推理过程、角色约束或失败反思mechanism engineering 则通过 trial-and-error、crowd-sourcing、experience accumulation、self-driven evolution 等机制让 Agent 在运行中增强能力。这里的“mechanism engineering”很值得重视。它说明 Agent 的能力不一定只来自模型参数也可以来自系统机制。比如 Reflexion 让模型从失败反馈中反思Voyager 通过 skill library 积累 Minecraft 技能多 Agent debate 通过群体讨论提升答案质量。这些方法都不是简单训练一个更大模型而是设计让模型能力持续释放的机制。Rocky认为Agent 时代一个很重要的转变是模型训练能力之外系统机制设计能力会变得越来越重要。不是每个团队都能训练大模型但很多团队可以通过工具、记忆、反馈、评测和任务机制把现有模型变成更可靠的业务系统。7. 构建策略总表论文如何横向比较代表性 Agent论文用 Table 1 把代表性 Agent 工作映射到 profile、memory、planning、action、capability acquisition 等维度。这个表很长但很重要因为它把不同论文从“项目名称”还原成“系统模块组合”。表中符号含义可以简化理解为profile 看角色怎么生成memory 看记忆结构和操作planning 看是否有反馈action 看是否使用工具CA 看能力获取是否依赖 fine-tuning。ModelProfileMemoryPlanningActionCATimeOperationStructureWebGPT [67]----2112/2021SayCan [79]---11204/2022MRKL [73]---12-05/2022Inner Monologue [62]---21207/2022Social Simulacra [80]2---1-08/2022ReAct [60]---22110/2022MALLM [42]-12-1-01/2023DEPS [33]---21202/2023Toolformer [15]---12102/2023Reflexion [12]-2221203/2023CAMEL [81]1 2--21-03/2023API-Bank [70]---22204/2023ViperGPT [75]----2-03/2023HuggingGPT [13]-1112-03/2023Generative Agents [20]12221-04/2023LLMP [58]---11-04/2023ChemCrow [76]---22-04/2023OpenAGI [74]---22104/2023AutoGPT [82]-1222204/2023SCM [35]-22-1-04/2023Socially Alignment [83]-12-1105/2023GITM [16]-2221205/2023Voyager [38]-2221205/2023Introspective Tips [84]---21205/2023RET-LLM [41]-12-1105/2023ChatDB [40]-1222-06/2023$S^3$ [78]322-1-07/2023ChatDev [18]12221207/2023ToolLLM [14]---22107/2023MemoryBank [39]-22-1-07/2023MetaGPT [23]12222-08/2023这张表真正值得读者关注的不是每一行的具体符号而是一个趋势越成熟的 Agent 越少依赖单一 prompt而越倾向于组合 profile、hybrid memory、feedback planning、tool action 和非参数化能力机制。从产业角度看这意味着 Agent 不是一个单点模型功能而是一套可配置的系统架构。不同场景应该选择不同模块组合而不是把所有模块无脑堆上去。应用图谱Agent 为什么会首先进入这些场景论文把 LLM-based agents 的应用分成三大类social science、natural science、engineering。Figure 5 左侧是应用图谱右侧是评估策略。1. Social ScienceAgent 作为社会模拟器社会科学方向包括心理学、政治科学与经济、社会模拟、法学、研究助手等。LLM Agent 在这里的价值不只是回答问题而是模拟具备特定 profile 的人群行为。比如 Generative Agents 和 AgentSims 尝试构建虚拟小镇或社会环境让多个 Agent 在其中生活、互动、形成行为轨迹。政治科学和经济学中Agent 可以模拟投票倾向、意识形态、经济行为。心理学中Agent 可以被赋予不同人格或背景完成实验任务。但这类应用有一个关键边界模拟不等于真实。LLM 可能表现出“过度理性”或“超出普通人知识边界”的行为。论文在 challenges 中也提到 knowledge boundary 问题如果一个 Agent 用了它在预训练中学到的大量世界知识它可能并不像一个真实普通用户。2. Natural ScienceAgent 作为科学研究助手自然科学方向包括文档和数据管理、实验助手、科学教育等。代表性方向如 ChemCrow、ChatMOF、MathAgent 等。这里的 Agent 价值在于把 LLM 的语言理解、知识整合和工具调用能力接入科学工作流。科学场景对 Agent 很有吸引力因为很多任务天然需要多步推理和工具调用检索文献、整理实验数据、调用计算工具、设计实验方案、解释结果。相比纯聊天助手科学 Agent 更接近 workflow agent。但科学场景也要求更强可验证性。一个实验建议、化学合成路径、数学证明或材料设计结论如果不能被验证就不能直接进入生产或研究决策。这里 Agent 的价值不在于替代科学家而在于提高信息处理和候选方案生成效率。3. EngineeringAgent 作为软件与工业任务执行者工程方向包括计算机科学与软件工程、工业自动化、机器人与具身智能。ChatDev、MetaGPT、Self-collaboration、RestGPT、PentestGPT、D-Bot、SayCan、RoCo 等都属于这一大类。软件工程是 Agent 最容易落地的方向之一。原因很直接代码任务有结构化输入工具链成熟测试可以反馈版本控制可以回滚。Agent 可以写代码、调试、测试、查日志、生成文档、调用数据库或 API。相比很多开放式任务软件工程有更好的闭环。机器人与具身智能则更进一步把 Agent 的 action 接到物理世界。这里的挑战更大因为环境反馈更复杂错误成本更高安全边界更严格。但长期看它也代表 Agent 从数字世界走向真实世界的方向。4. 应用领域总表Table 2 汇总了代表性应用。它不是为了告诉读者“这些方向都能做”而是提醒我们Agent 真正适合的任务往往具备三个特征多步、可反馈、需要工具或环境交互。DomainWorkSocial SciencePsychologyTE [101], Akata et al. [102], Ziems et al. [104], Ma et al. [103]Political Science and EconomyArgyle et al. [29], Horton [105], Ziems et al. [104]Social SimulationSocial Simulacra [80], Generative Agents [20], SocialAI School [108], AgentSims [34], $S^3$ [78], Williams et al. [109], Li et al. [106], Chao et al. [107]JurisprudenceChatLaw [111], Blind Judgement [112]Research AssistantZiems et al. [104], Bail et al. [113]Natural ScienceDocumentation and Data ManagementChemCrow [76], ChatMOF [115], Boiko et al. [114]Experiment AssistantChemCrow [76], Boiko et al. [114], Grossmann et al. [121]Natural Science EducationChemCrow [76], CodeHelp [119], Boiko et al. [114], MathAgent [116], Drori et al. [117], EduChat [87], FreeText [120]EngineeringCS SERestGPT [71], Self-collaboration [24], SQL-PALM [89], RAH [91], D-Bot [122], RecMind [53], ChatEDA [123], InteRecAgent [124], PentestGPT [125], CodeHelp [119], SmolModels [126], DemoGPT [127], GPTEngineer [128]Industrial AutomationGPT4IA [129], IELLM [130]Robotics Embodied AIProAgent [131], LLM4RL [132], PET [133], REMEMBERER [134], DEPS [33], Unified Agent [135], SayCan [79], TidyBot [136], RoCo [92], SayPlan [31], TaPA [137], Dasgupta et al. [138], DECKARD [139], Dialogue shaping [140]Rocky认为如果从商业落地角度重新排序软件工程、客服、企业知识工作流、科研助手、数据分析会比纯社会模拟更早形成商业闭环。社会模拟有研究价值但真实业务付费更依赖结果可验证、效率提升可量化、风险可控。实验与证据结果能支撑到什么程度这篇论文是 survey不是提出新模型的实验论文。因此它的证据形式不是 benchmark 提升而是 taxonomy、文献覆盖和横向归纳。论文声称覆盖了 100 项 LLM-based agents 相关工作并从 construction、application、evaluation 三个维度进行系统整理。这种证据能支撑的结论是到 2023 年 8 月LLM Agent 研究已经形成若干稳定方向尤其是架构模块、能力获取策略、应用领域和评估方法。但它不能支撑“某一种 Agent 架构一定最优”这样的结论也不能证明某个具体方法在所有任务上更强。论文在 evaluation 部分把评估分为 subjective evaluation 和 objective evaluation。Subjective evaluation 包括 human annotation 和 Turing testobjective evaluation 包括 real-world simulation、social evaluation、multi-task evaluation、software testing 等。Table 3 总结了代表性工作使用的评估策略。ModelSubjectiveObjectiveBenchmarkTimeWebShop [86]-1 3√07/2022Social Simulacra [80]12-08/2022TE [101]-2-08/2022LIBRO [159]-4-09/2022ReAct [60]-1√10/2022Argyle et al. [29]22 3-02/2023DEPS [33]-1√02/2023Jalil et al. [160]-4-02/2023Reflexion [12]-1 3-03/2023IGLU [161]-1√04/2023Generative Agents [20]1--04/2023ToolBench [151]-3√04/2023GITM [16]-1√05/2023Two-Failures [162]-3-05/2023Voyager [38]-1√05/2023SocKET [163]-2 3√05/2023MobileEnv [164]-1 3√05/2023Clembench [165]-1 3√05/2023Dialog [166]-3√06/2023Feldt et al. [167]-4-06/2023CO-LLM [22]11-07/2023Tachikuma [168]11 3√07/2023RocoBench [92]-1 3√07/2023AgentSims [34]-2-08/2023AgentBench [169]-3√08/2023BOLAA [170]-3√08/2023Gentopia [171]-3√08/2023EmotionBench [172]1-√08/2023PTB [125]-4-08/2023这张表揭示了 Agent 评估的一个核心问题不同 Agent 任务的成功标准差异太大。WebShop 可以用购物任务完成度评估ReAct 可以用 benchmark 任务评估软件工程可以用测试通过率评估社会模拟可能需要人类评估或图灵测试。也就是说Agent 没有一个统一的“分数”可以覆盖所有场景。Rocky认为这正是 Agent 产品化的难点之一。模型 benchmark 可以统一比较 MMLU、GSM8K、HumanEval但 Agent benchmark 必须进入任务环境。一个 Agent 是否有价值不能只看它回答是否流畅而要看它是否在特定环境中完成了可验证任务。这篇工作的边界与可复现性这篇综述的价值很大但边界也很清楚。第一它主要覆盖到 2023 年 8 月前后的工作。这个时间点非常关键因为后来 Agent 工程发生了很多变化更强的长上下文模型、更成熟的 tool calling、更强的 coding agent、更标准化的 MCP/Agent SDK、更复杂的浏览器和电脑使用能力都没有充分进入这篇论文的体系。第二它的 taxonomy 偏学术工程落地细节不足。比如权限管理、沙盒执行、状态回滚、成本控制、用户体验、日志审计、生产监控这些对于真实 Agent 产品非常重要但不是论文重点。第三它保留了很多早期 Agent 工作的乐观判断。2023 年的 Agent 热潮里很多 Demo 展示了很强想象力但长期稳定性、任务成功率、成本和安全问题在后续实践中才逐步暴露出来。读这篇论文时要把它当作“早期研究地图”而不是成熟产品手册。第四它对 evaluation 的讨论虽然全面但还没有形成统一方法论。Agent 评估到今天仍是难题尤其是开放式长任务、多工具调用、多轮反馈任务如何设计可复现、可比较、可防作弊的评估环境仍然是行业核心问题。如果继续研究/落地应该关注什么1. 从模块堆叠走向任务闭环论文把 Agent 拆成 profile、memory、planning、action很适合做研究分类。但真实落地时不能只是把四个模块都堆上去而要问这个任务到底需要哪些模块不需要长期记忆的任务硬加 memory 会制造噪声不需要开放规划的任务硬加 planner 会增加不确定性不需要工具调用的任务硬接 API 会放大风险。Agent 的复杂度应该由任务需求决定而不是由框架能力决定。2. 从 prompt engineering 走向 mechanism engineering这篇论文提出 mechanism engineering 很有启发。未来 Agent 竞争不只是 prompt 写得好而是机制设计得好。谁能设计更好的反馈循环、记忆更新策略、工具封装方式、任务分解机制、错误恢复流程谁就能更稳定地释放模型能力。这也是 AI 应用团队和纯模型团队的分工边界。模型公司提供通用能力应用团队真正要沉淀的是业务机制。3. Agent 评估会成为真正的护城河没有评估就没有可靠 Agent。Agent 的评估必须进入环境、工具、状态和长期任务而不是停留在单轮问答。软件工程方向之所以跑得快是因为测试、CI、repo、issue、diff 天然提供了评估闭环。其他行业如果想做 Agent也需要构建自己的任务级评估体系。Rocky认为未来很多垂直 Agent 项目的壁垒不会是“我用了哪个模型”而是“我有没有行业任务数据、评估环境和反馈闭环”。4. 记忆治理会比记忆存储更重要很多 Agent 系统喜欢强调长期记忆但长期记忆很容易变成垃圾场。真正难的是哪些内容进入记忆哪些内容被遗忘哪些内容需要用户确认哪些内容会过期哪些内容不能被不同任务共享。企业级 Agent 尤其如此。记忆涉及隐私、权限、合规和安全不是简单接一个向量库就结束。5. 从数字 Agent 走向具身 Agent需要更强世界模型和安全机制论文中的 embodied AI 和 robotics 方向代表 Agent 的长期想象空间。但物理世界比数字世界更难反馈慢、状态复杂、错误代价高、环境不可控。LLM Agent 要真正进入物理世界需要与视觉、控制、仿真、世界模型、边缘设备和安全约束结合。这不是简单“给机器人接一个大模型”就能解决的问题而是系统工程。术语与概念速查术语论文中的含义Rocky 解读LLM-based autonomous agent以 LLM 为核心控制器、可感知和行动的自主系统从回答问题走向执行任务的系统形态Profiling module定义 Agent 的角色、身份、偏好和社会属性给 Agent 行为加先验约束Memory module保存短期和长期经验并支持读写与反思Agent 长期一致性和自我演化的基础Planning module将复杂任务拆解为计划并可能根据反馈更新Agent 错误恢复和复杂任务处理的关键Action module将计划转化为文本输出或外部工具调用Agent 从语言世界进入现实世界的接口Capability acquisitionAgent 获取能力的方式参数训练、提示工程和机制工程的组合Mechanism engineering通过机制设计增强 Agent 能力Agent 应用团队真正可沉淀的系统能力Subjective evaluation人类标注、图灵测试等主观评估适合开放式、社会模拟、交互体验任务Objective evaluation仿真、benchmark、软件测试等客观评估适合可验证任务是商业落地的核心拓展思考值得继续扩展研究与思考的创新点1. Agent 的本质是“模型能力任务制度”很多人谈 Agent仍然停留在“模型更聪明所以能自主完成任务”。但这篇论文提醒我们Agent 不是只有模型能力还有任务制度。Profile 是身份制度memory 是经验制度planning 是决策制度action 是执行制度evaluation 是审计制度。没有制度的自主只是不可控的输出有制度的自主才可能变成生产力。2. 未来 Agent 产品会分成两类通用基础设施和垂直任务系统通用 Agent 基础设施会提供工具协议、工作流编排、记忆管理、权限控制、评测框架等能力。垂直任务系统则会面向软件工程、科研、客服、营销、法务、金融、工业等具体场景沉淀行业工具、数据和评估。Rocky认为真正可持续的创业机会更可能出现在后者。因为通用框架容易被模型厂商和云厂商吸收而垂直任务闭环更依赖行业认知和客户场景。3. Agent 人才能力会从“会调模型”升级为“会设计系统”未来优秀的 Agent 工程师不只是会写 prompt、调 API而是要理解任务拆解、工具设计、记忆治理、评估指标、安全权限和产品闭环。这对 AI 算法工程师也是一个提醒。过去算法岗强调模型、训练、指标Agent 时代会要求更多系统工程和产品理解。模型会迭代工具会换代但任务建模和系统判断会跨周期积累。4. 综述论文的历史价值它记录了 Agent 从概念萌芽到体系化的阶段今天回看这篇论文它的一些内容可能已经不够新比如早期 Agent 项目、早期评估方式、早期工具调用方式。但它的历史价值在于它把 Agent 研究从“散点创新”组织成了一个完整框架。如果说 2023 年是 Agent 概念爆发的阶段那么这篇综述记录的正是那个阶段的知识地图。后续 Agent 的工程化、产品化和商业化都可以在这个地图上继续长出来。总结Agent 不是一个更长的 Prompt而是一套可演化的任务系统这篇论文给 Rocky 最大的启发是LLM Agent 的真正价值不在于让大模型看起来更像人而在于让大模型进入一个能持续感知、记忆、规划、行动和评估的系统。传统 LLM 的核心是生成答案LLM Agent 的核心是完成任务。两者之间差的不只是工具调用而是一整套系统结构。Profile 决定它是谁memory 决定它记得什么planning 决定它怎么想action 决定它能做什么evaluation 决定它做得对不对。能力可以来自 fine-tuning也可以来自 prompt engineering 和 mechanism engineering。应用可以进入社会科学、自然科学和工程场景但真正能商业化的必须回到可验证任务闭环。Rocky认为Agent 不是“LLM 的一个功能”而是 LLM 进入现实工作流之后形成的新系统范式。上半场大家奖励的是概念和 Demo下半场会奖励系统闭环、评估能力、工具接口和行业认知。工具红利会退潮认知红利会上升。对于开发者和创业者来说真正应该学习的不是某个 Agent 框架本身而是这篇论文背后的系统拆解能力把一个看似智能的问题拆成角色、记忆、规划、行动、评估再把每一层都做成可验证、可迭代、可落地的工程结构。参考来源Lei Wang et al., “A Survey on Large Language Model based Autonomous Agents”, arXiv:2308.11432.推荐阅读Rocky一直在运营技术交流群WeThinkIn-技术交流群这个群的初心主要聚焦于技术话题的讨论与学习包括但不限于算法开发竞赛科研以及工作求职等。群里有很多人工智能行业的大牛欢迎大家入群一起学习交流请添加小助手微信Jarvis8866拉你进群1. 深入浅出完整解析AI AgentAI智能体的核心基础知识2025年可以说是AI Agent全面落地应用的元年因此Rocky在持续撰写对AI Agent的全维度解析文章深入浅出完整解析AI AgentAI智能体的核心基础知识2. 深入浅出完整解析扩散模型DDPM、DDIM、Classifier/Classifier-Free Guidance、Rectified Flow核心基础知识和Rocky一起学习探究扩散模型的本质原理与和核心基础知识同时不断跟进扩散模型的最新发展。Rocky在本文中对扩散模型的本质做了全面系统的梳理与讲解深入浅出完整解析扩散模型DDPM、DDIM、SDE、Classifier/Classifier-Free Guidance、Rectified Flow核心基础知识3. 深入浅出完整解析FLUX.2、Seedream即梦、Z-image、GLM-Image核心基础知识https://zhuanlan.zhihu.com/p/19751746910491895624. 深入浅出完整解析FLUX.1 Kontext和FLUX.1 Krea核心基础知识深入浅出完整解析FLUX.1 Kontext和FLUX.1 Krea核心基础知识5. 深入浅出完整解析DeepSeek系列核心基础知识深入浅出完整解析DeepSeek系列核心基础知识6、Sora等AI视频大模型的核心原理核心基础知识网络结构经典应用场景从0到1搭建使用AI视频大模型从0到1训练自己的AI视频大模型AI视频大模型性能测评AI视频领域未来发展等全维度解析文章正式发布码字不易欢迎大家多多点赞Sora等AI视频大模型文章地址深入浅出完整解析Sora、Wan2.1、AnimateDiff、CogVideoX等AI视频大模型核心基础知识7、Stable Diffusion 3和FLUX.1核心原理核心基础知识网络结构从0到1搭建使用Stable Diffusion 3和FLUX.1进行AI绘画从0到1上手使用Stable Diffusion 3和FLUX.1训练自己的AI绘画模型Stable Diffusion 3和FLUX.1性能优化等全维度解析文章正式发布码字不易欢迎大家多多点赞Stable Diffusion 3和FLUX.1文章地址深入浅出完整解析Stable Diffusion 3SD 3和FLUX.1系列核心基础知识8、Stable Diffusion XL核心基础知识网络结构从0到1搭建使用Stable Diffusion XL进行AI绘画从0到1上手使用Stable Diffusion XL训练自己的AI绘画模型AI绘画领域的未来发展等全维度解析文章正式发布码字不易欢迎大家多多点赞Stable Diffusion XL文章地址深入浅出完整解析Stable Diffusion XLSDXL核心基础知识9、Stable Diffusion 1.x-2.x核心原理核心基础知识网络结构经典应用场景从0到1搭建使用Stable Diffusion进行AI绘画从0到1上手使用Stable Diffusion训练自己的AI绘画模型Stable Diffusion性能优化等全维度解析文章正式发布码字不易欢迎大家多多点赞Stable Diffusion文章地址深入浅出完整解析Stable DiffusionSD核心基础知识10、ControlNet核心基础知识核心网络结构从0到1使用ControlNet进行AI绘画从0到1训练自己的ControlNet模型从0到1上手构建ControlNet商业变现应用等全维度解析文章正式发布码字不易欢迎大家多多点赞ControlNet文章地址深入浅出完整解析ControlNet核心基础知识11、LoRA系列模型核心原理核心基础知识从0到1使用LoRA模型进行AI绘画从0到1上手训练自己的LoRA模型LoRA变体模型介绍优质LoRA推荐等全维度解析文章正式发布码字不易欢迎大家多多点赞LoRA文章地址深入浅出完整解析LoRALow-Rank Adaptation模型核心基础知识12、深入浅出完整解析AIGC时代Transformer核心基础知识在AIGC时代中Transformer为AI行业带来了深刻的变革。Transformer架构正在一步一步重构所有的AI技术方向成为AI技术架构大一统与多模态整合的关键核心基座大有一统“AI江湖”之势。Rocky也对Transformer模型进行持续的深入浅出梳理与解析Transformer文章地址深入浅出完整解析AIGC时代Transformer核心基础知识13、最全面的AIGC面经《手把手教你成为AIGC算法工程师斩获AIGC算法offer2024年版》文章正式发布码字不易欢迎大家多多点赞AIGC面经文章地址手把手教你成为AIGC算法工程师斩获AIGC算法offer14、50万字大汇总《“三年面试五年模拟”之算法工程师的求职面试“独孤九剑”秘籍》文章正式发布码字不易欢迎大家多多点赞算法工程师三年面试五年模拟文章地址https://zhuanlan.zhihu.com/p/545374303《三年面试五年模拟》github项目地址希望大家能多多starhttps://github.com/WeThinkIn/Interview-for-Algorithm-Engineer15、Stable Diffusion WebUI、ComfyUI、Fooocus三大主流AI绘画框架核心知识从0到1搭建AI绘画框架从0到1使用AI绘画框架的保姆级教程深入浅出介绍AI绘画框架的各模块功能深入浅出介绍AI绘画框架的高阶用法等全维度解析文章正式发布码字不易欢迎大家多多点赞AI绘画框架文章地址深入浅出完整解析主流AI绘画框架ComfyUI、Stable Diffusion WebUI、Fooocus核心基础知识16、GAN网络核心基础知识网络架构GAN经典变体模型经典应用场景GAN在AIGC时代的商业应用等全维度解析文章正式发布码字不易欢迎大家多多点赞GAN网络文章地址https://zhuanlan.zhihu.com/p/66315730617. AI算法工程师的《三年面试五年模拟》求职秘籍AIGC时代的算法工程师的求职面试秘籍持续更新中18. AIGC产业的深度思考与分析2023年3月21日微软创始人比尔·盖茨在其博客文章《The Age of AI has begun》中表示自从1980年首次看到图形用户界面graphical user interface以来以OpenAI为代表的科技公司发布的AIGC模型是他所见过的最具革命性的技术进步。Rocky也认为AIGC及其生态会成为AI行业重大变革的主导力量。AIGC会带来一个全新的红利期未来随着AIGC的全面落地和深度商用会深刻改变我们的工作、生活、学习以及交流方式各行各业都将被重新定义过程会非常有趣。那么在此基础上我们该如何更好的审视AIGC的未来我们该如何更好地拥抱AIGC引领的革新Rocky准备从技术、产品、商业模式、长期主义等维度持续分享一些个人的核心思考与观点希望能帮助各位读者对AIGC有一个全面的了解深入浅出全面解析AIGC时代核心价值与发展趋势2025年版

《A Survey on Large Language Model based Autonomous Agents》深度解读：一篇读懂 LLM Agent 从架构、能力到评估的系统框架

相关新闻