第四个时代:Agent时代

Prompt时代让大模型学会了思考。
Tool时代让大模型拥有了行动能力。
RAG时代让大模型能够获取外部知识。
但当这些能力组合在一起后,人们很快发现:
一个新的问题出现了。

1
大模型能够回答问题,却无法真正完成任务。

RAG时代为什么不够

假设用户提出一个问题:

1
苹果公司的AI战略是什么?

RAG非常擅长处理这类任务。
它可以:

  • 检索资料
  • 阅读文档
  • 组织答案

最终给出一份不错的总结。
但现实世界中的需求往往不是这样。
用户真正想说的是:

1
2
帮我研究苹果AI战略,
并分析它未来三年的竞争优势。

这已经不是一个问题。
而是一个任务。
为了完成它,系统可能需要:

1
2
3
4
5
6
7
8
9
10
11
12
13
搜索财报

搜索发布会内容

搜索高管访谈

搜索竞争对手动态

整理资料

分析趋势

输出结论

这里不存在一次检索就能得到答案的情况。
系统必须不断行动、不断获取信息、不断修正自己的判断。
RAG开始暴露出边界。

Agent是什么

Agent通常被翻译为“智能体”。
但从本质上说:

1
Agent并不是一种模型,而是一种工作方式。

传统方式:

1
2
3
4
5
问题

思考/tool/RAG

回答

Agent方式:

1
2
3
4
5
6
7
8
9
10
11
目标

规划

执行

观察结果

继续执行

完成目标

最大的区别在于:

  • 用户不再告诉系统具体步骤。
  • 只需要告诉系统目标。

Agent时代的关键突破

Planning(规划)

Agent开始学会拆解任务。
规划能力让复杂任务变得可执行。

Multi-Step Execution(多步执行)

传统RAG通常只执行一次检索。
Agent则能够连续行动。

例如:

1
2
3
4
5
6
7
8
9
10
11
搜索

阅读

发现信息不足

再次搜索

再次阅读

总结

形成完整闭环。

Reflection(反思)

Agent开始具备简单的自我评估能力。
例如:

1
2
3
资料是否足够?
结果是否可信?
是否需要继续搜索?

这种能力让系统逐渐摆脱“一次回答定终身”的模式。

Tool Orchestration(工具编排)

在Tool时代。
模型通常一次调用一个工具。
Agent时代则开始组合使用多个工具。

例如:

1
2
3
4
5
6
7
8
9
浏览器

搜索引擎

数据库

代码执行

文档生成

多个工具协同完成同一个目标。

Agent时代留下了什么

Prompt时代让模型拥有了思考能力。
Tool时代让模型拥有了行动能力。
RAG时代让模型拥有了知识获取能力。
Agent时代则第一次让模型拥有了任务执行能力。
从这一阶段开始,大模型不再只是问答系统,而开始成为真正的软件执行主体。