当前位置：首页 » 苏米杂谈

终于搞懂AI Agent了：从怎么做到做什么

5月前苏米杂谈 1267 0

说实话，以前总觉得 Agent 是个玄而又玄的词，像是未来科技的模糊想象。

但最近深入研究后我发现它其实有非常清晰的发展脉络，也让我对 AI 的下半场有了新的认知。

三个阶段看懂AI进化史

可以把 AI 的发展分成三波浪潮：

符号主义AI（规则时代）

就是写一堆 if-else，逻辑清楚但毫无扩展性。

深度强化学习（学习时代）

代表作是 AlphaGo。能解决特定问题，但局限太大。

基于大语言模型的Agent（推理时代）

这就是我们正在经历的阶段。大模型的突破在于“推理能力”，让 AI 不再局限于单一任务，而是能跨环境泛化，学会和环境交互。

我理解下来的逻辑是：语言→推理→行动。

语言让 AI 能够泛化思考，推理让它能跨场景解决问题，最后才是进入环境、执行动作。

为什么语言Agent这么关键？

语言是为了实现泛化而发明的工具，比其他方式更本质。

想想确实没错：

数学公式可以用语言描述
代码逻辑也能用语言表达
复杂推理同样可以展开成语言

这意味着：基于语言的大模型，是最有希望通向通用人工智能（AGI）的路径。

上半场 vs 下半场

上半场：大家在拼算力、拼数据、拼模型架构——训练更强的模型。

下半场：焦点转向“定义任务和环境”。

换句话说，模型配方已经稳定了，接下来更重要的是“做什么”。

上半场：比拼技术实力
下半场：看谁能定义真正有价值的问题，并在真实环境中验证

姚顺雨强调：“评估比训练更重要，要关注真实世界效用，而不是只看 benchmark。”

这句话点醒我了：下半场其实是创业公司最大的机会窗口。

创业者的机会在哪里？

他提到一句让我有点心虚的话：“别担心模型吞掉应用，更该担心的是模型没有新的溢出能力。”

换句话说，如果模型能力停滞，反而更难做创新应用。

真正的机会在于两点结合：

模型能力的持续溢出
创新的交互方式

如果只停留在 ChatBot 模式，机会空间会越来越窄；但如果能找到新的交互方式、垂直场景，反而有很大可能性。

比如 代码环境。为什么它被认为是最重要的 AGI 场景之一？

反馈机制明确
可多轮交互和验证
对 AI 来说天然友好

难怪最近这么多创业者扎堆做 AI 编程助手。

还有哪些技术硬骨头？

听下来，我发现 Agent 的挑战也很现实：

长期记忆：现在 Agent 的记忆都太短，上下文一断就傻掉。
内生奖励系统：不能总靠人类反馈，要学会自己判断好坏。
多智能体协作：未来一定是多个 Agent 协同，而不是单兵作战。
任务设计与评估：要能模拟真实复杂性，而不是只在实验室里刷分。

我的体会

听完这场访谈，我最大的收获是：

AI 的下半场，并不是技术变得不重要，而是技术已经公式化了，大家可以把更多精力放在应用和价值创造上。

对我这样的产品经理来说，这意味着：

不能只盯着模型参数和升级日志
更要思考“我定义的任务是否有真实价值？”
产品设计里，评估机制要尽可能接近真实世界

这个转折点的理解，不仅对研究者有启发，对创业者更是关键。因为未来的 AI 应用，不再只是“接个大模型”，而是要围绕 Agent → 任务 → 环境 → 价值 来重新思考。

声明：本站原创文章文字版权归本站所有，转载务必注明作者和出处；本站转载文章仅仅代表原作者观点，不代表本站立场，图文版权归原作者所有。如有侵权，请联系我们删除。

未经允许不得转载：终于搞懂AI Agent了：从怎么做到做什么

请登录后发表评论