AI Agent 落地半年，踩了六个坑，含泪总结

标签： AI Agent 、智能体、企业落地、自动化、软件工程

半年前，老板说要做 AI Agent 。

他说 2025 是 Agent 元年，不做便落伍了。我向来是听话的，便做了。

半年后，运营成本涨了三倍有余，错误率多了三成，客户投诉翻倍。

我翻开日志一查，这日志没有年代，歪歪斜斜的每页上都写着”自动推理”几个字。我横竖睡不着，仔细看了半夜，才从字缝里看出字来，满本都写着两个字——

踩坑。

AI 会骗人

大约是 Demo 会骗人罢了。

坑一：高估了 LLM 的推理能力

这是最大的坑。

我们以为 Agent 能”自己想清楚”问题。给它一堆工具、一堆文档、一堆提示词，让它自己决定用哪个。

我向来是不惮以最坏的恶意来推测 AI 的，然而我还不料，也不信竟会糟糕到这地步。

用户问”退款流程是什么”， Agent 便调用数据库、查订单、分析用户画像——完全没必要。它根本不知道什么时候该停，横竖都要调用一遍。

麦肯锡的报告说得很明白：多数 Agent 失败，是因为 LLM 根本胜任不了任务所需的推理能力。

可见， AI 之不可靠，大抵如此。

我们后来换了个法子：先写好决策树， LLM 只负责最后一公里的执行。效果立刻好了一倍。

教训是：别让 Agent 自己想太多。该人写的逻辑，还是得人写。 AI 终究是 AI ，不是人。

横竖调用一遍

坑二：边界场景压根没考虑

Demo 的时候，测试的都是正常流程：用户问问题， Agent 回答。

但真实世界不是这样的。

用户会说：”我那个东西坏了”。哪个东西？ Agent 不知道。

用户会说：”退款退到哪了？”。哪个订单？ Agent 也不知道。

用户甚至会问：”你到底是人还是机器人？”

这些，我们压根没准备。

后来统计了一下，边界场景占了总请求的四成。这四成， Agent 全部答非所问，简直是胡说八道。

我以前见过许多翻车的项目，却从未见过翻得如此彻底的。

教训是：别只测 happy path 。把最奇葩的用户输入都拿出来，一个一个过。用户的话，十句里有四句是废话，但 Agent 得会听。

坑三：过度追求”全自动”

老板的期待是： Agent 全自动，人工彻底解放。

这话听起来很好听，但实际上呢？

现实却是： Agent 自动了一半，人工反而更累了。

为什么？ Agent 生成的回复，你得检查。检查的时间，比自己写的还长。不过是换了个累法罢了。

某银行的客服系统便是如此。激进地上纯 Agent 方案，结果运营成本飙升，响应速度变慢，错误率飙升。我听闻此事，不禁哑然。

我们后来改成了”半自动”： Agent 生成草稿，人工快速确认。效率反而更高。

教训是：全自动是目标，不是起点。先让 Agent 做辅助，再慢慢放手。饭要一口一口吃，路要一步一步走。

大抵是踩坑了

坑四：没有失败兜底机制

Agent 出错是必然的。问题是——出错了怎么办？

我们一开始没想这个问题。 Agent 调用失败，直接给用户返回了一堆 JSON 报错信息。

用户懵了。我也懵了。

后来加了个兜底： Agent 搞不定的时候，自动转人工，同时把上下文传给人工客服。

用户体验便好很多了，大抵是能用了。

教训是： Agent 必须有 Plan B 。它会失败，你得准备好接盘。凡事留个后路，总不会错。

坑五：提示词太长，没人维护

我们的提示词写了三千字。

里面有业务逻辑、有注意事项、有历史案例、有禁用词表。

没人看得完。

后来出了个 bug ，是因为提示词里一句话被新同事删了——他以为那是废话。这便是”删库跑路”的现代版了。

提示词越长，越没人维护。越没人维护，越容易出问题。这是个死循环。

我们后来把提示词拆成了多个模块，每个模块单独测试、单独版本管理。

教训是：提示词是代码，不是文档。要用工程化的方式管理。写完了要测试，改完了要 review 。

坑六：没有数据飞轮

Agent 用了一段时间，出错的案例我们记下来了。

然后呢？没有然后了。

这些案例躺在 Notion 里，无人整理，无人问津。可见，人在遗忘这件事上，比 AI 更擅长。

Agent 一直在犯同样的错误。同样的坑，踩了一遍又一遍。

后来我们建了个简单的流程：每天抽十个失败案例，人工标注正确答案，喂给模型微调。

一个月后，错误率降了一成半。

教训是： Agent 需要持续学习。失败的案例是最好的训练数据。吃一堑，长一智， AI 也一样。

如果重来一次

我会这么做：

第一周：先别上 Agent 。把现有流程画出来，看看哪些环节真的需要 Agent ，哪些用规则就够了。别为了 Agent 而 Agent 。

第一个月：只上一个场景，而且要”半自动”。 Agent 辅助，人工确认。

第三个月：收集了足够多的边界案例，开始扩展到第二个场景。

第六个月：有了数据飞轮，错误率稳定下降，才开始考虑”全自动”。

Agent 不是银弹。它是一个工具，而且是一个需要持续打磨的工具。

别被 Demo 迷了眼——那只是表演，不是实战。舞台上的戏，与真实的人生，到底不是一回事。

实战中， Agent 会犯错，会掉链子，会让你怀疑人生。

但如果你准备好了兜底、准备好了迭代、准备好了接受”半自动”的现实——

它确实能帮你省不少力气。

最后，我想说一句：

AI 会犯错，这不可怕。可怕的是，你以为它不会。

大抵如此罢。

关于码孖AI

码孖AI ，专注 AI 工程化落地。我们相信： AI 不是来替代程序员的，是来帮程序员省时间的——前提是，你得会用。

关注我，持续更新实战踩坑指南。

💡 TIP

觉得有用？点个「在看」，分享给同样在 AI 落地路上挣扎的朋友。

赞赏二维码 微信扫一扫赞赏作者Like the Author

继续滑动看下一个

轻触阅读原文

码孖AI

向上滑动看下一个

码孖AI

Comment

选择留言身份