LLM 工程化落地：从 Demo 到生产的真实距离

把 LLM 从实验室搬到生产环境，远不只是加个 API 调用。记录一次完整的 LLM 工程化过程中的关键决策与踩坑。

起因

每次看到”5 分钟用 ChatGPT API 做一个 XXX”的教程，我都会想：然后呢？

Demo 和生产之间隔着的不是代码量，而是一系列工程决策。这篇文章记录我在一个真实项目中，把 LLM 能力从 Demo 推到生产的过程。

Demo 通常是这样的：调一次 API，拿到结果，展示到界面上。看起来一切正常。

但真实场景里，你会遇到：

Prompt 不是写在代码里的字符串，它是一个需要版本控制、A/B 测试、持续优化的工程产物。

我们的做法：

自然语言输出对人友好，但对下游系统不友好。我们强制要求 LLM 输出 JSON 格式，并用 schema 校验。

输出校验失败率从最初的 15% 降到了 2%。

代价是 Prompt 变得更复杂，但可靠性是值得的。

你无法优化你看不到的东西。我们给 LLM 调用加了完整的可观测性：

技术实现反而不是最难的部分。最难的是：

如何定义”好”的输出？

LLM 的输出是概率性的，不像传统代码有确定性的对错。你需要建立一套评估体系——这个体系本身就需要不断迭代。

LLM 工程化不是”把 API 包一层”，而是围绕一个不确定性组件构建可靠系统。这需要：

如果你正在做类似的事情，希望这些经验有所帮助。

本文来自真实项目实践，欢迎交流探讨。