删掉了一行由于逻辑冲突而报错的 JSON 源码。这行代码本身没问题,是 GPT-4o 自己生成的,但它推理上下文时,自己给自己加了个不存在的“约束”,然后执行时发现冲突,直接抛错。我盯着报错信息看了三分钟,气笑了。这不就是典型的“聪明反被聪明误”吗?2025年了,大模型能写代码、能画图、能跟你讨论哲学,但它最不稳定的环节,恰恰是这种“过度脑补”。
2016年我死磕爬虫的时候,最怕的就是网站反爬策略升级,DOM树结构一变,XPath定位全废。那时候的焦虑是“机器太笨”,你得教它每一步。现在的焦虑反过来了,是“机器太聪明”,它会自己“理解”你的意图,然后基于它海量的训练数据,给你一个它认为“更合理”但完全跑偏的方案。比如这次,我给的指令是“生成一个包含用户ID和操作类型的JSON结构,操作类型只能是‘read’或‘write’”。它完美生成了。但它在后续推理步骤里,自己脑补了一个业务背景:“用户操作通常需要时间戳记录”。于是,它在生成用于验证这个JSON的代码逻辑时,自作主张加了一条“检查timestamp字段是否存在且为合法时间格式”的规则。结果就是,它前脚生成的JSON没有timestamp,后脚它自己写的验证逻辑就把自己的输出给否了,报错信息还特别理直气壮:“缺少必需字段timestamp”。我就像个看着两个自家AI吵架的产品经理,充满了一种荒诞的疲惫感。
这种问题在简单指令下不明显,一旦工作流复杂起来,比如用n8n串联多个AI节点,每个节点都有一点自己的“小想法”,误差层层叠加,最后就是一场灾难。上个月我就被坑过一次,一个自动生成周报并排版的流程,因为中间某个环节的模型“觉得”用表格太枯燥,擅自在总结部分改成了散文诗风格,导致后续节点无法解析关键数据,整个流程崩掉。那次之后我就明白,光靠提示词工程(Prompt Engineering)不够了,那是对单次交互的优化。在自动化流程里,你需要的是系统性的事后审计与纠错机制。
我的解决方案是加一层“逻辑审计层”。不是在提示词里写“请不要过度解读”,这没用。是在每个可能产生“创意”的AI动作之后,紧跟一个成本极低的规则校验。比如,用GPT-3.5-Turbo这种便宜模型,或者直接写死规则,去检查输出是否满足最基本的格式和逻辑约束。这个审计节点不负责“创造”,只负责“找茬”。它检查JSON结构、检查必填字段、检查枚举值范围、检查数字是否在合理区间。如果发现不符,不是直接让流程失败,而是触发一个“修复回路”:把原始指令、AI的产出、审计发现的错误,三者打包,重新扔给一个更“老实”的模型(或者调整了提示词的原模型),让它专门针对这个错误进行修正。这个回路可以设置重试次数,超过次数再人工介入。
这本质上就是把产品经理做需求评审和测试的那套流程,自动化、节点化了。以前管人,你要反复对齐需求,防止程序员过度发挥。现在管AI,你要设计流程,防止模型过度脑补。核心技能没变,还是逻辑梳理、边界界定和异常处理。变的只是对象从有情绪的人,换成了有“幻觉”的模型。
AI时代,产品经理不是什么画原型的,那是基础。更不是空讲概念的,那会被AI秒杀。真正的价值点,是成为“首席逻辑官”。你能把模糊的需求,拆解成AI能稳定执行的、有审计环节的、可容错可回溯的自动化流程逻辑。你能预判AI会在哪个环节“自作多情”,并提前给它戴上规则的“紧箍咒”。这个紧箍咒不是为了限制它的能力,而是为了让它的能力在正确的轨道上爆发。就像当年给狂野生长的爬虫加上代理池、请求间隔和异常重试一样,现在是要给狂野思考的AI加上结构校验、逻辑审计和修复回路。
删掉那行错误代码只花了0.1秒。但构建这套防止它再次自我冲突的审计逻辑,我花了三天。值。因为下次,无论它再怎么过度解读,流程都会在崩溃前自己悄悄修好,然后继续往下跑。这才是我要的,真正的自动化。














