既然 GPT-4 变懒了，我就写了一套自动化“监督机器人”-Flovico-AI商业实战教练

GPT-4变懒了。不是我的错觉，API返回速度没变，但生成的内容开始敷衍，指令遵循度下降，像极了被KPI压垮的初级员工。这不行，我的下半年内容排期全靠它，不能把命脉交给一个状态不稳定的“外包”。

中秋，窗外没月亮，屋里只有三块屏幕的光。家人群里在晒团圆饭，我回了个“在忙，你们吃”。不是冷漠，是进入状态了。社交是熵增，独处才是充电。今年彻底砍掉团队后，这种节日反而成了黄金时间——没人打扰，没有突发需求，整个世界安静得只剩下键盘声和机箱风扇的嗡鸣。

监督机器人的核心逻辑很简单：你不能指望一个AI自觉。得用流程卡它。我拆解了“变懒”的几种表现：1. 回复变短，逃避复杂指令；2. 格式错误率上升；3. 创造性枯竭，开始重复套路。针对这些，我搭了一套n8n工作流。

第一层，指令预处理器。不再是简单地把我的自然语言指令扔给GPT。我先用了一个本地运行的轻量模型（Llama 2 7B，量化版），让它把我的指令“翻译”成结构化的、带强制约束的JSON。比如我说“写一篇关于低卡饮食中常见误区的科普文”，它会输出：{“主题”:“低卡饮食误区”，“目标读者”:“健身新手”，“字数”: “1200-1500”，“必须包含章节”: [“误区一：只看热量不看营养密度”, “误区二：极端削减脂肪”, “误区三：忽略进食时机与激素反应”], “禁止使用词汇”: [“众所周知”, “总而言之”, “健康生活”] }。这层过滤，把模糊需求变成了机器可校验的明确合同。

第二层，轮询与惩罚机制。GPT-4的API调用不是一次性的。工作流会先让它生成大纲，我审核通过后，再按章节生成。每个章节生成后，有一个校验节点：用另一个专练过的文本分类模型（基于BERT微调的）快速打分，评估“信息密度”和“模板化程度”。如果分数低于阈值，不会直接让它重写——那太便宜它了。而是会触发“惩罚分支”：在接下来的指令中，混入一条它之前生成的高分样本作为正面示范，同时，在系统提示词里加重语气，强调“深度分析”和“提供未被广泛提及的洞察”。这模仿了人类教练的反馈机制，不是简单说“不对”，而是告诉它“好的什么样，你差在哪儿”。

第三层，输出后处理与归档。生成的文章会进入Notion数据库。这里有个关键动作：我会手动给这篇文章打标签（比如“结构清晰”、“案例新颖”、“结尾乏力”）。这些标签会反过来成为训练数据，用来优化第一层的指令预处理模型和第二层的校验模型。整个系统是活的，它在学习我的偏好，同时也在“教育”GPT-4。我不是在求它办事，我是在管理一个数字员工。

搞完这些，天快亮了。泡了杯蛋白粉，当早餐。身体是最近一年才捡回来的，去年体检一堆箭头，现在靠严格饮食和每周四次力量训练撑着。做超级个体，体力是基础盘，比任何技术栈都重要。没有体力，连熬夜调试工作流的资本都没有。

孤独吗？有点。但看着n8n里那个复杂的工作流图正常跑起来，生成的第一篇测试文章质量明显回升时，那种充实感压过了一切。狂欢是别人的，进度条是我自己的。当你的世界完全由自己构建的规则和自动化系统运转时，节日只是日历上一个安静的坐标，让你有机会，把螺丝拧得更紧一点。

文章版权归作者所有，未经允许请勿转载。

THE END