GPT-4变懒了。不是我的错觉,API返回速度没变,但生成的内容开始敷衍,指令遵循度下降,像极了被KPI压垮的初级员工。这不行,我的下半年内容排期全靠它,不能把命脉交给一个状态不稳定的“外包”。
中秋,窗外没月亮,屋里只有三块屏幕的光。家人群里在晒团圆饭,我回了个“在忙,你们吃”。不是冷漠,是进入状态了。社交是熵增,独处才是充电。今年彻底砍掉团队后,这种节日反而成了黄金时间——没人打扰,没有突发需求,整个世界安静得只剩下键盘声和机箱风扇的嗡鸣。
监督机器人的核心逻辑很简单:你不能指望一个AI自觉。得用流程卡它。我拆解了“变懒”的几种表现:1. 回复变短,逃避复杂指令;2. 格式错误率上升;3. 创造性枯竭,开始重复套路。针对这些,我搭了一套n8n工作流。
第一层,指令预处理器。不再是简单地把我的自然语言指令扔给GPT。我先用了一个本地运行的轻量模型(Llama 2 7B,量化版),让它把我的指令“翻译”成结构化的、带强制约束的JSON。比如我说“写一篇关于低卡饮食中常见误区的科普文”,它会输出:{“主题”:“低卡饮食误区”,“目标读者”:“健身新手”,“字数”: “1200-1500”,“必须包含章节”: [“误区一:只看热量不看营养密度”, “误区二:极端削减脂肪”, “误区三:忽略进食时机与激素反应”], “禁止使用词汇”: [“众所周知”, “总而言之”, “健康生活”] }。这层过滤,把模糊需求变成了机器可校验的明确合同。
第二层,轮询与惩罚机制。GPT-4的API调用不是一次性的。工作流会先让它生成大纲,我审核通过后,再按章节生成。每个章节生成后,有一个校验节点:用另一个专练过的文本分类模型(基于BERT微调的)快速打分,评估“信息密度”和“模板化程度”。如果分数低于阈值,不会直接让它重写——那太便宜它了。而是会触发“惩罚分支”:在接下来的指令中,混入一条它之前生成的高分样本作为正面示范,同时,在系统提示词里加重语气,强调“深度分析”和“提供未被广泛提及的洞察”。这模仿了人类教练的反馈机制,不是简单说“不对”,而是告诉它“好的什么样,你差在哪儿”。
第三层,输出后处理与归档。生成的文章会进入Notion数据库。这里有个关键动作:我会手动给这篇文章打标签(比如“结构清晰”、“案例新颖”、“结尾乏力”)。这些标签会反过来成为训练数据,用来优化第一层的指令预处理模型和第二层的校验模型。整个系统是活的,它在学习我的偏好,同时也在“教育”GPT-4。我不是在求它办事,我是在管理一个数字员工。
搞完这些,天快亮了。泡了杯蛋白粉,当早餐。身体是最近一年才捡回来的,去年体检一堆箭头,现在靠严格饮食和每周四次力量训练撑着。做超级个体,体力是基础盘,比任何技术栈都重要。没有体力,连熬夜调试工作流的资本都没有。
孤独吗?有点。但看着n8n里那个复杂的工作流图正常跑起来,生成的第一篇测试文章质量明显回升时,那种充实感压过了一切。狂欢是别人的,进度条是我自己的。当你的世界完全由自己构建的规则和自动化系统运转时,节日只是日历上一个安静的坐标,让你有机会,把螺丝拧得更紧一点。














