今天是我40岁生日,我把硬盘里2016年写的第一行Python爬虫脚本拖进回收站,按了永久删除。不是矫情,是那行`import requests`背后连着的东西,这几天让我后背发凉。
5月初那波舆论海啸你们应该都看到了。某个头部自媒体用AI批量生成“情感故事”,被扒出来情节模板化、细节对不上,直接引爆了全网对AI内容工厂的讨伐。我团队做自动化内容生成工具三年了,看到新闻那一刻,我第一反应是冲进代码仓库翻我们去年写的风险预警模块。结果发现,那个模块只在内容涉嫌“政治敏感词”时才会触发人工审核,而对“事实性错误”、“逻辑矛盾”、“情感欺骗”这些灰色地带,我们只设了个置信度阈值——低于80%的文案标黄提示,但依然允许发布。
这就是问题。我们这些做产品的,太容易陷入技术逻辑的完美自洽里了。2016年我写那爬虫时,满脑子都是怎么绕过网站的反爬机制,用多线程把DOM树解析效率提升30%,为了抢那几秒的发布时间窗口,哪想过爬来的数据本身有没有毒?后来做内容生成,焦点全在怎么让GPT吐出的文案更“像人”,BLEU分数怎么提高,ROUGE-L指标怎么优化。我们给系统设的“护栏”,全是基于我们自己能想象到的风险。但真正的雷,往往埋在你觉得“这能出什么事”的盲区里。
比如这次事件里最致命的一个点:AI生成了一篇关于“山区支教老师”的煽情文,细节具体到某个县某个小学的名字,甚至提到了“孩子们冬天手冻裂”的细节。问题是,那个小学三年前就合并撤销了。AI在训练数据里抓取了不同时间线的信息,缝合出了一篇时空错乱的“感人故事”。读者感动转发,当地知情人一看就炸了。我们的系统能防吗?防不住。我们的风险模块只查关键词是否违规,查不出事实性谬误。我们甚至没想过要去接一个事实核查数据库的API,因为那会拖慢生成速度,影响用户体验。
这让我想起2020年带团队做外包项目时踩的坑。当时给一个电商客户做自动好评回复,我们设的规则是识别用户评论里的关键词,比如“质量好”就回复“感谢认可”,“物流慢”就回复“抱歉并催促物流”。结果有用户评论说“衣服质量好,就是快递员态度差,差点吵起来”,系统只识别了“质量好”,回了句“感谢认可”。用户截图挂上网,说商家阴阳怪气。那次之后我们才补了情感分析模型,区分正面负面语境。但这次的坑,比那深多了。
技术人容易有的傲慢是,觉得所有问题都能被“更好的模型”、“更全的规则”解决。但现实是,内容生成的边界根本不是技术边界,是社会认知边界、伦理边界、法律边界。这些边界每天都在流动。今天允许的调侃,明天可能就变成诽谤;今天无伤大雅的情感虚构,明天可能就被定义为欺骗。我们写的if-else,永远追不上社会共识的变化速度。
所以今天我删了那行代码。更像是个仪式,提醒自己:你写的每一行逻辑,都可能在外面世界引发连锁反应。尤其是现在,大模型让生成成本趋近于零,一个判断失误就能批量生产垃圾或伤害。下一步,我打算在工具里强制加入“事实锚点”校验环节:生成涉及具体地点、时间、人物的内容时,必须手动确认或标注信息源。哪怕这样会让效率降低20%。有些慢,是必须的。
40岁了,不能再像30岁时那样,眼里只有流量和效率。手里握着的工具越强大,越得知道该在什么地方主动系上绳子。技术没有善恶,但写代码的人,得有个敬畏心。














