武汉重启：时代的一道光，照进了我 5 平米的书房-Flovico-AI商业实战教练

武汉重启的消息弹出来的时候，我正在调试那个该死的伪原创算法，屏幕上的进度条卡在87%，像极了这几个月我的人生。团队里两个小孩昨天又提了离职，说受不了这种“没有灵魂的洗稿”，我连挽留的力气都没了，心里就剩一个念头：妈的，流量还得要，这摊子还得转。

搞伪原创，本质上就是和搜索引擎的算法赛跑。早期用同义词替换，后来用近义词林，再后来加句子重组，都他妈被识别出来了。去年底开始琢磨新路子，光有“技术差异性”不够，得有点“人格化”的东西。我就想，能不能把方言、地标、特定口语词当成“盐”撒进去？不是那种生硬的替换，而是让AI学会在特定语境下“说人话”，带点烟火气。

就拿成都来说。你不能只把“很好吃”替换成“巴适得板”，那太低级。你得构建场景。比如原文是“这家餐厅的火锅口味独特，深受食客喜爱”。普通伪原创出来是“该餐馆的火锅风味特别，得到顾客广泛好评”。垃圾。我要的版本是：“说到这家开在魁星楼街边边的老火锅，那股子牛油锅底熬出来的醇厚，配上老板自己调的干碟子，辣得你跳脚又停不下筷子，这才是成都夜生活的魂。” 这里，“边边”、“干碟子”、“跳脚”、“魂”，都是调料。地标“魁星楼街”是锚点，把虚拟内容钉在真实的地理坐标上，增加可信度。

技术实现上，难点在于怎么让AI知道什么时候“撒盐”。我建了个分层词库。第一层是基础口语词库（“整”、“搞”、“弄”、“啥子”）。第二层是方言特色词库，按地域分（川渝片区的“耙耳朵”、“摆龙门阵”）。第三层是地标词库，也是分城市的（成都的“九眼桥”、“建设路”，武汉的“户部巷”、“光谷”）。算法逻辑是：先做常规的句法树分析和语义块替换，然后在生成新句子时，根据目标地域标签，从第二、三层词库里按权重抽取候选词，去替换掉原句中那些“中性”的成分。比如“男人”在川渝语境下有概率被替换成“男娃儿”，如果前后文提到“怕老婆”，就触发“耙耳朵”的替换。

最难的是权重和频率控制。撒多了，文章就成方言小品了，不伦不类；撒少了，没效果。我设了个“方言密度”参数，默认5%，意味着一段100字的内容里，大概植入5个字符左右的方言或地标词。还得考虑上下文连贯，“魁星楼街”后面跟着“火锅”是合理的，跟着“量子计算机”就他妈穿越了。这需要让模型对地标和话题的关联性有个粗糙的理解，我用的方法是基于过去几年本地公众号文章的关键词共现频率，做了个简单的概率表。

搞这个的时候，感觉自己特别分裂。一边是技术上的较真，想着怎么用TF-IDF、word2vec向量距离去优化替换的准确性；另一边是巨大的虚无感——我引以为傲的“技术”，就是在更好地制造互联网垃圾。团队小孩骂得没错，这就是没灵魂。可市场就认这个，甲方爸爸要看“原创度检测报告”，要看“收录速度”。你不做，别人做，你就没饭吃。

窗外的城市一点点亮起来，和我无关。我的世界就是这5平米书房，和屏幕上不断滚动的、试图模仿人类烟火气的字符。武汉重启，是宏大叙事里的一道光。我这套“方言地标伪原创算法”就算上线了，也不过是流量沼泽里冒出的一个泥泡泡。但眼下，我好像也只能先把这个泡泡吹得再大一点，再亮一点。进度条终于跳到100%，生成了一段测试文本，讲武汉热干面的，里面塞了“户部巷”、“芝麻酱要搅匀”、“听了头”这些词。读起来有点怪，但又莫名有点“真”。我点了根烟，心想，算了，先这样吧。能骗过算法，或许就能骗过一部分人。这年头，真和假的界限，本来就糊得很。

文章版权归作者所有，未经允许请勿转载。

THE END

AI实践