武汉重启的消息弹出来的时候,我正在调试那个该死的伪原创算法,屏幕上的进度条卡在87%,像极了这几个月我的人生。团队里两个小孩昨天又提了离职,说受不了这种“没有灵魂的洗稿”,我连挽留的力气都没了,心里就剩一个念头:妈的,流量还得要,这摊子还得转。
搞伪原创,本质上就是和搜索引擎的算法赛跑。早期用同义词替换,后来用近义词林,再后来加句子重组,都他妈被识别出来了。去年底开始琢磨新路子,光有“技术差异性”不够,得有点“人格化”的东西。我就想,能不能把方言、地标、特定口语词当成“盐”撒进去?不是那种生硬的替换,而是让AI学会在特定语境下“说人话”,带点烟火气。
就拿成都来说。你不能只把“很好吃”替换成“巴适得板”,那太低级。你得构建场景。比如原文是“这家餐厅的火锅口味独特,深受食客喜爱”。普通伪原创出来是“该餐馆的火锅风味特别,得到顾客广泛好评”。垃圾。我要的版本是:“说到这家开在魁星楼街边边的老火锅,那股子牛油锅底熬出来的醇厚,配上老板自己调的干碟子,辣得你跳脚又停不下筷子,这才是成都夜生活的魂。” 这里,“边边”、“干碟子”、“跳脚”、“魂”,都是调料。地标“魁星楼街”是锚点,把虚拟内容钉在真实的地理坐标上,增加可信度。
技术实现上,难点在于怎么让AI知道什么时候“撒盐”。我建了个分层词库。第一层是基础口语词库(“整”、“搞”、“弄”、“啥子”)。第二层是方言特色词库,按地域分(川渝片区的“耙耳朵”、“摆龙门阵”)。第三层是地标词库,也是分城市的(成都的“九眼桥”、“建设路”,武汉的“户部巷”、“光谷”)。算法逻辑是:先做常规的句法树分析和语义块替换,然后在生成新句子时,根据目标地域标签,从第二、三层词库里按权重抽取候选词,去替换掉原句中那些“中性”的成分。比如“男人”在川渝语境下有概率被替换成“男娃儿”,如果前后文提到“怕老婆”,就触发“耙耳朵”的替换。
最难的是权重和频率控制。撒多了,文章就成方言小品了,不伦不类;撒少了,没效果。我设了个“方言密度”参数,默认5%,意味着一段100字的内容里,大概植入5个字符左右的方言或地标词。还得考虑上下文连贯,“魁星楼街”后面跟着“火锅”是合理的,跟着“量子计算机”就他妈穿越了。这需要让模型对地标和话题的关联性有个粗糙的理解,我用的方法是基于过去几年本地公众号文章的关键词共现频率,做了个简单的概率表。
搞这个的时候,感觉自己特别分裂。一边是技术上的较真,想着怎么用TF-IDF、word2vec向量距离去优化替换的准确性;另一边是巨大的虚无感——我引以为傲的“技术”,就是在更好地制造互联网垃圾。团队小孩骂得没错,这就是没灵魂。可市场就认这个,甲方爸爸要看“原创度检测报告”,要看“收录速度”。你不做,别人做,你就没饭吃。
窗外的城市一点点亮起来,和我无关。我的世界就是这5平米书房,和屏幕上不断滚动的、试图模仿人类烟火气的字符。武汉重启,是宏大叙事里的一道光。我这套“方言地标伪原创算法”就算上线了,也不过是流量沼泽里冒出的一个泥泡泡。但眼下,我好像也只能先把这个泡泡吹得再大一点,再亮一点。进度条终于跳到100%,生成了一段测试文本,讲武汉热干面的,里面塞了“户部巷”、“芝麻酱要搅匀”、“听了头”这些词。读起来有点怪,但又莫名有点“真”。我点了根烟,心想,算了,先这样吧。能骗过算法,或许就能骗过一部分人。这年头,真和假的界限,本来就糊得很。














