巴菲特股东大会我今年又没去成,倒不是因为买不起机票,是手里这堆伪原创项目根本停不下来。老股神不投AI这事儿我琢磨半天,可能跟我们现在搞的这套内容流水线一个道理——他看不懂具体怎么赚钱。我最近就在死磕这个,怎么让机器写的文章看起来像人写的,而且是像某个具体地方的人写的。
上个月接了个成都本地美食号的单子,甲方要求“要有成都街巷的烟火气”。我第一反应是把通用词库塞满“巴适”、“摆龙门阵”、“耙耳朵”,结果生成的文章读起来像外地人硬背的方言词典,评论区直接有人骂“假打”。问题出在算法只做了关键词替换,没理解语境。“巴适”用在火锅店排队和用在茶馆晒太阳完全是两种情绪,机器分不清。
我试过用jieba分词加自定义词典,把“宽窄巷子”、“九眼桥”、“建设路”这些地标做成实体识别标签。但光有地名不够,得搭配动作。比如“在九眼桥边喝酒”和“从九眼桥打车回家”背后是两种生活状态,前者可能是夜生活开场,后者带着疲惫感。我让实习生手动标注了五千条成都本地论坛的句子,按“场景-情绪-高频动词”打标签,发现真正有辨识度的不是那些网红方言词,反而是“撵公交”、“拈菜”、“闷起脑壳吃”这种动词短语。
更麻烦的是口语节奏。北方内容平台喜欢用“咱们”、“整一个”,成都话里常见的是“嘛”、“噻”这种句末语气词,但机器容易滥用。有篇生成的文章连续五句以“噻”结尾,读起来像复读机。我调整了马尔可夫链的权重,让语气词出现概率和句子长度负相关——长句子后尽量不加,短促对话里才允许高频出现。同时加了禁忌词库,禁止“地道”、“正宗”这种被用烂的形容词。
上周测试版跑出来的内容已经能骗过部分本地用户了,但有个新问题:过于完美的“成都味”反而显得假。真实网友发帖会混用普通话打字,比如“今天在春熙路看到个小姐姐好乖哦(顺便吐槽地铁太挤了)”。现在模型还处理不好这种语码切换,一检测到成都词就全段强行方言化。或许老股神担心的也是这个——AI现在要么是标准普通话,要么是刻板方言,还没学会人类那种混沌自然的杂糅。
凌晨三点我盯着爬虫刚抓回来的三百条本地帖子,突然觉得我们这代搞技术的就像在捏橡皮泥。总想捏出个栩栩如生的娃娃,但捏得越精细,越暴露它不是真人。巴菲特可能就在等哪个团队能捏出会自己长大的泥人吧。














