让 AI 写出“成都味儿”这事,本质上是在对抗大模型的“普通话霸权”。我拿 Claude 3.5 开刀,不是因为它不行,恰恰是因为它太“行”了——行得过于标准、过于礼貌,像个从没在玉林路烧烤摊喝过夜啤酒的优等生。
我最初的指令蠢得可笑:“请用成都方言写一段关于夏天吃火锅的文案。”结果它给我吐出来一堆“巴适得板”、“安逸惨了”的词汇堆砌,中间还穿插着标准普通话的句式结构,读起来像川剧演员在念新华社通稿。问题出在哪?AI 理解的“方言”是词汇替换游戏,它抓取了语料库里被标注为“成都话”的 token,然后机械地填充进它那套完美的语法骨架里。这离真正的“味道”差了十万八千里。真正的成都话,精髓在节奏、在虚词、在那种“啥子嘛”、“哎哟喂”的语气衬词里,甚至在于故意不把主谓宾说全的懒散感。
我得给它建个“方言人格”。光给词库没用,得从底层 prompt 结构上动手。我拆解了三个层面:词汇层、句法层、语境层。词汇层好办,我手动整理了一个“禁忌词表”和“优先词表”。禁止它用“非常”、“特别”这种程度副词,必须用“焦咸”、“稀溜耙”这种本地化表达。句法层才是难点,我尝试用 Few-shot 的方式,给了它五六个成都朋友微信聊天的真实片段(脱敏后),要求它总结句式规律。Claude 3.5 总结出了几点:多用“喃”、“嘛”结尾的问句和感叹句;主语经常省略;喜欢用“动词+得+补语”的结构,比如“等得心焦”。最有趣的是语境层,我告诉它:“你现在是一个在成都生活了三十年、喜欢在茶馆摆龙门阵的叔叔,你对年轻人那些‘卷’的说法嗤之以鼻,你觉得生活就是‘耍’和‘吃’。现在要你推荐一家火锅店,别直接夸,要从抱怨天气开始,最后落到‘只有火锅才治得到’这个结论上。”
这次出来的东西有点意思了:“今天这个天气哦,闷揪揪的,人都要霉了。你说吃啥子?炒菜没得胃口,稀饭又寡淡。走嘛,拐到巷子头那家老火锅去。锅底是老板自己炒的,牛油厚得嘞,毛肚涮下去七上八下,脆生生的,配一口冰唯怡……哎,算了算了,说得我口水都包起了,你去吃就晓得了,记得要点蛋炒饭,霍到火锅油吃,那才叫到位。” 虽然还是能看出 AI 组织语言的工整痕迹,但至少“闷揪揪”、“霍到”这些词用对了地方,也有了点闲聊的散漫感。
但这个实验成本高得离谱。为了调教出这几段像样的话,我花了整整一个下午做 prompt 工程,相当于在给 AI 做“方言矫正训练”。这引出一个更根本的问题:在自动化内容生成的大趋势下,这种高度定制化、依赖大量人工干预的“风味”,是否具备可扩展性?我是不是在用一个工业时代的标准,去要求一个手工艺级别的产出?也许“成都味儿”真正的解法,不是让一个通用大模型去模仿,而是直接训练一个基于成都本地语料的小模型,或者,未来会有“方言 LoRA”这种即插即用的微调模块。但现在,我只能用这种笨办法,在 Claude 3.5 的“标准普通话大脑”里,硬凿出一个小茶馆的角落。
这感觉很像 2017 年我死磕 SEO 的时候,拼命研究百度算法的漏洞,在标准化的规则边缘试探,只为让内容多一点“人味儿”。技术平台永远在追求标准化和效率,而个性总是在夹缝中生长。AI 写作越强大,那种带着烟火气的“地方性知识”就越珍贵,也越难被批量复制。我的实验与其说成功了,不如说更清晰地看到了这条鸿沟。让 AI 写出“成都味儿”,可能最终不是技术问题,而是我们是否还愿意为这一点点“不标准”付出溢价的问题。














