如何让脚本写出“成都味儿”？我的语料库实验（Claude 增强版）-Flovico-AI商业实战教练

让脚本写出“成都味儿”这事儿，本质上是个语料工程问题。我手头有个老项目，要给本地一家串串香连锁店做微信端的自动回复机器人，老板要求回复必须“有成都的市井烟火气，不能像机器”。我一开始想得很简单，不就是加几个“巴适得板”、“安逸”吗？结果做出来的东西，客户说像外地人硬学四川话，假得很。

我花了三天时间，用Python爬了成都本地几个热门论坛（比如“第四城”）过去三年的美食板块帖子，还有微博上一些本地美食博主的评论区。原始语料大概有20万条，乱得很，广告、重复、无关信息一大堆。清洗的过程就是体力活，正则表达式写到吐，光是识别和过滤掉那些“加V信看更多”的垃圾信息就搞了一下午。最后清洗出大概8万条相对干净的、带有明确成都方言或表达习惯的文本。

接下来是建模。我最初的思路是训练一个简单的马尔可夫链模型，或者用jieba分词后做词频统计，生成一些套路回复。效果很一般，生成的句子语法是通的，但味道不对，比如“这个毛肚烫起巴适惨了，你还不快点来整一口？” 听起来像剧本台词，不像真人随口说的。问题出在上下文关联和语言节奏上，成都话里的“嘛”、“哦”、“嗦”这些语气词的使用，跟具体语境和前面句子的情绪强相关，不是简单随机插进去就行的。

这时候我开始尝试用ChatGPT。我的提示词一开始也很糙：“你是一个成都本地人，用成都方言风格回复以下用户关于串串的提问。” 结果它给我生成了一堆“要得嘛！”“吃起走！”这种过于刻板印象的回复，深度不够。我意识到问题在于“风格”指令太模糊，AI需要更具体的“约束”。

我调整了策略。我不再让AI直接生成，而是让它扮演“语料分析师”。我把清洗后的8万条语料按对话场景分类（比如“询问价格”、“夸奖味道”、“抱怨排队”），然后给ChatGPT这样的指令：“以下是成都本地人在美食场景下的真实对话语料。请分析归纳，在[抱怨排队]这个场景下，本地人常用的（1）核心方言词汇（2）句式结构（3）情绪递进逻辑（比如从平静到烦躁通常会插入什么语气词）。请用JSON格式输出你的分析结果。” 这个指令的关键在于，我把“生成”任务拆解成了“分析-归纳”任务，让AI先理解模式。

AI给出的分析结果让我有点吃惊。它指出，在抱怨场景下，真正的“成都味儿”不在于堆砌方言词，而在于一种“边抱怨边调侃”的混合语气。比如，典型的句式不是“排队太久了，烦死了”，而是“哎哟，这个队排得哦，前头怕是有一年那么长嗦，正好把晚饭等成宵夜。” 它归纳出“前头怕是…嗦”这种假设性夸张句式，和“把A等成B”的无奈调侃结构，是我之前纯靠统计完全没捕捉到的语言“肌肉记忆”。

基于这个分析结果，我重新设计了我的脚本生成逻辑。我不再让脚本直接生成完整句子，而是让它分两步走：第一步，根据场景（抱怨、推荐、询问）选择AI归纳出的几个核心句式模板；第二步，用马尔可夫链生成的、符合词频的“零件”（比如具体的菜品名、夸张的形容词）去填充这个模板。同时，我写了一个简单的后处理规则，随机（但按一定概率）在句尾插入AI分析出的、符合该场景的语气词列表里的词。

效果立竿见影。新脚本生成的“排了半个多小时才吃到，这个郡肝儿脆是脆，就是等得我心子把把都紧了。” 客户一看就说，“诶，这个对头了，像我们店里那些老顾客摆的龙门阵。”

这件事给我的冲击比我想象的大。我过去半个月，吭哧吭哧地搞爬虫、清洗、写正则、统计词频，构建了一个我认为很“扎实”的数据管道。但ChatGPT用了十分钟做的语言风格“模式识别”，直接戳穿了我那个管道在“理解”层面的肤浅。我之前的做法，是尝试用数学去描述语言；而AI的做法，是先用它的海量预训练知识去“感受”语言，然后再进行结构化描述。前者是拼乐高，后者是捏陶土——维度不一样。

挫败感很强。我感觉自己像个精心打磨石斧的原始人，突然看到了别人用打火石。但兴奋感更强烈。这意味着，产品经理（或者说任何需要处理复杂抽象问题的角色）的核心能力模型要变了。以前我们拼的是信息搜集、逻辑拆解、工具运用。现在，最关键的环节可能变成了“如何向AI清晰地描述问题，并设计步骤让它帮你拆解和提炼”。未来的PM，可能真的必须是个“提示词工程师”——不是那种只会写“请写一首诗”的工程师，而是能设计出一套交互协议，引导AI一步步把自己庞大的、模糊的知识，翻译成可执行、可验证的具体方案的人。这活儿，比写需求文档难多了，也带劲多了。

文章版权归作者所有，未经允许请勿转载。

THE END

商业AI