滴滴美国上市前夕:出行巨头的最后冲刺

滴滴今晚就要在纽交所挂牌了,朋友圈里全是截图。我盯着那个橙色 logo,脑子里想的却是另一件事:上个月接的那个汽车媒体内容自动化项目,卡在语义理解这关了。客户要批量生成车型评测,我拍胸脯说能用 NLP 模型搞定,结果被现实抽得脸疼。

当时觉得这事儿有谱。爬虫把汽车之家、懂车帝的几十万篇评测文章扒下来,清洗、分词、建语料库,流程走得很顺。我选了 BERT 的变体,RoBERTa,听说它在中文任务上表现更好。想法很直接:把文章结构拆成“外观-内饰-动力-操控-油耗”几个模块,让模型学会每个模块的“说话方式”,然后根据新车参数表,自动组合生成段落。理论上,这能替代掉小编 80% 的套路化写作。

真正跑起来才知道什么叫“理想丰满”。第一个坑是数据标注。你以为“动力强劲”这种词很好学?模型生成的句子是“发动机提供了令人满意的强劲动力输出”,读起来像谷歌翻译十年前的水平,僵硬得要死。更麻烦的是上下文一致性,前一段说“底盘调校偏舒适”,后一段突然来一句“路感清晰,转向精准”,自己打自己脸。我花了整整一周,手动标注了上千条矛盾样本喂给模型,准确率才勉强从 60% 爬到 75%。这效率,还不如雇个实习生。

第二个坑是“行业黑话”。客户给的参数表里全是缩写和特定表述,“零百加速”、“NVH 表现”、“麋鹿测试成绩”。模型在通用语料上训练得再好,碰到这些专有名词就抓瞎,要么乱编,要么直接跳过。我不得不单独建了一个汽车术语词表,做实体识别和替换,相当于给模型强行打补丁。那几天,我对着屏幕查“双叉臂前悬”和“麦弗逊式”的区别,感觉自己像个被迫上工的汽车修理工。

最深的挫败感来自“风格”。客户要的是“略带毒舌的客观评测”,那种微妙的揶揄语气。我尝试在训练数据里混入一些 Top Gear 风格的中文翻译稿,结果模型学会了“吐槽”,但吐得毫无分寸,生成“这内饰的塑料感,堪比十年前的面包车”,直接把客户爸爸的赞助车型给骂了。我这才清醒地认识到,现在的模型,本质上是个概率统计机器,它不懂什么叫“恰当”,什么叫“过火”。那种基于人类常识和社交直觉的微妙平衡,它学不会。

但惊喜也不是没有。当我放弃生成整篇文章,转而让模型做“段落填充”和“句式改写”时,效率突然就上来了。比如,我手动写好核心观点和框架:“外观设计激进,内饰用料一般,动力总成平顺。” 然后让模型根据这个骨架,去自动生成三到五个描述性句子作为血肉。它在这类约束性任务上表现得出奇地好,能提供多种表达选项,避免了重复劳动。另一个惊喜是“查缺补漏”,我写“空间宽敞”,它会自动补上“后排腿部空间两拳有余”这种具体数据,因为它“记得”语料库里常这么搭配。

所以这个项目最后成了半自动模式。我成了那个定框架、控风格、把关质量的“主编”,模型是我手下那个不知疲倦、但时常犯傻的“写作助理”。它一天能生产几百段文字,我省掉了 60% 的机械劳动,但最后那 40% 的创意和审核,谁也替代不了。看着滴滴上市新闻,我就在想,出行领域烧钱烧出一个巨头,靠的是资本和规模。但内容这件事,尤其是带点“人味儿”的内容,想完全自动化?2021 年的 AI,还差得远。它更像一把锋利的锉刀,能帮你打磨粗糙的胚子,但最初的那个形状,那把刻刀,还得握在人的手里。

夜深了,窗外滴滴的上市钟声大概已经敲响。我关掉训练日志,模型还在后台默默跑着下一个 epoch。它不懂什么是上市,什么是估值,它只关心下一个词的概率。而我知道,明天还得继续调参,继续和那些不听话的向量作斗争。这大概就是当下最真实的处境:一边仰望巨头腾飞的烟花,一边在泥泞的数据里,一寸一寸地向前拱。

© 版权声明
THE END
喜欢就支持一下吧
点赞63 分享