上海封控两个月:一个时代的残影彻底消失了

上海封控两个月,我盯着屏幕上的 BERT 模型输出,感觉那个靠信息差和手速就能赚钱的时代,像窗外的梧桐叶一样,彻底掉光了。

不是矫情。2019年扩张那会儿,我养了六个写手,靠批量生产“上海学区房攻略”、“Python爬虫入门”这种套路文章,在百度和微信搜一搜里吃流量。那时候的核心技术是 Axure 画原型定 SOP,加上点关键词堆砌和伪原创工具,一个编辑一天能“洗”出二十篇。我以为这就是内容生产的终局了,标准化、可复制、有流水。结果疫情一来,团队崩了,现金流断了,人也散了。现在回头看看,那套东西的本质,和用 DOM 树解析网页、靠正则表达式扒数据的爬虫时代没区别,都是体力活的精细化。

所以当我一个人重新坐回电脑前,我想试试更“高级”的玩法。我盯上了 BERT。那时候 GPT-3 还没对公众开放,BERT 和它的变体是NLP圈里的显学。我的想法很直接:能不能用 BERT 来做文本的风格迁移和主题填充?比如,我喂给它十篇关于“健身补剂”的科普文,再给它一个“生酮饮食”的标题和几个关键词,它能不能生成一篇结构完整、语义通顺的新文章?这要是成了,我一个人就是一支军队。

结果第一个月,全在踩坑。我用的 Hugging Face 的 transformers 库,从中文预训练模型 chinese-bert-wwm 开始。第一个幻觉是以为有了预训练模型就万事大吉。我写了个脚本,用 MLM(掩码语言模型)任务做填空测试,发现它对于“肌酸_”这种词,大概率会补上“补充”而不是“作用”或“副作用”,这还行。但一旦进入长句生成,用 beam search 解码,出来的东西就经常前言不搭后语,或者陷入重复循环。比如它生成“生酮饮食的核心是低碳水化合物,低碳水化合物的核心是控制胰岛素,控制胰岛素的核心是生酮饮食”,看得我头皮发麻。

问题出在训练数据和方法上。我手头没有成对的(主题A文章,主题B文章)数据,无法做有监督的序列到序列训练。我只能用无监督的方法,尝试做“去噪”自编码:把一篇完整的文章随机遮盖一些词或打乱句子顺序,让模型去恢复。但 BERT 本质上是个双向编码器,不是为生成而设计的,它缺乏一个自回归的解码器那种“一个字一个字往外蹦”的因果生成能力。那段时间,我每天就是调 max_length、temperature、top_p 这些参数,看着 loss 曲线缓慢下降,但生成效果提升微乎其微。感觉就像在用螺丝刀修一台精密的钟表,徒劳。

真正的转折点是我放弃了“生成全新文章”这个不切实际的目标,转而做“智能扩写”。我手动写一个核心段落(比如生酮饮食的生理原理),然后用 BERT 去做句子级别的 paraphrase(复述)和插入细节。比如我把“肝脏将脂肪转化为酮体”这句话,用 [MASK] 替换掉“肝脏”和“酮体”,让模型去预测。它可能会给出“线粒体”、“脂肪酸”、“β-羟基丁酸”这些词。虽然不一定百分百准确,但能提供专业词汇的选项。我再结合自己查的资料去筛选和组合。这样一来,AI 的角色就从“写手”降格成了“高级联想词典”和“语句润色工具”。

这个过程让我清醒。2021年的 AI,至少在我能触碰到的层面,它无法理解“文章”这个整体,它只能捕捉词与词之间、句子片段之间的统计关联。它不知道一篇文章为什么要有引言、论述和结论,它只是概率的奴隶。所谓的“语义理解”,在工程落地时,被拆解成了词向量距离、注意力权重的计算。它带来的惊喜,是偶尔能蹦出我一个外行想不到的专业术语组合;它带来的挫败,是 99% 的时间你都在处理它那缺乏逻辑的胡言乱语。

封控让外部世界停滞,却让我对技术的内部局限看得更清楚。那个靠堆人力、拼执行就能野蛮增长的时代影子,在 BERT 生成的语无伦次的文本里,最后一次闪烁,然后熄灭了。接下来的路,是承认 AI 的辅助地位,把自己从一个“生产管理者”重新变回一个“人肉校验器”和“策略制定者”。身体是第一生产力,而脑子,得用在给机器划出它能力边界这件事上。

这大概就是超级个体回归的真相:你不是变得更全能了,你只是更清楚什么该自己做,什么可以试着让机器掺和一脚,以及如何在它们搞砸的时候快速接管。

© 版权声明
THE END
喜欢就支持一下吧
点赞67 分享