上海封控两个月：一个时代的残影彻底消失了-Flovico-AI商业实战教练

上海封控两个月，我盯着屏幕上的 BERT 模型输出，感觉那个靠信息差和手速就能赚钱的时代，像窗外的梧桐叶一样，彻底掉光了。

不是矫情。2019年扩张那会儿，我养了六个写手，靠批量生产“上海学区房攻略”、“Python爬虫入门”这种套路文章，在百度和微信搜一搜里吃流量。那时候的核心技术是 Axure 画原型定 SOP，加上点关键词堆砌和伪原创工具，一个编辑一天能“洗”出二十篇。我以为这就是内容生产的终局了，标准化、可复制、有流水。结果疫情一来，团队崩了，现金流断了，人也散了。现在回头看看，那套东西的本质，和用 DOM 树解析网页、靠正则表达式扒数据的爬虫时代没区别，都是体力活的精细化。

所以当我一个人重新坐回电脑前，我想试试更“高级”的玩法。我盯上了 BERT。那时候 GPT-3 还没对公众开放，BERT 和它的变体是NLP圈里的显学。我的想法很直接：能不能用 BERT 来做文本的风格迁移和主题填充？比如，我喂给它十篇关于“健身补剂”的科普文，再给它一个“生酮饮食”的标题和几个关键词，它能不能生成一篇结构完整、语义通顺的新文章？这要是成了，我一个人就是一支军队。

结果第一个月，全在踩坑。我用的 Hugging Face 的 transformers 库，从中文预训练模型 chinese-bert-wwm 开始。第一个幻觉是以为有了预训练模型就万事大吉。我写了个脚本，用 MLM（掩码语言模型）任务做填空测试，发现它对于“肌酸_”这种词，大概率会补上“补充”而不是“作用”或“副作用”，这还行。但一旦进入长句生成，用 beam search 解码，出来的东西就经常前言不搭后语，或者陷入重复循环。比如它生成“生酮饮食的核心是低碳水化合物，低碳水化合物的核心是控制胰岛素，控制胰岛素的核心是生酮饮食”，看得我头皮发麻。

问题出在训练数据和方法上。我手头没有成对的（主题A文章，主题B文章）数据，无法做有监督的序列到序列训练。我只能用无监督的方法，尝试做“去噪”自编码：把一篇完整的文章随机遮盖一些词或打乱句子顺序，让模型去恢复。但 BERT 本质上是个双向编码器，不是为生成而设计的，它缺乏一个自回归的解码器那种“一个字一个字往外蹦”的因果生成能力。那段时间，我每天就是调 max_length、temperature、top_p 这些参数，看着 loss 曲线缓慢下降，但生成效果提升微乎其微。感觉就像在用螺丝刀修一台精密的钟表，徒劳。

真正的转折点是我放弃了“生成全新文章”这个不切实际的目标，转而做“智能扩写”。我手动写一个核心段落（比如生酮饮食的生理原理），然后用 BERT 去做句子级别的 paraphrase（复述）和插入细节。比如我把“肝脏将脂肪转化为酮体”这句话，用 [MASK] 替换掉“肝脏”和“酮体”，让模型去预测。它可能会给出“线粒体”、“脂肪酸”、“β-羟基丁酸”这些词。虽然不一定百分百准确，但能提供专业词汇的选项。我再结合自己查的资料去筛选和组合。这样一来，AI 的角色就从“写手”降格成了“高级联想词典”和“语句润色工具”。

这个过程让我清醒。2021年的 AI，至少在我能触碰到的层面，它无法理解“文章”这个整体，它只能捕捉词与词之间、句子片段之间的统计关联。它不知道一篇文章为什么要有引言、论述和结论，它只是概率的奴隶。所谓的“语义理解”，在工程落地时，被拆解成了词向量距离、注意力权重的计算。它带来的惊喜，是偶尔能蹦出我一个外行想不到的专业术语组合；它带来的挫败，是 99% 的时间你都在处理它那缺乏逻辑的胡言乱语。

封控让外部世界停滞，却让我对技术的内部局限看得更清楚。那个靠堆人力、拼执行就能野蛮增长的时代影子，在 BERT 生成的语无伦次的文本里，最后一次闪烁，然后熄灭了。接下来的路，是承认 AI 的辅助地位，把自己从一个“生产管理者”重新变回一个“人肉校验器”和“策略制定者”。身体是第一生产力，而脑子，得用在给机器划出它能力边界这件事上。

这大概就是超级个体回归的真相：你不是变得更全能了，你只是更清楚什么该自己做，什么可以试着让机器掺和一脚，以及如何在它们搞砸的时候快速接管。

文章版权归作者所有，未经允许请勿转载。

THE END