当AlphaGo赢了柯洁,我开始思考“文本生成”的商业可能

窗外的雨声淅淅沥沥,敲打着深圳城中村出租屋的铁皮雨棚。我盯着屏幕上AlphaGo对阵柯洁的棋局复盘,手里的烟灰已经积了很长一截。32岁,还在用最笨的爬虫脚本,从各个论坛和新闻站里扒内容,然后用那些狗屁不通的伪原创工具“洗”一遍。那些工具生成的句子,连起来读都费劲,更别说逻辑了。什么“今天天气很好,适合去公园散步,但是要注意防晒,因为紫外线很强,所以最好带上防晒霜”,翻来覆去就是这些车轱辘话,稍微有点经验的编辑一眼就能看出来是机器拼凑的。

但AlphaGo不一样。它下的棋,有“想法”。哪怕是最初代的版本,它的落子也已经带着某种超越人类直觉的、冰冷而高效的美感。我当时脑子里就蹦出一个极其粗暴、甚至有点疯狂的想法:如果……不是下棋,是写文章呢?如果我能搞出一个东西,不用去偷别人的内容来“洗”,而是让它自己“长”出通顺的、甚至带点逻辑的文本,哪怕只是体育快讯、天气预报、简单的产品介绍呢?那会是什么局面?

那时候草根圈子里,所谓的“文本生成”还停留在非常原始的阶段。主流是两种。一种是基于规则的模板填充,比如“{城市}今日天气{状况},最高温度{数字}度,最低温度{数字}度”。这太死板了,稍微复杂点的场景就抓瞎。另一种就是泛滥的“伪原创”算法,核心大多是马尔可夫链。原理很简单,就是统计一个词后面最可能跟哪些词,然后随机选一个接上去。比如“今天”后面可能跟“天气”、“晚上”、“我们”,它随机挑一个。这样生成出来的东西,短句看好像还行,稍微长一点就前言不搭后语,像醉汉的梦呓。我试过用这种文章去做SEO,排名是能上去一点,但跳出率高得吓人,根本留不住人,更别提转化了。

真正的痛点就在这里。我们这些搞流量的人,本质上是在和搜索引擎对抗。搜索引擎的算法越来越聪明,它开始能识别出那些纯粹堆砌关键词、语句不通的垃圾内容。传统的“内容农场”模式,靠人工编辑或者低质量的伪原创,成本在上升,效果在下降。我需要的是规模化复制,是能一夜之间铺满成千上万个长尾关键词的“合格”内容,而不是垃圾。深度学习的NLP,自然语言处理,当时对我来说还是个非常遥远的名词。只知道学术界在搞,谷歌大脑、OpenAI那些地方在弄。但我隐隐感觉到,那才是未来。如果机器真的能理解语言的结构,甚至一点点“语义”,那它生成的东西,至少读起来是顺的。这就够了。对传统靠人力堆砌的SEO模式,这就是降维打击。

我想象着那个场景。我不再需要雇一堆廉价编辑,或者没日没夜地调试那些愚蠢的替换词库。我只需要准备好“种子”——可能是某个垂直领域的大量语料,比如汽车评测、美妆心得、旅游攻略。然后,把语料“喂”给那个我幻想中的模型。接下来,我只需要输入一个关键词,比如“10万左右性价比高的SUV”,它就能给我吐出一篇结构完整、语句通顺、甚至能自圆其说的文章。我可以批量生成一万篇,覆盖所有可能的长尾词。网站的内容库会以指数级膨胀,搜索引擎的蜘蛛会像发现新大陆一样疯狂抓取。流量会像洪水一样涌进来。

这想法让我在潮湿的夜里兴奋得有点发抖。但下一秒,冷水就浇了下来。钱呢?技术呢?深度学习需要海量的数据、强大的算力,那都是烧钱的东西。我一个草根站长,连个像样的服务器都租不起,去哪搞这些?难道要去学TensorFlow?看那些天书一样的论文?光是想到要搭建环境,调试那些依赖库,我就头大。当时的心态很矛盾,一边是看到巨大商业可能的狂热,另一边是面对技术高墙的深深无力感。我知道方向可能对了,但我手里只有一把锈迹斑斑的锄头,面前却是一座需要炸药才能炸开的山。

也许……可以先从最简单的开始?不用搞什么真正的“理解”,能不能先让句子更通顺一点?把马尔可夫链升级一下?或者,去扒那些研究机构公开的、小型的预训练模型?哪怕效果差点,只要能比现在的伪原创工具强上一个档次,在草根圈子里就是核武器。

雨好像停了。我掐灭烟头,在凌乱的桌面上翻找着,想看看有没有哪篇博客、哪个论坛的帖子,提到了“文本生成”和“深度学习”结合的具体实现,哪怕只是一个概念验证的代码片段。我知道这条路很难,可能根本走不通。但那种“成为操作机器的人”,而不是被机器和低效流程奴役的诱惑,实在太强烈了。

未来,内容生产一定会被机器接管一部分。而且是最枯燥、最重复、最需要规模的那一部分。我必须想办法,挤上那趟车。哪怕现在只能扒在车厢外面,也比被彻底甩下要好。

© 版权声明
THE END
喜欢就支持一下吧
点赞99 分享