比特币突破两万美元的消息弹出来的时候,我正盯着后台的流量曲线,它像跳崖一样垂直往下掉。不是缓慢下降,是归零。昨天还排在首页第三位的那个核心长尾词,今天连一百页都找不到了。我他妈感觉被人从背后用麻袋套住头,然后对着肚子狠狠掏了一拳,闷得喘不上气,连骂都骂不出来。
那是我养了快两年的站,靠爬虫抓取、伪原创、链轮堆起来的。每天盯着5118和爱站,看关键词排名像看股票K线,涨几个位置能高兴半天。我以为摸透了百度的脾气,不就是内容农场加外链轰炸吗?我甚至搞了个多线程的脚本,自动去各大论坛发带链接的“高质量”回复。结果呢,人家算法更新连个通知都没有,一夜之间,所有努力变成零。你看着那个刺眼的“0”访问量,不是绝望,是荒谬。你像个在沙滩上堆了半天城堡的小孩,一个浪过来,什么都没了,连你手里的塑料铲子都觉得可笑。
这比比特币涨到两万更让我信仰崩塌。我信仰的是流量,是关键词排名带来的咨询和转化。现在这个神像碎了。团队里那两个编辑还在问我今天发什么内容,我连火都发不出来。发什么?发什么都没用。我们之前那套,在搜索引擎眼里已经是一堆标注好的垃圾,算法看一眼就直接扔进垃圾桶,连分类都省了。那种感觉,就像你自以为是个高级黑客,结果人家早就升级了防火墙,你还在用扫端口的老工具,一碰就触发警报。
我得搞清楚这次更新到底干了什么。不是简单的打击采集,我试了,纯原创但主题散乱的站也掉得厉害。翻墙去看Google的专利文档,看那些关于BERT和实体识别的讨论,虽然百度没明说,但路子肯定在往语义上靠。它不再只是看你标题里有没有关键词,密度合不合格,它开始试图理解你这篇文章到底在讲什么,和用户搜索的那个意图匹不匹配。这意味着什么?意味着我们之前所有的“技术”,锚文本、关键词堆砌、伪原创替换同义词,全成了皇帝的新衣。算法现在能看懂衣服底下是空的。
我开始逼着自己看自然语言处理的东西,看Word2Vec,看TF-IDF的变种。团队里没人懂,我也讲不明白,我只能自己啃。晚上盯着屏幕,一行行看那些关于“上下文相关性”和“语义向量”的解释,头是晕的。我三十多了,不是二十岁能通宵学新语言的时候,但恐慌推着你往前走。你知道再不换引擎,你这辆车就得永远抛锚在2019年的路边。比特币的共识是涨出来的,我的新共识是打出来的——被流量清零这根闷棍打出来的。我得找到一种方法,让机器认为我的内容是真的“懂”,而不是一堆关键词的排列组合。这他妈比炒币难多了,至少币价图表是清晰的,而算法的黑箱,你只能靠一次次撞墙去试它的形状。














