凌晨三点,屏幕的光刺得眼睛发酸。窗外是陌生的城市轮廓,酒店空调的嗡鸣声成了唯一的背景音。32岁了,还在干着爬虫的活儿,像个数字世界的拾荒者。但今晚不一样,我盯着今日头条的页面刷新,心里那股不安越来越强烈。
他们根本不做编辑。或者说,他们的编辑是一行行代码。我写了个简单的脚本,抓取头条首页的推荐流,然后交叉比对用户点击数据。结果让我后背发凉——这玩意儿的学习速度太快了。昨天还在推养生文章给中年用户,今天同一个用户刷到的已经是本地二手车信息了。这不是关键词匹配,这他妈是活生生的“猜你喜欢”长出了獠牙。
我拆过他们的APK。包体不大,但埋点密密麻麻得像蚂蚁窝。每一次滑动停留时长、每一次点赞取消、甚至每一次返回操作,都被量化成特征向量。最可怕的是他们的冷启动策略——新用户注册后要求勾选五个兴趣标签,这五个标签就是初始的“种子”。然后,AB测试开始了。他们会同时给用户推A/B两套内容,一套基于种子标签的扩展,一套完全随机。24小时内,模型就能判断出哪套内容的点击率更高。72小时,这个用户就被打上了上百个隐式标签。什么“深夜活跃型”、“标题党易感体质”、“地域敏感度低”……这些标签根本不是用户自己填的,是算法从行为里“偷”来的。
我在想我的SEO生意。我们还在绞尽脑汁研究百度蜘蛛的爬取规律,还在堆砌关键词密度,还在买外链。人家今日头条直接绕过了搜索这个动作。用户不需要“搜索”信息,信息会像流水一样自动找到最低的认知洼地,灌进去。这完全是两个维度的战争。我们还在二维平面上争夺排名,他们已经在三维空间里构建每个人的信息茧房。
但真的那么完美吗?我盯着那些推荐流看了三个小时。发现一个漏洞——或者说,一个必然的代价。为了追求点击率,模型会越来越倾向于推荐“极端化”的内容。温和的观点得不到互动,偏激的言论才能引发点赞和评论。算法不懂价值观,它只懂数字。长期来看,这会不会把每个人都推向自己认知的极端?我不知道。但我知道,这种机制下,流量会像滚雪球一样向头部内容聚集。马太效应会放大到极致。
我的爬虫还在跑,数据一条条滚过去。我在想,如果我也要做推荐,该从哪里切入?没有头条的资本和团队,我只能找垂直领域。也许……也许可以从工具类内容开始?比如教人写代码的教程?用户的意图更明确,反馈信号也更清晰。但问题又来了——没有海量用户行为数据,我拿什么训练模型?冷启动的数据从哪来?
窗外天快亮了。我关掉电脑,点了根烟。突然觉得有点可笑。我一个搞爬虫的,居然在担心算法推荐会颠覆我的生意。但转念一想,不对。如果信息分发的逻辑真的被重塑,那所有依赖流量的生意都得重做一遍。包括我现在做的这些SEO项目,这些辛苦维护的网站群。
也许该学点机器学习的基础了。哪怕就从scikit-learn开始。可是……33岁再从头学矩阵运算和概率论?脑子还跟得上吗?
烟烧到了手指。














