窗外是上海凌晨三点的寂静,只有机箱风扇的低鸣在房间里回荡。我盯着屏幕上的百度站长平台数据,收录曲线像一条濒死的鱼,挣扎了几下,彻底平了。三十二岁,头发掉得比代码行数还快。
刚给新站装完WordPress那会儿,我还天真地以为,只要主题够漂亮,插件够齐全,流量就会像自来水一样涌进来。我甚至花了整整一个周末,亲手写了五篇自认为干货满满的技术教程。结果呢?百度蜘蛛来是来了,爬了一圈,连个索引都没给。那感觉就像你精心准备了一桌满汉全席,请来的客人却只是站在门口闻了闻,转身走了。
原创?呵。这个词现在听起来像个笑话。你知道要覆盖一个稍微有点流量的长尾词库需要多少页面吗?几千?那是起步价。靠我一个人,一天憋出一篇都算高产。手指在键盘上敲打,脑子里想的全是“密度”、“关键词布局”、“H标签”,写出来的东西自己都不忍心看第二遍。这根本不是创作,这是戴着镣铐在流水线上拧螺丝。
但你看那些内容农场。它们像疯长的野草,一夜之间就能占领搜索结果的前三页。点进去,通篇都是“伪原创”过后的垃圾——同义词替换、段落调序、插入一堆毫无意义的废话。可百度就是吃这套。它们的机器蜘蛛似乎更偏爱这种“看起来”很丰富、关键词堆砌得恰到好处的工业废水。收录率?百分之九十以上。我们这些吭哧吭哧搞原创的,反而成了异类。
这太他妈荒诞了。
我试过采集。写了个Python脚本,目标是一个垂直论坛,定时去扒新帖。技术上好解决,XPath定位,requests发请求,数据清洗后扔进数据库。但道德上的坎儿呢?那些帖子背后也是活生生的人,花了时间分享的经验。我直接扒过来,改头换面,就成了我的“原创内容”?这算白帽还是黑帽?恐怕是顶灰得不能再灰的帽子。更现实的问题是,百度也不傻,纯粹的采集站,生命周期可能只有几个月,一旦被识别,整站拔除,颗粒无收。
昨晚,我又在几个站长QQ群里潜水。气氛一片惨淡。有人抱怨算法又更新了,手上一批站全降权;有人炫耀新上的“站群”模式,用泛解析搞了上百个二级域名,内容全靠拼凑,居然日引几千IP。群里沉默了一会儿,然后纷纷有人@他,求带,求工具,求源码。没人问内容从哪里来,没人关心那些被拼凑的信息是否准确。流量就是一切,至于这流量是干净的血液,还是掺杂着污泥的脏水,没人在乎。
我关掉了群窗口。胃里一阵翻腾。难道出路就只有同流合污,加入这场制造信息垃圾的狂欢吗?用更快的服务器,更隐蔽的采集策略,更逼真的伪原创算法,去喂养那只永远吃不饱的蜘蛛?
可是,然后呢?
就算侥幸活下来,赚到一点流量,接点联盟广告,这种日子有什么意义?我成了一个内容流水线上的操作工,甚至不敢告诉别人我的网站是做什么的。那种对技术的原始热情,那种做出一个有用东西的成就感,正在被日复一日的焦虑和这种灰色地带的蝇营狗苟慢慢磨掉。
我需要一种新的生产方式。不是这种低效的、令人作呕的体力劳动,也不是完全抛弃底线的数据盗窃。它应该能规模化,但……得有点人的味道。它得能应对百度,但不止是为了应付百度。
天快亮了。屏幕的光刺得眼睛发酸。下一个十年,内容到底该怎么生产?难道只能在这片泥潭里,越陷越深吗?














