窗外又下雨了。酒店房间的空调嗡嗡响着,屏幕右下角显示凌晨两点半。老板下午在电梯里拦住我,问现在到处都在说深度学习,这东西到底能不能用到我们的业务里。我说明天给他个通俗的解释,现在对着满屏的数学符号,胃有点隐隐作痛。
其实我自己也刚弄明白没多久。三十二岁了,还在做爬虫和SEO,每天焦虑得不行,生怕被什么新技术甩下车。深度学习……听起来就很高深,但本质上,我觉得它就是个特别能“猜”的机器。
怎么跟老板解释呢?他关心的是流量,是转化,是钱。
我想我得从最老套的例子开始。比如教机器认猫。传统方法就像我写爬虫规则,我得一条条告诉程序:猫有尖耳朵、有胡子、眼睛圆。但世界上的猫千奇百怪,波斯猫脸是扁的,无毛猫根本没毛,你定的规则总会漏掉一些,或者把狗也认成猫。规则越写越复杂,最后变成一坨根本维护不了的屎山代码。我们现在的很多SEO策略不就是这种屎山吗?以为抓住了几个关键词规则就能通吃,其实平台算法早变了。
深度学习不这么干。它有点像……扔给机器一百万张猫的图片,和一百万张不是猫的图片,跟它说:“你自己看,自己总结规律去。” 机器一开始瞎猜,肯定错得离谱。但每次猜错,就有个反馈机制告诉它:“喂,你错了,调整一下你内部那些‘参数’。” 这个调整的过程,就是“训练”。它内部有好多好多层网络(所以叫“深度”),每一层都在提取不同抽象层次的特征。最底层可能只看到边缘和色块,中间层能组合出眼睛、耳朵的形状,最高层才综合判断出“这是猫”。关键是,这些判断规则不是我们人事先写死的,是机器自己从海量数据里“学”出来的。
老板可能会问,这要多少数据?多少钱?这问到痛处了。它确实是个吞数据的怪兽,而且需要很强的算力,也就是烧钱。我们那小打小闹的爬虫数据量,可能连开胃菜都算不上。更关键的是,它是个黑箱。机器最后学会了认猫,但它到底根据什么判断的?那些参数代表什么?连设计它的人都很难完全说清。它只是“表现”得很好。这就像……你雇了一个超级销售,业绩爆表,但他到底怎么跟客户沟通的,你完全看不懂,也控制不了。你敢把核心业务押宝在这样一个不可控的“员工”身上吗?
对我们现在搞流量来说,它可能太“重”了。我们追求的是快,是敏捷,是看到个关键词机会就扑上去,用脚本和规则堆出短期红利。深度学习需要长期、稳定、大量的数据喂养,像养一个孩子,短期内见不到回头钱。老板要的是下个月财报数字好看,我要是跟他说咱们投入百万搞个深度学习团队,两年后可能见效,他大概会让我滚蛋。
但它的潜力又让人害怕。如果……如果百度和谷歌的搜索排序,以后完全用深度学习来驱动呢?它不再是我们能分析出来的外链、关键词密度这些简单规则,而是一个综合了用户历史、页面内容、甚至图片和视频信息的、巨复杂无比的黑箱模型。那我们这些研究规则、钻空子搞SEO的人,会不会一夜之间手艺全废?
就像当年汽车取代马车。马车夫再研究怎么喂马、怎么保养车轮,也没用了。
雨好像更大了。我写这些有什么用呢。明天给老板的汇报,最后大概还是会落回“目前技术不成熟,成本过高,建议保持关注”这样的废话。我得回去继续优化我的爬虫了,那个凌晨三点钟的脚本好像又卡住了。深度学习是未来,但我的当下,是流量,是闭环,是活下去。
先活下去再说吧。














