抓取知乎Live数据:看看大V们到底赚了多少钱

窗外是上海凌晨三点的寂静,路灯把梧桐树的影子拉得很长,投在空无一人的街道上。我坐在出租屋的电脑前,屏幕的光映在脸上,手边是第三杯冷掉的速溶咖啡。知识付费的风吹得震天响,朋友圈里到处是“某某大V一场知乎Live收入十万”的截图,空气里弥漫着一种躁动的、急于变现的焦灼。作为一个三十二岁、还在靠接爬虫私活和做SEO顾问勉强维生的产品经理,我本能地怀疑一切被过度宣传的“风口”。他们到底赚了多少钱?光听他们说没用,我得自己看看。

我打开知乎Live的页面,随便点开一个热门话题,F12调出开发者工具。网络请求列表里,那些XHR请求像一条条沉默的矿脉,静静地躺着。找到那个返回JSON数据的接口并不难,参数也很清晰,page,per_page。难点在于,怎么高效地、不被封禁地遍历所有Live?直接暴力循环请求,IP大概率几分钟内就会被知乎的风控掐掉。我得模拟得更像真人一些,随机User-Agent,在请求间插入随机的、合理的延时,甚至考虑用上代理IP池——虽然那要花钱。但今晚,我只是想先验证想法,用最笨的方法,手动复制几十个Live的ID,写个脚本先跑跑看。Python的requests库发出请求,返回的JSON用json.loads解析,我需要的数据很明确:Live标题、主讲人、价格、参与人数。价格乘以人数,就是单场GMV。逻辑简单得令人发笑。

数据开始一条条爬回来,在终端里滚动。我泡了第四杯咖啡,这次是热的。最初的几十条数据,看起来确实光鲜。某个知名投资人的Live,标价99元,显示有超过一万人参与。算一下,单场就近百万流水。心跳快了一拍。但继续往下跑,味道开始变了。那些粉丝数几十万、听起来名头也很响的“行业专家”的Live,价格定在49元,参与人数却只有寥寥几百,甚至几十。GMV瞬间掉到五位数、四位数。我加快了脚本速度,不顾可能触发的频率限制,贪婪地吞食着数据。两个小时后,我手里有了超过五百场不同时期、不同领域知乎Live的原始数据。

我把数据丢进Pandas做清洗和聚合,然后用Matplotlib画图。当那张柱状图呈现在屏幕上时,我沉默了。我知道会有头部效应,但没想到如此极端。排名前20的Live,贡献了总GMV的接近70%。而尾部那超过四百场Live,总GMV加起来,可能还不如头部第一名的零头。二八法则?在这里简直是九八法则,甚至更残酷。那些在朋友圈里晒出惊人收入截图的大V,是真实存在的,但他们就是那塔尖的1%。更多的、沉默的大多数,那些满怀希望开设Live、精心准备内容的人,可能一场下来,收入不过几千块,甚至几百块,扣除平台分成,所剩无几。知识付费这座金矿,富矿脉极其稀少,且早已被标记占领;而绝大多数人,只是在贫瘠的矿渣上,费力地挖掘,最终可能连工具的成本都收不回来。

我把图表保存下来,关掉了IDE。房间里只剩下主机风扇的低鸣。那种“用数据打脸”的爽快感很快褪去,取而代之的是一种冰冷的清醒。2017年,我三十二岁,技能焦虑达到顶峰,每天都在寻找能快速闭环、变现的流量密码。知乎Live的数据像一盆冷水,浇在了我刚燃起的那点“也许可以做个知识付费产品”的火苗上。盲目冲进去,我大概率会成为那沉默的、在底部挣扎的大多数之一。

不要追光,要成为光?不,首先得看清光在哪里,以及那光是不是海市蜃楼。我得找到我的长尾,我的垂直赛道。一个没有人注意、但需求真实存在的缝隙。而不是跳进这片看似沸腾、实则早已阶层固化的红海。

天快亮了。我保存好所有代码和数据。这又是一次独狼式的数据侦察,没什么技术含量,但足够让我保持警惕。睡吧,明天还得继续为生存而战。

© 版权声明
THE END
喜欢就支持一下吧
点赞95 分享