抓取知乎Live数据：看看大V们到底赚了多少钱-Flovico-AI商业实战教练

窗外是上海凌晨三点的寂静，路灯把梧桐树的影子拉得很长，投在空无一人的街道上。我坐在出租屋的电脑前，屏幕的光映在脸上，手边是第三杯冷掉的速溶咖啡。知识付费的风吹得震天响，朋友圈里到处是“某某大V一场知乎Live收入十万”的截图，空气里弥漫着一种躁动的、急于变现的焦灼。作为一个三十二岁、还在靠接爬虫私活和做SEO顾问勉强维生的产品经理，我本能地怀疑一切被过度宣传的“风口”。他们到底赚了多少钱？光听他们说没用，我得自己看看。

我打开知乎Live的页面，随便点开一个热门话题，F12调出开发者工具。网络请求列表里，那些XHR请求像一条条沉默的矿脉，静静地躺着。找到那个返回JSON数据的接口并不难，参数也很清晰，page，per_page。难点在于，怎么高效地、不被封禁地遍历所有Live？直接暴力循环请求，IP大概率几分钟内就会被知乎的风控掐掉。我得模拟得更像真人一些，随机User-Agent，在请求间插入随机的、合理的延时，甚至考虑用上代理IP池——虽然那要花钱。但今晚，我只是想先验证想法，用最笨的方法，手动复制几十个Live的ID，写个脚本先跑跑看。Python的requests库发出请求，返回的JSON用json.loads解析，我需要的数据很明确：Live标题、主讲人、价格、参与人数。价格乘以人数，就是单场GMV。逻辑简单得令人发笑。

数据开始一条条爬回来，在终端里滚动。我泡了第四杯咖啡，这次是热的。最初的几十条数据，看起来确实光鲜。某个知名投资人的Live，标价99元，显示有超过一万人参与。算一下，单场就近百万流水。心跳快了一拍。但继续往下跑，味道开始变了。那些粉丝数几十万、听起来名头也很响的“行业专家”的Live，价格定在49元，参与人数却只有寥寥几百，甚至几十。GMV瞬间掉到五位数、四位数。我加快了脚本速度，不顾可能触发的频率限制，贪婪地吞食着数据。两个小时后，我手里有了超过五百场不同时期、不同领域知乎Live的原始数据。

我把数据丢进Pandas做清洗和聚合，然后用Matplotlib画图。当那张柱状图呈现在屏幕上时，我沉默了。我知道会有头部效应，但没想到如此极端。排名前20的Live，贡献了总GMV的接近70%。而尾部那超过四百场Live，总GMV加起来，可能还不如头部第一名的零头。二八法则？在这里简直是九八法则，甚至更残酷。那些在朋友圈里晒出惊人收入截图的大V，是真实存在的，但他们就是那塔尖的1%。更多的、沉默的大多数，那些满怀希望开设Live、精心准备内容的人，可能一场下来，收入不过几千块，甚至几百块，扣除平台分成，所剩无几。知识付费这座金矿，富矿脉极其稀少，且早已被标记占领；而绝大多数人，只是在贫瘠的矿渣上，费力地挖掘，最终可能连工具的成本都收不回来。

我把图表保存下来，关掉了IDE。房间里只剩下主机风扇的低鸣。那种“用数据打脸”的爽快感很快褪去，取而代之的是一种冰冷的清醒。2017年，我三十二岁，技能焦虑达到顶峰，每天都在寻找能快速闭环、变现的流量密码。知乎Live的数据像一盆冷水，浇在了我刚燃起的那点“也许可以做个知识付费产品”的火苗上。盲目冲进去，我大概率会成为那沉默的、在底部挣扎的大多数之一。

不要追光，要成为光？不，首先得看清光在哪里，以及那光是不是海市蜃楼。我得找到我的长尾，我的垂直赛道。一个没有人注意、但需求真实存在的缝隙。而不是跳进这片看似沸腾、实则早已阶层固化的红海。

天快亮了。我保存好所有代码和数据。这又是一次独狼式的数据侦察，没什么技术含量，但足够让我保持警惕。睡吧，明天还得继续为生存而战。

文章版权归作者所有，未经允许请勿转载。

THE END