直接去 SEC 官网把拼多多的招股书 PDF 拖下来,用眼睛看?几百页全英文的 SEC 文件格式能把人看吐,那些自媒体写的“深度解读”全是二手口水,核心数据一个没提,净扯什么“五环外”、“社交电商”的虚概念。真东西都藏在附录的表格里,用户月度复购率、单个获客成本、营销费用占比,这些才是底裤。我决定自己写脚本扒。
SEC 的 EDGAR 系统有 API,但频率限制很死,直接 requests 上去容易被 ban。先得模拟浏览器头,还得处理那个反爬的延迟逻辑,用 time.sleep 加随机数,伪装成人类在浏览。下载链接藏在那个满是 JavaScript 的页面里,得用 BeautifulSoup 去解析 DOM 树,找到真正的 PDF 文件地址。这步卡了我半小时,因为 SEC 的页面结构隔几年就微调一次,正则表达式得写得特别鲁棒。
PDF 拖到本地才是噩梦的开始。招股书里的表格不是标准格式,是那种扫描件转的 PDF,用 PyPDF2 直接提取出来全是乱码。换 Tabula-py,这库基于 Java 的 Tabula,能识别表格区域,但参数调起来要命。area 参数得一个个手动试坐标,像在玩扫雷。拼多多的核心财务数据表在“Selected Financial Data”那节,但它的表格跨页了,Tabula 默认设置会把它拆成两个破碎的表。得设置 stream=True 模式,让库按文本流去猜表格边界,猜得还不准。最后我是用 Camelot 库再跑了一遍,对比两个库的输出结果,手动写规则去合并和清洗冲突的单元格数据。
数据抽出来是一坨 JSON,里面数字是字符串,还带着美元符号和括号表示的负数。用 pandas 做清洗,正则表达式匹配 “($12.3)” 这种格式,转成 float -12.3。最核心的是计算 CAC。招股书里营销费用是总数,季度活跃买家增量是另一个数。但光除一下得出的是模糊成本,我要的是边际获客成本曲线。所以我把过去八个季度的数据都提出来,算每个季度新增用户的平均花费。脚本跑出来的那条曲线,在 2017 年 Q4 突然掉到 5 块钱人民币以下。那一刻我后背发凉。
这不是省钱,这是屠杀。5 块钱拉一个活跃买家,在 2017 年的互联网环境下等于白送。配合脚本同时提取的用户复购率数据——那个表格藏得更深,在“Operating Metrics”里用很小字体的注释写着——复购率在快速爬升。获客成本无限压低,用户价值却在拉升,这个剪刀差一出来,什么商业模式质疑都是废话。这就是一台用资本燃料点燃的流量核弹,炸穿的是整个电商市场的成本结构。
我把清洗好的数据用 openpyxl 引擎灌进 Excel,自动生成带趋势线的图表,营销费用占比、单用户贡献毛利、CAC/LTV 比值,几个核心指标做成仪表盘。整个过程从 SEC 抓取到 Excel 输出,脚本全自动,下次再有中概股上市,改个公司代码和 CIK 编号就能再跑一遍。这套东西比任何行业分析报告都硬核,因为数字不会撒谎,表格不会讲故事。金融情报的本质就是数据原教旨主义,把一切花哨的叙事扒光,只看财务报表里那些冰冷、隐秘、但决定生死的字段。拼多多的底裤就这么被扒开了,里面不是破布,是印钞机。














