扒开招股书的底裤：写个脚本自动提取和分析拼多多的核心财务及留存数据-Flovico-AI商业实战教练

直接去 SEC 官网把拼多多的招股书 PDF 拖下来，用眼睛看？几百页全英文的 SEC 文件格式能把人看吐，那些自媒体写的“深度解读”全是二手口水，核心数据一个没提，净扯什么“五环外”、“社交电商”的虚概念。真东西都藏在附录的表格里，用户月度复购率、单个获客成本、营销费用占比，这些才是底裤。我决定自己写脚本扒。

SEC 的 EDGAR 系统有 API，但频率限制很死，直接 requests 上去容易被 ban。先得模拟浏览器头，还得处理那个反爬的延迟逻辑，用 time.sleep 加随机数，伪装成人类在浏览。下载链接藏在那个满是 JavaScript 的页面里，得用 BeautifulSoup 去解析 DOM 树，找到真正的 PDF 文件地址。这步卡了我半小时，因为 SEC 的页面结构隔几年就微调一次，正则表达式得写得特别鲁棒。

PDF 拖到本地才是噩梦的开始。招股书里的表格不是标准格式，是那种扫描件转的 PDF，用 PyPDF2 直接提取出来全是乱码。换 Tabula-py，这库基于 Java 的 Tabula，能识别表格区域，但参数调起来要命。area 参数得一个个手动试坐标，像在玩扫雷。拼多多的核心财务数据表在“Selected Financial Data”那节，但它的表格跨页了，Tabula 默认设置会把它拆成两个破碎的表。得设置 stream=True 模式，让库按文本流去猜表格边界，猜得还不准。最后我是用 Camelot 库再跑了一遍，对比两个库的输出结果，手动写规则去合并和清洗冲突的单元格数据。

数据抽出来是一坨 JSON，里面数字是字符串，还带着美元符号和括号表示的负数。用 pandas 做清洗，正则表达式匹配 “($12.3)” 这种格式，转成 float -12.3。最核心的是计算 CAC。招股书里营销费用是总数，季度活跃买家增量是另一个数。但光除一下得出的是模糊成本，我要的是边际获客成本曲线。所以我把过去八个季度的数据都提出来，算每个季度新增用户的平均花费。脚本跑出来的那条曲线，在 2017 年 Q4 突然掉到 5 块钱人民币以下。那一刻我后背发凉。

这不是省钱，这是屠杀。5 块钱拉一个活跃买家，在 2017 年的互联网环境下等于白送。配合脚本同时提取的用户复购率数据——那个表格藏得更深，在“Operating Metrics”里用很小字体的注释写着——复购率在快速爬升。获客成本无限压低，用户价值却在拉升，这个剪刀差一出来，什么商业模式质疑都是废话。这就是一台用资本燃料点燃的流量核弹，炸穿的是整个电商市场的成本结构。

我把清洗好的数据用 openpyxl 引擎灌进 Excel，自动生成带趋势线的图表，营销费用占比、单用户贡献毛利、CAC/LTV 比值，几个核心指标做成仪表盘。整个过程从 SEC 抓取到 Excel 输出，脚本全自动，下次再有中概股上市，改个公司代码和 CIK 编号就能再跑一遍。这套东西比任何行业分析报告都硬核，因为数字不会撒谎，表格不会讲故事。金融情报的本质就是数据原教旨主义，把一切花哨的叙事扒光，只看财务报表里那些冰冷、隐秘、但决定生死的字段。拼多多的底裤就这么被扒开了，里面不是破布，是印钞机。

文章版权归作者所有，未经允许请勿转载。

THE END

AI实践