一季度总结：在 AI 核爆中重塑了骨骼-Flovico-AI商业实战教练

一季度总结：在 AI 核爆中重塑了骨骼

这三个月，我几乎没碰过产品原型。Axure 的源文件上次打开还是去年的事。所有精力都砸在数据上，不是那种看行业报告的数据，是亲手抓、亲手洗、亲手建库的数据。因为我知道，ChatGPT 这类东西出来之后，靠“我有一个想法”和几张高保真原型图就能忽悠甲方的时代，彻底结束了。未来能卖的，必须是经过验证的、结构化的、可复用的“经验”，而经验的基础是数据。

我开始系统性抓取几个垂直领域的公开数据：健身私教课程定价、本地生活服务商的线上运营指标、还有几个知识付费社群的用户互动模式。工具栈回归到最原始也最可靠的那一套：Python + Requests/Scrapy + Selenium 补漏。但环境变了，反爬策略升级到令人发指的地步，Cloudflare 的 5 秒盾已经是标配，很多 App 端的数据包甚至开始用自定义加密。我不得不重新捡起 Fiddler 和 mitmproxy，去逆向那些移动端 API，看它们是怎么生成 token 和签名参数的。这个过程极其枯燥，一个参数不对，返回的就是一堆乱码或者 403。有时候对着抓包数据看一晚上，就为了搞明白一个 `_sign` 字段是怎么从时间戳、设备 ID 和请求体拼接后 MD5 出来的。

最耗时的还不是抓，是清洗和结构化。比如抓健身教练的课程数据，源数据里充斥着“燃脂暴击·尊巴VIP班”、“肩颈修复·筋膜松解课”这种营销命名。你不能直接存，必须拆解。我建了一套分类规则：先按“训练目标”（增肌、减脂、康复、体态）打一级标签，再按“课程形式”（团课、私教、线上跟练）打二级标签，最后用正则和关键词匹配去提取价格、时长、适用人群这些信息。光这个分类词库，就迭代了四版。数据不干净，后面做任何分析都是垃圾进垃圾出。

为了处理这些脏数据，我甚至重新去翻了 Pandas 的文档，一些高级的 `groupby` 和 `apply` 操作，以前做产品时觉得用不上，现在成了救命稻草。我还把数据管道搬到了 n8n 上做了一部分自动化，让抓取、清洗、入库形成工作流。虽然初期配置麻烦，但跑通之后，确实解放了人力。我开始理解，所谓“经验产品化”，第一步就是把那些模糊的行业认知，变成一张张字段清晰、关系明确的数据库表。表结构设计得好不好，直接决定了未来这个“经验产品”的扩展性和杀伤力。

这个过程里，焦虑感是持续的。一边是“再不快点，别人就用 AI 把这事做完了”的恐慌，另一边是“基础不牢，地动山摇”的强迫症。我经常在深夜对着满屏的日志发呆，问自己：花几百个小时整理这些数据，到底值不值？会不会等我整理完，市场又变了？但另一个声音更响：如果连最脏最累的数据基础都不愿意打，总想着走捷径用现成的 API 或者二手报告，那我在这个 AI 开始吞噬一切行当的时代，还有什么独特的壁垒？无非是又一个 prompt 工程师罢了。

现在，几个核心数据库的雏形有了。健身课程库大概有 5 万条清洗后的记录，能初步看出不同城市、不同场馆类型的定价区间和课程设计趋势。本地服务商库抓了他们的点评分、团购套餐设置、用户评论关键词，隐约能看到哪些运营动作真的能拉动口碑。这些数据现在还是冷的，是“矿石”。但我知道，等我把大模型的能力接进来，用这些高质量的结构化数据去做微调，或者哪怕只是作为 RAG 的检索库，它们就能变成“燃料”。那时候，我提供的就不是一份报告，而是一个能动态回答“在上海静安区开一个针对产后修复的普拉提工作室，初始课程体系怎么搭，定价多少合适”的实时顾问系统。

骨骼重塑是痛苦的，意味着要把过去赖以生存的旧技能打碎，在新的技术地基上重新生长。这一季度，我没产出任何可见的“产品”，但我觉得，我是在为未来五年，修建最隐蔽也最重要的护城河。

文章版权归作者所有，未经允许请勿转载。

THE END