一季度总结:在 AI 核爆中重塑了骨骼

一季度总结:在 AI 核爆中重塑了骨骼

这三个月,我几乎没碰过产品原型。Axure 的源文件上次打开还是去年的事。所有精力都砸在数据上,不是那种看行业报告的数据,是亲手抓、亲手洗、亲手建库的数据。因为我知道,ChatGPT 这类东西出来之后,靠“我有一个想法”和几张高保真原型图就能忽悠甲方的时代,彻底结束了。未来能卖的,必须是经过验证的、结构化的、可复用的“经验”,而经验的基础是数据。

我开始系统性抓取几个垂直领域的公开数据:健身私教课程定价、本地生活服务商的线上运营指标、还有几个知识付费社群的用户互动模式。工具栈回归到最原始也最可靠的那一套:Python + Requests/Scrapy + Selenium 补漏。但环境变了,反爬策略升级到令人发指的地步,Cloudflare 的 5 秒盾已经是标配,很多 App 端的数据包甚至开始用自定义加密。我不得不重新捡起 Fiddler 和 mitmproxy,去逆向那些移动端 API,看它们是怎么生成 token 和签名参数的。这个过程极其枯燥,一个参数不对,返回的就是一堆乱码或者 403。有时候对着抓包数据看一晚上,就为了搞明白一个 `_sign` 字段是怎么从时间戳、设备 ID 和请求体拼接后 MD5 出来的。

最耗时的还不是抓,是清洗和结构化。比如抓健身教练的课程数据,源数据里充斥着“燃脂暴击·尊巴VIP班”、“肩颈修复·筋膜松解课”这种营销命名。你不能直接存,必须拆解。我建了一套分类规则:先按“训练目标”(增肌、减脂、康复、体态)打一级标签,再按“课程形式”(团课、私教、线上跟练)打二级标签,最后用正则和关键词匹配去提取价格、时长、适用人群这些信息。光这个分类词库,就迭代了四版。数据不干净,后面做任何分析都是垃圾进垃圾出。

为了处理这些脏数据,我甚至重新去翻了 Pandas 的文档,一些高级的 `groupby` 和 `apply` 操作,以前做产品时觉得用不上,现在成了救命稻草。我还把数据管道搬到了 n8n 上做了一部分自动化,让抓取、清洗、入库形成工作流。虽然初期配置麻烦,但跑通之后,确实解放了人力。我开始理解,所谓“经验产品化”,第一步就是把那些模糊的行业认知,变成一张张字段清晰、关系明确的数据库表。表结构设计得好不好,直接决定了未来这个“经验产品”的扩展性和杀伤力。

这个过程里,焦虑感是持续的。一边是“再不快点,别人就用 AI 把这事做完了”的恐慌,另一边是“基础不牢,地动山摇”的强迫症。我经常在深夜对着满屏的日志发呆,问自己:花几百个小时整理这些数据,到底值不值?会不会等我整理完,市场又变了?但另一个声音更响:如果连最脏最累的数据基础都不愿意打,总想着走捷径用现成的 API 或者二手报告,那我在这个 AI 开始吞噬一切行当的时代,还有什么独特的壁垒?无非是又一个 prompt 工程师罢了。

现在,几个核心数据库的雏形有了。健身课程库大概有 5 万条清洗后的记录,能初步看出不同城市、不同场馆类型的定价区间和课程设计趋势。本地服务商库抓了他们的点评分、团购套餐设置、用户评论关键词,隐约能看到哪些运营动作真的能拉动口碑。这些数据现在还是冷的,是“矿石”。但我知道,等我把大模型的能力接进来,用这些高质量的结构化数据去做微调,或者哪怕只是作为 RAG 的检索库,它们就能变成“燃料”。那时候,我提供的就不是一份报告,而是一个能动态回答“在上海静安区开一个针对产后修复的普拉提工作室,初始课程体系怎么搭,定价多少合适”的实时顾问系统。

骨骼重塑是痛苦的,意味着要把过去赖以生存的旧技能打碎,在新的技术地基上重新生长。这一季度,我没产出任何可见的“产品”,但我觉得,我是在为未来五年,修建最隐蔽也最重要的护城河。

© 版权声明
THE END
喜欢就支持一下吧
点赞64 分享