既然不能去外地,我就用爬虫抓取全国的体能培训信息。这念头是今天下午盯着高德地图时冒出来的,疫情把人都焊在原地,但数据能飞。我手头正好有去年为了搞私域流量攒下的一套东西,改改就能用。
核心就三块:信息源、内容工厂、分发管道。信息源好办,大众点评、美团、天眼查、还有各地方体育局的公示网站,用 Selenium 配合 requests 轮着来,关键得绕过反爬。大众点评的字体加密早就摸透了,自己写了个映射表;天眼查要模拟滑动验证,用了个开源库打点,成功率能到八成。最难的是各地政府网站,那 DOM 树长得千奇百怪,每个市都得单独写解析规则,累得我颈椎病都快犯了。但抓下来的东西值钱:机构名称、地址、电话、甚至有些还有教练简介和课程价格。
光有 raw data 没用,得变成“内容”。这就到了我的伪原创系统。不是什么狗屁不通的 AI 写诗,是实打实的结构重组。我建了个素材库,把抓来的信息字段化:城市名、项目类型(拳击、CrossFit、瑜伽)、价格区间、特色标签。然后套用五六个预设的文案模板,比如“【城市】探店 | 藏在【区域】的【项目】工作室,一节体验课仅需【价格】元”。系统会自动从同义词库替换“藏在”为“隐匿在”或“深埋于”,调整句子顺序,再随机插入一些从健身公众号爬来的通用干货句子,比如“核心收紧的重要性”。最后生成十几种变体,肉眼几乎看不出是同源。
分发才是技术活,也是成就感来源。我养了二十几个不同平台的账号,知乎、小红书、豆瓣小组、甚至一些本地论坛。每个账号都有设定好的“人设”和发文频率。用 n8n 搭了工作流,伪原创文章生成后,自动按平台格式裁剪(小红书要加 emoji,知乎要显得专业),然后通过各平台非官方 API 或浏览器自动化定时发布。我写了个调度器,控制发布节奏,避免同一时间段多个账号发类似内容被识别。看着后台日志里,那些数字分身在北京、上海、成都的本地话题下自动提问、回答、引流到我的微信小号,那种感觉就像开了无数个矿机在全网自动挖矿。商机是零散的,但架不住它 24 小时不停。
最爽的一次,是系统自动在某个成都的攀岩群里发了个探店贴,当天下午就有两个潜在客户加过来问私教课。我没去过成都,但我的爬虫和脚本去过了。这大概就是数字游民在疫情下的真实写照:肉身被困,但数据和自动化能力让你在无数个地方同时“在场”。当然,风险也清楚,账号说没就没,平台规则说变就变。但眼下,这种用技术强行撕开一点空间的感觉,能抵消掉不少被困住的烦躁。管他呢,先跑起来,数据在流动,就有机会。














