青年节：后浪们在拍视频，前浪我在写脚本-Flovico-AI商业实战教练

青年节朋友圈被B站那个《后浪》刷屏了，我盯着满屏的无人机、跳伞和Vlog，低头看了看自己屏幕里密密麻麻的Python脚本和待处理的JSON数据，感觉我们活在两个平行宇宙。他们拍视频，我写脚本，他们定义未来，我还在为明天的交付数据能不能准时抓完而焦虑。

团队现在七个人，账上流水看着还行，但人一多，心就散了。上个月刚走了一个后端，理由是“觉得我们业务太土，天天就是爬虫爬虫，没技术含量”。我他妈当时就想把键盘摔了，没技术含量？你去试试反爬升级到每五分钟换一次CSS类名的电商网站，去试试用无头浏览器模拟登录还被频繁弹验证码的医疗平台，这他妈是体力活加脑力活的极限挑战。但这话我没说出口，说了就是老板PUA，只能自己咽下去。管理这摊子事比写最复杂的分布式爬虫还累，爬虫逻辑错了改就行，人心里想什么，你根本抓取不到。

说回正事。最近接了个健康科技公司的单子，帮他们做竞品数据监控。需求听起来简单：抓取薄荷健康、Keep、下厨房这几个平台里，所有带“减脂餐”标签的菜谱数据，包括食材、热量、做法。甲方爸爸还提了个“小”要求：能不能根据这些数据，自动生成符合四川人口味的、不重样的减脂餐单？他们觉得我们既然能做爬虫，搞点数据分析生成文本不是顺手的事。我心想，这他妈又是从“爬虫”到“AI”的认知跳跃，但钱给够了，跳也得跳。

技术栈还是老几样，Scrapy爬框架，Selenium对付动态加载，Redis做请求去重和队列。真正的难点在数据清洗和那个“成都味”上。爬下来的数据脏得没法看，“适量”、“少许”这种词满天飞，热量数据单位不统一，有的用千卡有的用千焦。我写了个规则引擎去归一化，但总有漏网之鱼，最后还得人工复查，这又占用了本就不多的开发时间。

至于“成都味”，这是个玄学问题。我让团队里那个成都的妹子提炼关键词，她列了一堆：郫县豆瓣、花椒、辣椒面、红油、香芹、藤椒油。但光有调料不行，得结合食材和烹饪方式。我设计了个很糙的规则：首先，基础食材必须是高蛋白低脂的（鸡胸肉、巴沙鱼、豆腐、魔芋），这是“减脂”的底线。然后，在做法库里匹配，如果有“凉拌”、“红油”、“干煸”、“椒麻”这些词，优先级提高。最后，用Jieba分词分析用户评论，如果出现“麻辣”、“香”、“过瘾”、“巴适”这些情感词，这道菜谱的“川味权重”就加一分。生成的餐单就是个基于权重的随机抽样，尽量保证一周内不出现重复的菜谱基底。

搞这个的过程中，我自己也魔怔了，开始研究什么叫“低成本、高饱腹感”。鸡胸肉和巴沙鱼是蛋白质成本最低的选项，但天天吃会吐。魔芋和豆腐是饱腹感神器，尤其是老豆腐，煎一下口感像肉。我还发现，很多减脂餐为了低卡，油放得极少，结果就是吃得人情绪低落。成都味的核心可能就是那点红油，热量是高，但用喷壶严格控制，5克油就能香飘十里，心理满足感飙升，能让你坚持得更久。这哪是写代码，这都快成营养学民科了。

团队里的小孩一边跑脚本一边抱怨，说人家公司都在搞短视频带货了，我们还在吭哧吭哧扒数据。我没反驳。我知道爬虫这行当，越来越像地下工作者，和平台风控斗智斗勇，利润被挤压，技术门槛在降低（相对AI来说）。但这就是我2016年自己一拳一脚打出来的路径依赖，船大了，不好调头。看着《后浪》里光鲜的年轻人，我觉得自己这前浪，可能不是奔涌，而是在泥潭里挣扎着划水，确保自己和船上的人别沉下去。脚本还得写，数据还得跑，明天的餐单还得按时生成。这就是我的青年节。

文章版权归作者所有，未经允许请勿转载。

THE END

AI实践