青年节:后浪们在拍视频,前浪我在写脚本

青年节朋友圈被B站那个《后浪》刷屏了,我盯着满屏的无人机、跳伞和Vlog,低头看了看自己屏幕里密密麻麻的Python脚本和待处理的JSON数据,感觉我们活在两个平行宇宙。他们拍视频,我写脚本,他们定义未来,我还在为明天的交付数据能不能准时抓完而焦虑。

团队现在七个人,账上流水看着还行,但人一多,心就散了。上个月刚走了一个后端,理由是“觉得我们业务太土,天天就是爬虫爬虫,没技术含量”。我他妈当时就想把键盘摔了,没技术含量?你去试试反爬升级到每五分钟换一次CSS类名的电商网站,去试试用无头浏览器模拟登录还被频繁弹验证码的医疗平台,这他妈是体力活加脑力活的极限挑战。但这话我没说出口,说了就是老板PUA,只能自己咽下去。管理这摊子事比写最复杂的分布式爬虫还累,爬虫逻辑错了改就行,人心里想什么,你根本抓取不到。

说回正事。最近接了个健康科技公司的单子,帮他们做竞品数据监控。需求听起来简单:抓取薄荷健康、Keep、下厨房这几个平台里,所有带“减脂餐”标签的菜谱数据,包括食材、热量、做法。甲方爸爸还提了个“小”要求:能不能根据这些数据,自动生成符合四川人口味的、不重样的减脂餐单?他们觉得我们既然能做爬虫,搞点数据分析生成文本不是顺手的事。我心想,这他妈又是从“爬虫”到“AI”的认知跳跃,但钱给够了,跳也得跳。

技术栈还是老几样,Scrapy爬框架,Selenium对付动态加载,Redis做请求去重和队列。真正的难点在数据清洗和那个“成都味”上。爬下来的数据脏得没法看,“适量”、“少许”这种词满天飞,热量数据单位不统一,有的用千卡有的用千焦。我写了个规则引擎去归一化,但总有漏网之鱼,最后还得人工复查,这又占用了本就不多的开发时间。

至于“成都味”,这是个玄学问题。我让团队里那个成都的妹子提炼关键词,她列了一堆:郫县豆瓣、花椒、辣椒面、红油、香芹、藤椒油。但光有调料不行,得结合食材和烹饪方式。我设计了个很糙的规则:首先,基础食材必须是高蛋白低脂的(鸡胸肉、巴沙鱼、豆腐、魔芋),这是“减脂”的底线。然后,在做法库里匹配,如果有“凉拌”、“红油”、“干煸”、“椒麻”这些词,优先级提高。最后,用Jieba分词分析用户评论,如果出现“麻辣”、“香”、“过瘾”、“巴适”这些情感词,这道菜谱的“川味权重”就加一分。生成的餐单就是个基于权重的随机抽样,尽量保证一周内不出现重复的菜谱基底。

搞这个的过程中,我自己也魔怔了,开始研究什么叫“低成本、高饱腹感”。鸡胸肉和巴沙鱼是蛋白质成本最低的选项,但天天吃会吐。魔芋和豆腐是饱腹感神器,尤其是老豆腐,煎一下口感像肉。我还发现,很多减脂餐为了低卡,油放得极少,结果就是吃得人情绪低落。成都味的核心可能就是那点红油,热量是高,但用喷壶严格控制,5克油就能香飘十里,心理满足感飙升,能让你坚持得更久。这哪是写代码,这都快成营养学民科了。

团队里的小孩一边跑脚本一边抱怨,说人家公司都在搞短视频带货了,我们还在吭哧吭哧扒数据。我没反驳。我知道爬虫这行当,越来越像地下工作者,和平台风控斗智斗勇,利润被挤压,技术门槛在降低(相对AI来说)。但这就是我2016年自己一拳一脚打出来的路径依赖,船大了,不好调头。看着《后浪》里光鲜的年轻人,我觉得自己这前浪,可能不是奔涌,而是在泥潭里挣扎着划水,确保自己和船上的人别沉下去。脚本还得写,数据还得跑,明天的餐单还得按时生成。这就是我的青年节。

© 版权声明
THE END
喜欢就支持一下吧
点赞67 分享