既然网页端变复杂了，我就改用“多模态”去破解验证码-Flovico-AI商业实战教练

验证码这玩意儿，从纯数字到扭曲文字，再到滑块拼图，现在直接给你整上点选图中某类物体。前端工程师们把 DOM 树搞得跟迷宫一样，动态加载、Canvas 渲染、加密参数层层嵌套。以前靠 BeautifulSoup 配点正则就能搞定的事儿，现在得动用 Puppeteer 全量模拟浏览器行为，CPU 和内存开销直接翻倍，碰到 Cloudflare 那种五秒盾，一个页面加载能卡你十秒。这成本，接单的价格根本 cover 不住。

所以得换思路。既然人眼和大脑能瞬间识别“红绿灯”、“自行车”、“人行横道”，那机器为什么不行？视觉这块，传统 CV 方法搞特征匹配在变形和噪声面前就是渣，但预训练好的图像分类模型是现成的核武器。我不需要从头训练，我只需要微调。思路很简单：截图，裁剪出验证码区域，丢给一个在 ImageNet 上预训练过的 ResNet，把最后的全连接层改掉，针对“交通标志”、“商店门头”、“山地自行车”这类具体类别做迁移学习。

数据标注是脏活累活。我写了个半自动工具：先用未调优的模型跑一批，猜个大概，然后我手动画框修正。两千张图，搞了三个晚上，右手腕腱鞘炎都快犯了。但值得。模型调完，准确率上到 94%，剩下 6% 的失败案例，加个简单规则：连续失败两次就触发 fallback，切回手动打码平台，虽然一单成本多两分钱，但保证了流水线不断。

这套东西跑起来之后，我把它封装成一个 HTTP 服务，部署在阿里云最便宜的抢占式实例上。爬虫脚本不用再带沉重的浏览器内核了，直接发 base64 编码的图片过来，返回坐标数组。整个流程从平均 12 秒缩短到 1.5 秒。效率是暴力破解的八倍。

这背后支撑我搞这种硬核技术攻坚的，是身体没垮。去年体检一堆箭头，今年指标大部分绿了。秘诀就是像监控服务器日志一样监控血糖。高升糖食物，比如白米饭、面条、甜饮料，在我这儿跟毒药差不多。吃下去半小时，血糖坐火箭，人是会有点晕乎的兴奋，但一小时后必然 crash，注意力溃散，眼皮打架，跟 CPU 过热降频一模一样。

我现在午餐就是一份巨大的沙拉：鸡胸肉、大量绿叶菜、牛油果、坚果，淋点橄榄油和醋。碳水主要来自晚餐的一小撮糙米。这么搞了四个月，最直观的感受是午后困倦消失了。以前下午两点必须靠冰美式续命，现在不需要了。大脑清醒得像凌晨五点刚开机的时候，那种可以连续拆解复杂逻辑链条的“心流”状态，每天能维持好几个小时。

七月份上海 40 度，空调开到 26 度，我坐在书房里，十个小时，处理了三个客户的爬虫需求调整，写了上面那个验证码服务的部署文档，还抽空给健身教练发了下周的训练计划。汗都没怎么出。能量供给平稳，没有大的波动，情绪也稳。技术攻坚是持久战，拼到最后就是拼谁的身体不先掉链子。低卡饮食，本质上是在给大脑这个最精密的“处理器”提供稳定电压。

文章版权归作者所有，未经允许请勿转载。

THE END

思考笔记