既然回到了书房,我就把那套“自动化复盘”脚本彻底重构了

LinkedIn 宣布关闭中国本土版本,我盯着那条新闻看了三分钟,然后切回终端,把那个爬虫脚本的日志文件删了。过去三年,这套东西给我喂了多少线索,现在就得吐出多少焦虑。下一个被切断的连接器会在哪?公众号?企微?还是我刚刚搭好的那个 Discord 机器人?流量版图永远在重组,你手里握着的不是护城河,是随时会断流的自来水管。

所以回到书房的第一件事,不是哀悼,是重构。以前那套复盘脚本太脏了,纯 Python 硬怼,requests 加 BeautifulSoup,遇到反爬就上 selenium 硬模拟,日志写得跟意识流小说似的。效率?靠多线程硬撑。稳定性?靠玄学。每次跑起来 CPU 风扇都像要起飞,结果抓回来的数据还得手动清洗半天,复盘复了个寂寞。现在想想,那根本不是自动化,那是人力驱动的半自动牲口。

这次我逼自己用 n8n 搭核心工作流。对,就是那个低代码工具。以前我看不上,觉得真男人就该写代码。但现在我 36 岁了,时间比所谓的“技术尊严”贵。n8n 的节点可视化把 HTTP 请求、数据解析、错误重试、条件分支画得明明白白。最关键的是,它内置的调度器和错误处理机制,比我以前用 crontab 加 try-except 裹脚布代码清爽一百倍。我把 LinkedIn 的替代品——脉脉、猎聘的公开职位描述页作为新数据源,用 n8n 的 HTML Extract 节点配合 CSS 选择器,三下五除二就把公司名、职位需求、联系方式(如果有)的结构化数据抽出来了,直接落到 Airtable。

但光抓取没用,那是 2018 年的思维。现在的核心是“连接器”本身要可插拔、可替换。我在 n8n 工作流最前面加了个“数据源配置”节点,里面就是个简单的 JSON,列出了所有目标站点的入口 URL 和对应的解析规则。哪天脉脉也改版了?我不用翻几百行爬虫代码,就在这个 JSON 里改个选择器,或者换个 URL。整个工作流的其他部分——数据清洗、去重、归档、生成每日简报邮件——完全不用动。这才是护城河的雏形:不是依赖某个特定平台,而是拥有一套快速迁移数据管道的能力。

搞到晚上十一点,老婆催了两次。我最后测试了一遍,按了下部署。风扇安静得很。我突然想起 2019 年带团队那会儿,为了类似的需求,我得先给程序员讲需求,等他排期,中间再因为“DOM 结构变了”来回扯皮,最后上线了还得请人家喝奶茶。现在,书房、电脑、我,三个小时,从分析到上线。自由是回来了,但那种与庞大系统单挑的孤立感,也他妈回来了。下一个被切断的,会不会就是我自己这根“超级个体”的连接线?不知道。先让脚本跑起来再说。明天早上,我得看看 Airtable 里有没有能用的 B 端线索。没有的话,我就得想想,是不是该去学学怎么从视频号直播间里捞鱼了。

© 版权声明
THE END
喜欢就支持一下吧
点赞54 分享