38岁,我终于不再羡慕那些“身价过亿”的虚影,因为我知道他们背后是几百人的团队和永远填不满的现金流窟窿。我刚刚把最后一个需要人工判断的“适配环节”写进了Python脚本里,现在整个数据清洗到分发的流程,从凌晨2点到早上8点,可以完全无人值守跑完。
这个适配环节折磨了我三个月。客户给过来的原始数据格式每周变三次,有时候是Excel里套着合并单元格,有时候是CSV但用分号分隔,最离谱的一次是PDF截图让我自己OCR识别。之前我的做法是写一堆if-else去预判,但总有漏网之鱼,凌晨三点被企业微信的报警消息震醒,爬起来手动处理。上周我彻底想通了,与其预判,不如让程序自己学会“猜”。我用OpenCV配合pytesseract做了个格式探测模块,先对文件进行二值化处理,检测表格线,识别不出就当成纯文本用正则硬拆。关键是把所有“异常情况”都转化成标准错误码,比如ERR_001代表“表头行数异常”,ERR_002代表“金额字段包含非数字字符”。
然后就是n8n的自愈节点。这东西太他妈实用了。我在每个可能出错的HTTP请求节点后面都挂了一个“错误触发”工作流,专门处理404和429。以前遇到API频率限制,整个流程就卡死,现在触发错误后,自愈节点会先记录错误上下文到PostgreSQL,然后随机等待一个30到90秒的退避时间,自动重试三次。如果还是404,就自动切换到备用数据源URL,同时给我发一条低优先级的通知。这个设计让整套系统的可用性从70%直接拉到了99%以上,代价是我花了整整四天时间调试重试逻辑里的竞态条件。
我现在追求的就是这种单兵作战的极致。一个Python脚本配合n8n工作流,加上三台按量付费的云服务器,就能跑出以前十个人手工团队的效果。那十个人要发工资、要管理、要应付离职率,而现在我只需要付电费和云服务账单。去年这时候我还在为团队里两个程序员闹矛盾而焦头烂额,现在我只关心日志监控面板上的曲线是否平滑。
所谓的“身价过亿”,不过是把无数个我这样的单点,用资本强行拧成一股绳,然后承担十倍的管理熵增和沟通损耗。他们赚的是资本游戏的钱,我赚的是系统跑通后,时间差带来的信息差价。凌晨四点,我的手机安静如鸡,而我知道太平洋对岸某个CEO正在为明天的董事会报告失眠。这种掌控感,比银行账户里多几个零更让我踏实。














