客户把合同推过来的时候,我盯着那个数字看了十秒。三十万,就为了爬取某省所有公立医院近五年的患者就诊记录,包括姓名、身份证号和诊断结果。对方递烟的手很稳,说知道我们有技术能绕过那些验证码和IP封锁,“你们连12306的余票监控都能做,这个就是数据量大了点”。
我脑子里第一个蹦出来的不是法律条文,是技术细节。省级医疗系统的数据库通常是物理隔离的,外网访问要走VPN专线,但内部查询接口往往有漏洞。用selenium模拟医生工作站操作?太慢。分析HIS系统的API调用链?有可能,但得先弄到一个低权限的账号做跳板。多线程分布式爬虫框架我已经搭得很熟了,用代理池轮换IP,配合打码平台处理图形验证,每天百万级数据吞吐不是问题。这些技术肌肉是我2017年熬夜熬出来的,当时为了抢微信指数关键词的热度,我写了个脚本每分钟请求一次,把腾讯的频率限制阈值摸得一清二楚。
但这次不一样。医院数据后面是活人,是病史,是隐私。那个老板看我没说话,又加了一句:“我们可以签保密协议,数据脱敏处理,只做科研分析用。” 我差点笑出来。脱敏?真想要原始数据的人,拿到MD5加密的身份证号都能用彩虹表撞库还原。所谓“科研分析”,最后流向很可能是保险公司的风控模型,或者更糟——电话诈骗的精准名单。
团队里刚来的小孩私下找我,眼睛发亮:“老大,这单够我们发半年工资了。最近不是老抱怨现金流紧吗?” 是啊,2019年我的小公司账面上流水过百万,但扣掉八个员工的工资、社保、办公室租金和服务器费用,净利润薄得像张纸。上个月为了赶一个电商爬虫项目,两个程序员连续通宵,最后在会议室沙发上打呼噜。管理这摊子事比写代码累十倍,每天睁眼就是人力成本在烧钱。三十万现金,能立刻缓解所有焦虑。
但我记得2016年为什么起这个名字,“Flovico”。当时觉得酷,是“Flow”和“Vico”的拼接,想表达“在维柯的智慧之流中航行”的中二愿景。维柯说人类历史是螺旋上升的,你做的每个选择都在定义未来的轨迹。如果今天接了这单,明天就可能接更黑的——通讯录关系链、金融交易流水、政企招标底价。技术没有善恶,但技术执行者有。我的代码仓库里会永远留着这个肮脏的脚本,以后每次git log都会看见那个commit message:“add hospital spider for client X”。
我让财务把预付定金退了回去。对方打电话来骂,说我们装清高,“互联网公司哪个屁股干净?你们爬公开数据就不算侵权?” 我承认他说对了一半。2018年我做微信小程序排名监控时,也是逆向官方接口,伪装成正常用户请求,这游走在灰色地带。但灰色和黑色的区别,在于是否直接伤害具体的人。爬取公开的电商价格做比价插件,用户受益;爬取患者隐私做数据倒卖,链条末端是老人被骗光救命钱。
晚上复盘会,我跟团队摊牌了。我说Flovico这个牌子,我想让它再活十年。不是靠接黑活活着,是靠解决真问题活着。今天少赚三十万,明年可能少赚三百万,但五年后这个牌子还能站在阳光下。有个程序员嘀咕:“可竞品公司肯定会接啊。” 没错,他们会的。这个行业里永远有人为了快钱踩红线,然后某天突然消失,公司被封,负责人进去。我不想某天醒来,听见敲门声是警察。
散会后我独自关了灯。服务器机柜的指示灯在黑暗里幽幽地亮着,像呼吸。那些爬虫还在跑,抓取着公开的天气数据、航班动态、上市公司公告。它们是我写的,它们很安静,它们不会在深夜让我心里发慌。这就够了。底线这东西,往后挪一寸,就是一片沼泽。我宁愿走慢点,踩实了。














