百度发布疫情地图:大数据在公共卫生里的边界在哪?

百度这个疫情地图一上线我就开始爬了。不是出于什么社会责任感,是纯粹的职业病,看到这种实时更新的数据源手就痒,想看看他们API怎么设计的,数据更新频率多少,能不能搞个本地镜像。

爬虫脚本写到凌晨两点,卡在了一个动态加载的DOM节点上。用Selenium模拟滚动才把那个该死的市级数据表格拖出来。数据是拿到了,但浏览器实例占了1.2G内存,这效率做不了长期监控。团队里新来的小孩问我:“老大,我们接不接疫情相关的数据项目?有客户问。”我盯着屏幕上的确诊数字曲线,脑子里算的是另一笔账:服务器成本、法律风险、团队人力,还有甲方那永远填不满的需求变更。去年为了冲流水接了几个政府外包的边角料,光是等他们的法务过合同就耗了两个月,尾款现在还没结清。我说不接,先把手里那个电商爬虫的分布式架构调优了再说。小孩有点失望,他觉得这是“做点有意义的事”的机会。

有意义?我算看明白了。巨头们做这个,是品牌形象,是社会责任,也是数据练兵。普通开发者碰这个,是雷区。你仔细看百度那个地图,细节控得死死的:只到市级,不显示小区或更具体的点位;数据源标注“各地卫健委公布”;更新时间有延迟。这就是边界。他们太知道哪里会炸了。我去年给一个连锁药店做门店人流热力图,差点把几个便衣警察的巡逻规律给爬出来,甲方吓得连夜让我清数据。从那以后,所有涉及地理坐标和人的单子,我合同里一定加一条:“数据采集范围及用途需严格遵守甲方提供的合规清单,超出部分产生的一切法律风险由甲方承担。” 钱少赚点,但能睡个安稳觉。

现在团队六个人,每天一睁眼就是工资、社保、办公室租金。自由?创业的时候以为自由是没人管,现在发现自由是“你不用求人”。为了发工资,你就是在求客户、求员工、求市场。疫情一来,两个外地员工回不来,远程协作效率打对折。我一边在钉钉群里安抚客户说项目进度正常,一边在本地调试那个该死的IP代理池,因为之前用的廉价代理IP被大面积屏蔽了——我怀疑很多机房都在武汉。这种时候,你跟我谈大数据的社会价值?我满脑子都是这个月的现金流能不能撑过去,以及怎么让团队这两个小孩在家也能高效干活,别荒废了。

百度地图背后是成千上万的服务器、专业的法务团队、和政府的沟通渠道。我们这种小团队有什么?有几台阿里云ECS,一堆自己写的爬虫框架,还有对“技术能改变点什么”残存的一点幼稚幻想。改变什么呢?连按时发工资都压力山大。昨天把爬下来的疫情数据做了个简单的时序分析,画了个增长曲线,和官方公布的走势基本一致。然后我就把数据全删了。不是怕,是累。你知道最讽刺的是什么吗?最有价值的数据,往往是最不能碰的数据。这个道理,2016年我刚入行时就该明白,但人总是赚不到认知以外的钱,也避不开认知以外的坑。

© 版权声明
THE END
喜欢就支持一下吧
点赞71 分享