美团市值破万亿港元:生活服务的数字化闭环完成了

美团市值破万亿港元了。这数字砸过来的时候,我正在办公室对着满桌子的纸质送货单、验收单、入库单发愁。团队里两个小孩刚因为录单子录到眼瞎跟我提离职,说宁愿去送外卖。你看,万亿市值的光鲜背后,是我们这些做脏活累活的人,在用手动的方式给所谓的“数字化闭环”打补丁。

客户是个连锁餐饮的供应商,每天几百张手写单据要录入系统。之前外包给大学生做,错漏率能到15%,对不上账,财务那边天天骂娘。我接了这个烂摊子,报价的时候心里也没底,只知道再不用技术手段,我这小团队就得被这些纸给埋了。

一开始想得太简单,以为调个Tesseract就能搞定。结果现实毒打来得飞快。手写体,潦草;纸张五花八门,有的沾了油渍,有的折了角;扫描件还是手机拍的,光线角度千奇百怪。直接用开源模型,识别率惨不忍睹,跟瞎猜差不多。那几天压力大到爆,团队等着你出方案,客户催着要结果,账上的钱只够再烧两个月。晚上根本睡不着,爬起来翻PaddleOCR的文档,看GitHub上的issue,感觉又回到了几年前死磕爬虫的时候,那种被问题逼到墙角的感觉,一模一样。

逼到绝路,只能自己下场调。核心就三块:图像预处理、模型微调、后处理规则。预处理这块,光是去噪和矫正就试了不下十种组合。OpenCV的灰度化、二值化、高斯滤波轮着上,发现对于低光照的手机照片,用CLAHE做对比度受限的自适应直方图均衡,效果比简单二值化好得多。倾斜矫正更麻烦,用了霍夫变换找直线,计算倾斜角再旋转,但有些照片拍得跟抽象画似的,主线都找不到,后来加了个判断,如果霍夫变换失败,就改用最小外接矩形来估角度,虽然慢点,但好歹能跑通。

模型微调才是重头戏。PaddleOCR的预训练模型对印刷体还行,对手写体就是灾难。自己标数据吧,没那个时间和人手。走野路子,用客户历史正确数据里提取的文字,去生成近似字体和笔触的合成图像,混合一些真实的脏污样本,拼凑了一个小训练集。在PP-OCRv2的detection和recognition模型上都做了fine-tune。这里有个坑,一开始只调了识别模型,发现检测框不准的问题没解决,漏检错检一堆,又回头去补检测模型的训练。GPU服务器租着,每小时都是钱,看着训练loss曲线波动,心都在滴血。

后处理是最后一道防线。规则引擎写得巨细无比。比如日期字段,识别出来可能是“2020.5.18”、“2020/05/18”或者“二〇二〇年五月十八日”,得统一转成标准格式。金额字段要匹配大写“壹贰叁”和小写“123”,还得能处理“捌仟伍佰元整”这种复杂情况。用正则表达式写到吐,但没办法,业务逻辑的脏,必须用代码的细来磨。还加了个简单的语言模型纠错,比如“鸡胸肉”识别成“鸡匈肉”,能根据上下文菜品名录自动修正。

这套东西跑起来,初期识别率从50%多拉到了85%左右,剩下的难啃骨头,做了个标注界面让人工复核,系统会学习纠正后的结果。人力成本从原来的三个人全职录,降到了一个人每天抽一小时复核异常数据。账算过来了,团队也暂时稳住了。

但这过程里一点成就感都没有,只有疲惫。看着美团万亿的新闻,感觉特别分裂。巨头们在云端构建完美闭环,讲着平台、生态、赋能的故事,估值飞天。而我们这些下游的服务商,在泥泞地里,用开源工具、野路子训练集、和无数个不眠之夜,一钉一铆地敲打出一个勉强能用的自动化流程,只为活下去。所谓的数字化,对上面是光环和估值,对下面是具体的油渍单据、模糊照片、和写不完的正则表达式。闭环?我这环还没扣上呢,只是暂时没断而已。

© 版权声明
THE END
喜欢就支持一下吧
点赞81 分享