美团市值破万亿港元：生活服务的数字化闭环完成了-Flovico-AI商业实战教练

美团市值破万亿港元了。这数字砸过来的时候，我正在办公室对着满桌子的纸质送货单、验收单、入库单发愁。团队里两个小孩刚因为录单子录到眼瞎跟我提离职，说宁愿去送外卖。你看，万亿市值的光鲜背后，是我们这些做脏活累活的人，在用手动的方式给所谓的“数字化闭环”打补丁。

客户是个连锁餐饮的供应商，每天几百张手写单据要录入系统。之前外包给大学生做，错漏率能到15%，对不上账，财务那边天天骂娘。我接了这个烂摊子，报价的时候心里也没底，只知道再不用技术手段，我这小团队就得被这些纸给埋了。

一开始想得太简单，以为调个Tesseract就能搞定。结果现实毒打来得飞快。手写体，潦草；纸张五花八门，有的沾了油渍，有的折了角；扫描件还是手机拍的，光线角度千奇百怪。直接用开源模型，识别率惨不忍睹，跟瞎猜差不多。那几天压力大到爆，团队等着你出方案，客户催着要结果，账上的钱只够再烧两个月。晚上根本睡不着，爬起来翻PaddleOCR的文档，看GitHub上的issue，感觉又回到了几年前死磕爬虫的时候，那种被问题逼到墙角的感觉，一模一样。

逼到绝路，只能自己下场调。核心就三块：图像预处理、模型微调、后处理规则。预处理这块，光是去噪和矫正就试了不下十种组合。OpenCV的灰度化、二值化、高斯滤波轮着上，发现对于低光照的手机照片，用CLAHE做对比度受限的自适应直方图均衡，效果比简单二值化好得多。倾斜矫正更麻烦，用了霍夫变换找直线，计算倾斜角再旋转，但有些照片拍得跟抽象画似的，主线都找不到，后来加了个判断，如果霍夫变换失败，就改用最小外接矩形来估角度，虽然慢点，但好歹能跑通。

模型微调才是重头戏。PaddleOCR的预训练模型对印刷体还行，对手写体就是灾难。自己标数据吧，没那个时间和人手。走野路子，用客户历史正确数据里提取的文字，去生成近似字体和笔触的合成图像，混合一些真实的脏污样本，拼凑了一个小训练集。在PP-OCRv2的detection和recognition模型上都做了fine-tune。这里有个坑，一开始只调了识别模型，发现检测框不准的问题没解决，漏检错检一堆，又回头去补检测模型的训练。GPU服务器租着，每小时都是钱，看着训练loss曲线波动，心都在滴血。

后处理是最后一道防线。规则引擎写得巨细无比。比如日期字段，识别出来可能是“2020.5.18”、“2020/05/18”或者“二〇二〇年五月十八日”，得统一转成标准格式。金额字段要匹配大写“壹贰叁”和小写“123”，还得能处理“捌仟伍佰元整”这种复杂情况。用正则表达式写到吐，但没办法，业务逻辑的脏，必须用代码的细来磨。还加了个简单的语言模型纠错，比如“鸡胸肉”识别成“鸡匈肉”，能根据上下文菜品名录自动修正。

这套东西跑起来，初期识别率从50%多拉到了85%左右，剩下的难啃骨头，做了个标注界面让人工复核，系统会学习纠正后的结果。人力成本从原来的三个人全职录，降到了一个人每天抽一小时复核异常数据。账算过来了，团队也暂时稳住了。

但这过程里一点成就感都没有，只有疲惫。看着美团万亿的新闻，感觉特别分裂。巨头们在云端构建完美闭环，讲着平台、生态、赋能的故事，估值飞天。而我们这些下游的服务商，在泥泞地里，用开源工具、野路子训练集、和无数个不眠之夜，一钉一铆地敲打出一个勉强能用的自动化流程，只为活下去。所谓的数字化，对上面是光环和估值，对下面是具体的油渍单据、模糊照片、和写不完的正则表达式。闭环？我这环还没扣上呢，只是暂时没断而已。

文章版权归作者所有，未经允许请勿转载。

THE END

AI实践