数据的“干净度”：我为什么开始重视单元测试（自主对账版）-Flovico-AI商业实战教练

Rembg Pro 的 API 今天凌晨又挂了一次，不是服务本身，是我自己封装的那个调度器。客户发来一张带复杂背景的婚纱照，边缘发丝处理得一塌糊涂，参数调了三次，返回的 PNG 透明通道里还是掺着肉眼难辨的灰色像素点。问题不在模型，在我这层“脏数据”管道。

2019年那会儿做外包，根本不管这个。甲方要个微信小程序商城，Axure 画个高保真，后端 PHP 一把梭，数据能跑通、页面不崩就行。验收？甲方自己点两下，没大 bug 就付尾款。那时候的“干净”指的是界面没错别字。现在呢，AI 交付是另一回事。你喂给 Rembg 一张图，它吐回一张抠图；你喂给它一万张，它可能因为某一张的 EXIF 信息异常，把整个批处理队列卡死。这种脏不是“错误”，是“不可预测的扰动”。深度学习模型本身是个黑盒，你唯一能控制的，就是进去的东西和出来的东西。如果连这个管道都锈迹斑斑，那所谓的“发丝级优化”就是个笑话。

我开始搞“自主对账”。这词儿听着高大上，其实土得掉渣。就是每处理一张图，我的脚本会同时干三件事：调用 Rembg Pro 最新版 API（他们上个月刚更新了针对薄纱和透明物体的识别层）；用老版本的本地模型再跑一次作为基准；最后用 OpenCV 简单算一下两个结果图像的像素级差异，把差异超过阈值（比如 5%）的样本，连同原始输入、所有参数、时间戳，打包扔进一个隔离文件夹。这文件夹就是我的人间地狱，里面全是“不确定”的脏数据。

昨天这个地狱里多了 47 个样本。我一个个拆开看。发现其中 38 张，问题都出在输入图片的预处理环节。客户图省事，手机拍了直接传，有些是 HEIC 格式，我的脚本里用 PIL 库转 RGB 时，色彩配置文件没剥离干净，导致颜色空间有细微偏移。就这点偏移，在普通人眼里没区别，但到了模型里，特别是识别发丝和半透明边缘时，那点颜色信息错位会被放大，导致分割蒙版多“吃”进去几个像素。另外 9 张更邪门，是网络问题导致 API 返回的数据包不完整，图片文件是损坏的，但损坏得“很文明”，还能用图片浏览器打开，只是矩阵数据缺了一块。

这就是单元测试，只不过我把它做在了生产环节的每时每刻。不是开发完再测，而是一边跑一边自己测自己。代价是什么？是处理速度。原来一秒能处理十张图，现在加上对账逻辑，最多三张。团队时期谁敢提这个方案，项目经理能跟你拼命，要的是 KPI，是吞吐量。但现在我是超级个体，我的 KPI 是“别在半夜被客户的紧急电话吵醒，因为一张抠坏了的图导致尾款纠纷”。速度慢了，我可以加机器，可以优化对账算法本身（比如用多线程并行跑基准模型），但信任崩了，修复成本是无限的。

搞 AI 交付，特别是这种精度敏感型的，你卖的不是功能，是“确定性”。客户愿意为“发丝级”这个词付溢价，背后隐含的契约是：你必须处理得跟宣传一样好，每一次都是。单元测试（或者说我的对账机制）就是这份契约的质检章。它不是保证 100% 完美，而是保证 100% 知道哪里不完美，并且能立刻隔离、复盘、打补丁。

Rembg 的模型迭代再快，对我而言也只是个更锋利的刀。刀再快，切菜板是脏的，沾着上周的肉末，你这盘菜还是没法上桌。2024 年了，我的焦虑从“会不会用这把刀”，变成了“怎么打造一个无菌厨房”。数据流的干净度，就是新时代的 SEO，是藏在代码里的流量密码。只不过这次，流量是客户的长期信任和转介绍。这比任何关键词排名都实在。

文章版权归作者所有，未经允许请勿转载。

THE END

AI实践