39岁,我学会了在深夜的冷空气里读懂商业的“周期”,这话听起来像鸡汤,但背后是连续三周凌晨两点对着屏幕,看一张张模糊的报销单被AI吞进去又吐出来的物理过程。客户是家老牌制造厂,仓库里积压了五年、近十万张手写领料单和送货单,财务总监说他们雇了四个实习生手动录入,干了两个月,错了三分之一,人快疯了。我报价的时候手都在抖,不是激动,是恐惧——我知道这坑有多深,但更知道,2023年,不接这种AI硬骨头,我就真被时代扔下车了。
十年前我可能会用OpenCV加Tesseract硬刚,调参数调到天昏地暗,最后得出一个“手写识别就是个玄学”的结论。但现在不行了,GPT-4V的API就摆在那里,它看世界的逻辑和我们不一样。第一轮测试直接崩了。那些单据被手机拍得歪歪扭扭,有反光,有阴影,笔迹潦草得像是医生处方,更致命的是,很多关键信息比如物料编码和数量,就写在印刷表格的横线边上,传统OCR连表格线和字都分不清。我盯着第一批识别结果,血压直接上来了,把“7”识别成“1”,把“KG”识别成“8G”,这误差率比实习生还感人。
没办法,只能拆解流程。先上预处理,用Python的PIL库做透视矫正和光照均衡,但这只能解决“清晰度”问题,解决不了“语义”问题。核心战斗在Prompt工程上。你不能简单扔给GPT-4V说“识别这些字”,你得告诉它这是一个“商业单据”,它的“上下文”是仓库物料流转,关键字段是“日期、单据编号、物料代码、品名、数量、领用人”。我写了一个迭代式的识别链:第一步,让模型描述整个图像的结构,找到所有文本块和表格线;第二步,针对每个疑似数字和字母的区域,进行专项识别,并给出置信度;第三步,也是最关键的,引入“业务规则校验”,比如物料代码有固定前缀,数量一般是数字带单位,让模型对低置信度的识别结果进行逻辑推理修正。这就不是简单的“看图说话”了,这是在用自然语言给AI注入领域知识。
这个过程里,时间是以API调用次数和美元消耗来计量的。每一次优化Prompt,都意味着重新跑一批测试样本,看着账单数字往上跳,心也跟着跳。但当你看到识别率从60%爬到85%,再爬到95%以上时,那种感觉,就像在冷空气里突然摸到了那根“周期”的脉搏——技术的周期。过去要一个团队吭哧吭哧干半年的脏活,现在一个人加一堆代码和API,三周就能打通,而且更准。这不是取代人力,这是对商业成本结构的暴力重构。客户关心的不是我用的是Transformer还是CNN,他们只关心下周一系统能不能跑起来,以及单价能不能再压两毛钱。
凌晨三点,窗外一片漆黑,只有屏幕光和机箱风扇的声音。我保存好最后一批验证脚本,想起2018年为了一个破爬虫绕过网站反爬机制,折腾DOM树和请求头到天亮的日子。那时候焦虑的是技术会不会过期,现在焦虑的是自己重构工作流的速度,能不能赶上AI迭代的速度。手写的字迹依然潦草,但识别它们的逻辑,已经彻底变了。商业的周期裹挟着技术的周期,冷冰冰地碾过每一个自以为是的经验,留下的唯一出路,就是把自己也变成那个不断迭代的模型。














