撕掉那张印错的财务报表时,我脑子里就一个念头:这辈子再也不想看这种让人生理性反胃的表格了。核对第三方的服务合同,附件里塞了十七八个Excel,每个表格式都不一样,有的把关键数据藏在合并单元格最底下,有的用颜色标注但色差离谱。以前我得带着团队两个小孩,一人分几个表,用VLOOKUP加肉眼校对,干一整天,最后还得互相复核,因为人眼一定会出错。现在?去他妈的,让AI去干这种脏活。
我用的路子是多模态大模型直接读图。不是OCR转文本再处理那种老古董方法,那对付不了混乱的格式。我把合同PDF和那些Excel截图,直接扔给GPT-4V或者国内一些能读图的模型。关键提示词得这么写:“忽略所有排版、颜色、字体样式,专注于识别表格的逻辑结构。将下列图像中的所有表格,以第一个表头为基准,还原成结构化的Markdown表格,特别注意合并单元格的实际数据归属,以及用‘备注’、‘说明’等列名隐藏的实际条款内容。” 这一步是核心,相当于让AI理解视觉混乱背后的数据骨架。
模型返回Markdown表格只是第一步。真正的自动化在n8n里完成。我建了一个工作流:触发节点是收到新邮件的附件(合同和Excel),自动调用多模态API解析图片,得到结构化数据。然后,我预置了一个“标准合同模板”的数据结构,用JavaScript节点写比对逻辑。这个逻辑不是简单的字符串匹配,而是针对条款类型做的。比如“付款周期”字段,对方表格里可能写“每季度末”,我的标准是“自然季度结束后30日内”,这就需要一点语义理解,我让AI在转换时顺便做个分类,把各种表述映射到标准条款上。最后,差异点会自动高亮生成一个比对报告,扔回我的Notion数据库。
这过程中最深的坑是API的频率限制和成本。多模态调用贵,而且一次处理几十页合同带图表,容易超时。我的土办法是拆分:先用一个轻量模型(比如Claude 3 Haiku)快速扫描文档,识别出哪些页面是纯文本(直接走文本API),哪些是复杂表格和图表(才调用GPT-4V),把成本压下来。另外,表格识别后一定要有“人工抽查”环节,不是不信任AI,而是初期需要校准。我做了个简单的Web界面,把AI提取的表格和原图左右并排显示,我快速扫一眼,有错就点一下纠正,这些纠正数据会回流成一个微调数据集,虽然现在还没正式微调,但数据存着就是燃料。
搞定了这个,周末我儿子学校运动会,我终于能全程在场,而不是一边陪他一边用手机焦虑地回工作消息核对数据。技术存在的意义,不就是把这些毫无创造性、重复恶心人的劳动给蒸发掉吗?以前我教人用Python爬虫、用Pandas清洗数据,觉得那就是效率。现在看,那只是把人力痛苦转移成了编写脚本的痛苦。AI把这层也捅穿了,直接理解你的意图,干掉中间那些繁琐的“翻译”步骤。作为产品经理,我的思维必须从“设计功能流程”跳到“设计意图与结果的直接通路”上。合同核对,我的意图就是“找出和标准版本的差异”,至于中间是读图、解构表格还是语义分析,那是AI的黑箱,我不用关心。我要关心的,是怎么用最低成本、最稳定的管道,把这个意图喂给AI,然后把结果干净地拿出来。这就是2025年的生产力:不是你会多少工具,而是你能多清晰地定义问题,并让AI无缝接管。














