不想看让人作呕的 Excel，我就用多模态 AI 实现了自动核对复杂合同-Flovico-AI商业实战教练

撕掉那张印错的财务报表时，我脑子里就一个念头：这辈子再也不想看这种让人生理性反胃的表格了。核对第三方的服务合同，附件里塞了十七八个Excel，每个表格式都不一样，有的把关键数据藏在合并单元格最底下，有的用颜色标注但色差离谱。以前我得带着团队两个小孩，一人分几个表，用VLOOKUP加肉眼校对，干一整天，最后还得互相复核，因为人眼一定会出错。现在？去他妈的，让AI去干这种脏活。

我用的路子是多模态大模型直接读图。不是OCR转文本再处理那种老古董方法，那对付不了混乱的格式。我把合同PDF和那些Excel截图，直接扔给GPT-4V或者国内一些能读图的模型。关键提示词得这么写：“忽略所有排版、颜色、字体样式，专注于识别表格的逻辑结构。将下列图像中的所有表格，以第一个表头为基准，还原成结构化的Markdown表格，特别注意合并单元格的实际数据归属，以及用‘备注’、‘说明’等列名隐藏的实际条款内容。” 这一步是核心，相当于让AI理解视觉混乱背后的数据骨架。

模型返回Markdown表格只是第一步。真正的自动化在n8n里完成。我建了一个工作流：触发节点是收到新邮件的附件（合同和Excel），自动调用多模态API解析图片，得到结构化数据。然后，我预置了一个“标准合同模板”的数据结构，用JavaScript节点写比对逻辑。这个逻辑不是简单的字符串匹配，而是针对条款类型做的。比如“付款周期”字段，对方表格里可能写“每季度末”，我的标准是“自然季度结束后30日内”，这就需要一点语义理解，我让AI在转换时顺便做个分类，把各种表述映射到标准条款上。最后，差异点会自动高亮生成一个比对报告，扔回我的Notion数据库。

这过程中最深的坑是API的频率限制和成本。多模态调用贵，而且一次处理几十页合同带图表，容易超时。我的土办法是拆分：先用一个轻量模型（比如Claude 3 Haiku）快速扫描文档，识别出哪些页面是纯文本（直接走文本API），哪些是复杂表格和图表（才调用GPT-4V），把成本压下来。另外，表格识别后一定要有“人工抽查”环节，不是不信任AI，而是初期需要校准。我做了个简单的Web界面，把AI提取的表格和原图左右并排显示，我快速扫一眼，有错就点一下纠正，这些纠正数据会回流成一个微调数据集，虽然现在还没正式微调，但数据存着就是燃料。

搞定了这个，周末我儿子学校运动会，我终于能全程在场，而不是一边陪他一边用手机焦虑地回工作消息核对数据。技术存在的意义，不就是把这些毫无创造性、重复恶心人的劳动给蒸发掉吗？以前我教人用Python爬虫、用Pandas清洗数据，觉得那就是效率。现在看，那只是把人力痛苦转移成了编写脚本的痛苦。AI把这层也捅穿了，直接理解你的意图，干掉中间那些繁琐的“翻译”步骤。作为产品经理，我的思维必须从“设计功能流程”跳到“设计意图与结果的直接通路”上。合同核对，我的意图就是“找出和标准版本的差异”，至于中间是读图、解构表格还是语义分析，那是AI的黑箱，我不用关心。我要关心的，是怎么用最低成本、最稳定的管道，把这个意图喂给AI，然后把结果干净地拿出来。这就是2025年的生产力：不是你会多少工具，而是你能多清晰地定义问题，并让AI无缝接管。

文章版权归作者所有，未经允许请勿转载。

THE END

AI实践