既然手工录入太慢,我就用多模态 Agent 重构了“智能文档中心”

既然手工录入太慢,我就用多模态 Agent 重构了“智能文档中心”。去年这时候我还在为团队那堆破事焦头烂额,光是整理上个月的财务流水和客户合同就能耗掉我两个通宵,颈椎和腰椎一起抗议。现在?我只需要把手机拍的发票、PDF格式的银行对账单、还有体检报告那些乱七八糟的表格,一股脑儿扔进一个叫“DocHub”的文件夹,半小时后,所有数据都规规矩矩躺在 Notion 数据库里,连图表都给我画好了。

这玩意儿背后是一套我自己搭的“多模态流水线”。核心就三块:一个视觉解析引擎,一个逻辑判断中枢,一个执行机器人。视觉部分我试了 CLIP 和 BLIP,最后还是用 OpenAI 的 GPT-4V API 搭了个桥,让它看图说话,把发票上的金额、日期、商户名称给抠出来。难点在于它有时候会把税务识别号和电话号码搞混,或者把背景花纹里的阴影误读成数字。我不得不写了一大堆后处理规则,比如用正则表达式二次校验金额格式,或者当识别出的“日期”不符合“YYYY-MM-DD”时,触发人工复核标记。这过程就像教一个特别聪明但有点粗心的实习生,你得把边界条件一条条掰碎了喂给它。

逻辑中枢是个 Python 脚本,它拿到解析后的文本,得判断这玩意儿是什么。是餐饮发票就归到“业务招待”,是软件订阅费就打到“SaaS 工具”类目下,如果是体检报告里的“低密度脂蛋白”指标,那就得和去年的数据对比,算出变化趋势。这里我用了 LangChain 来搞分类和路由,但说实话,它的 Prompt 设计比我想象的麻烦。你不能光说“请分类”,你得给它上下文模板:“这是一份文档,可能包含以下元素:A. 财务数据 B. 健康指标 C. 合同条款……请根据主要元素归类。” 还得防止它过度推理,把一份普通的咖啡小票硬是分析成“可能的商务洽谈成本”。

执行端我用了 n8n。这是今年才彻底玩转的利器。它就是个图形化的“胶水”,把前面两个环节的输出,变成对 Notion API、Google Sheets API 的实际操作。比如,当逻辑中枢判定为“6月财务支出”,n8n 的工作流就会自动在 Notion 的“2023月度财报”数据库里创建一条新记录,把金额、类别、票据图片链接全填进去,然后根据类别标签,触发另一个工作流去更新对应的预算剩余额度图表。最爽的是,它还能在数据录入完成后,给我飞书发条消息:“老大,6月餐饮超标15%,主要来自‘XX海鲜酒楼’,建议留意。” 这种闭环反馈,是以前纯手工时代根本不敢想的。

去年我深陷交付泥潭的时候,总觉得效率瓶颈在于人不够、管理不行。现在回头看,那都是表面。真正的瓶颈是把人当 OCR 扫描仪和 Excel 函数在用。GPT-4V 这类多模态模型的出现,直接把我过去赖以生存的“信息搬运工”技能给降维打击了。我现在焦虑的不再是“怎么更快地录入”,而是“怎么设计更鲁棒的流程,让 AI 别犯低级错误”,以及“当 90% 的机械劳动被自动化后,我那剩下的 10% 核心判断力到底是什么”。这种焦虑,比过去那种体力透支的累,更尖锐,但也更有劲。至少,我的腰椎现在好多了。

© 版权声明
THE END
喜欢就支持一下吧
点赞44 分享