既然用户不看说明书，我就让 AI 直接看他们的报错视频-Flovico-AI商业实战教练

用户上传了一个视频，不是截图也不是文字描述，就是手机对着电脑屏幕拍的，晃得厉害，还带着他骂骂咧咧的背景音。他说“这破软件又卡住了，点这个按钮没反应”。以前遇到这种，我得让他截个图、复现步骤、看日志文件，来回扯皮三天。现在不用了，我让 AI 直接看视频。

我把视频流喂给 GPT-4V，配上系统指令：“你是一个软件技术支持专家。分析用户录制的屏幕操作视频，识别软件界面、用户意图、以及可能发生的错误。直接给出排查步骤和解决方案，用最直白的话说，别用术语。” 等了几秒，它返回来了：“用户在使用‘XX数据清洗工具’，版本号在窗口标题栏显示为 V2.1.3。他试图点击‘开始处理’按钮，但按钮呈灰色不可用状态。前置条件未满足：1. 左侧‘源数据文件’区域显示为空白，未导入任何文件。2. 下方‘输出格式’选项未选择。请先导入一个CSV或Excel文件，并在下拉菜单中选择‘JSON格式’，按钮即可激活。” 我把这段复制过去，用户两分钟后就回了一句：“哦，搞定了。” 就这么简单。我瘫在椅子上，感觉过去十年教用户看说明书、写 FAQ、做交互引导的功夫，全白费了。

不是夸张。2016年那会儿，我做第一个微信小程序，为了减少用户咨询，我把帮助文档嵌在角落里，还做了个动态演示 GIF。结果呢？客服消息还是炸了，用户根本不会往下滑去找那个“？”图标。后来我学乖了，用 Axure 做高保真原型，把每一个可点击区域都加上悬浮提示，写得清清楚楚。上线后，数据告诉我，提示信息的点击率不到 0.5%。绝大多数用户的行为模式是：凭感觉乱点 -> 点不通 -> 烦躁 -> 开骂或流失。那时候我焦虑的根源是“信息触达效率”，我总以为是我呈现得不够好、不够显眼、不够智能。我研究 SEO，把关键词塞满；我研究 DOM 树，优化页面加载顺序，让帮助内容优先渲染。全是徒劳。用户和产品之间，隔着一道厚厚的、名为“认知成本”的墙，而我一直在试图把墙修得更漂亮，而不是把它拆了。

2020年带团队做外包项目时，这种无力感到达顶峰。我们给一个传统企业做了套定制 ERP，交付后光是培训就做了三轮，还留了厚厚的操作手册。上线第一个月，我电话被打爆，问题千奇百怪：“王经理，我这个采购单保存不了。”“您看一下页面最下面有没有红色小字报错？”“没有啊，啥都没有。”“您……方便拍个照吗？”然后收到一张模糊的照片，角度刁钻，根本看不清。我只能远程连过去，发现是某个必填字段他用了全角字符，系统校验不通过，但错误提示被浏览器控制台吞了，没显示在前端。为了这种破事，我们养了两个专职客服，成本哗哗的。那时候我就想，要是软件自己能“看见”用户遇到的问题，该多好。但当时的技术，图像识别还停留在识别猫狗，想理解软件界面和业务逻辑？天方夜谭。

所以当多模态大模型出来，尤其是 GPT-4V 的 API 开放后，我几乎是扑上去的。这不再是简单的 OCR 识别文字，它能理解界面元素之间的关系，能推断用户意图，能结合上下文（比如版本号、按钮状态）进行逻辑推理。我做的第一件事，就是封装这个能力。不是做一个聊天机器人让用户去描述问题，而是直接提供一个“上传报错视频”的入口。技术实现上，有几个坑：视频文件通常很大，需要先做压缩和关键帧提取；API 有频率和 token 限制，长视频需要分段处理并维护上下文；最关键的是 prompt 工程，必须极其精确地定义 AI 的角色、分析框架和输出格式，避免它胡扯。我花了整整一周，用 n8n 搭了一套自动化流程：用户上传 -> 自动转码抽帧 -> 调用视觉 API -> 解析结果 -> 结构化输出解决方案 -> 附带可能的相关文档链接。调试的时候，我自己录了上百个各种奇葩角度的“报错”视频去喂它，直到它能在光线昏暗、镜头晃动、用户手指遮挡部分按钮的情况下，依然准确指出问题。

这感觉，就像给软件装上了眼睛和大脑。说明书？FAQ？交互引导？那些都是工业时代的残影，是我们在无法实现“实时、精准、情境化”支持时，不得已而为之的补丁。现在，补丁可以撕掉了。用户不需要学习你的规则，你的规则应该去适配用户最本能、最懒惰的行为——拍个视频，骂一句，然后得到答案。这背后是一种权力的转移：从“产品设计者定义使用路径”到“用户以任意方式闯入，AI 负责实时导航”。

当然，现在这套东西还跑在我的测试服务器上，处理一些老客户的问题。效果惊人，但成本也不低，每一次视频分析都是真金白银的 API 调用费。我在想怎么把它产品化，也许做成一个 SaaS 工具，卖给那些同样被客服成本压得喘不过气的独立开发者或小团队。但更深的感触是，我这个产品经理的职能，正在被我自己搭建的 AI 流程重新定义。我不再需要花大量时间设计“防呆”界面，而是要去设计一个足够聪明的“AI 售后大脑”，去应对所有的“呆”操作。从建造坚固的城墙，转向训练一个无所不在的向导。这十年，从焦虑流量，到焦虑管理，再到焦虑技术换代，最终，焦虑的解决方案似乎不再是让自己变得更全能，而是让工具变得足够“懂”。窗外天快亮了，又一个用户上传了他电脑蓝屏的视频——好吧，这个真得转人工了，AI 暂时还修不了硬件。但谁知道明年呢？

文章版权归作者所有，未经允许请勿转载。

THE END

AI实践