既然用户不看说明书,我就让 AI 直接看他们的报错视频

用户上传了一个视频,不是截图也不是文字描述,就是手机对着电脑屏幕拍的,晃得厉害,还带着他骂骂咧咧的背景音。他说“这破软件又卡住了,点这个按钮没反应”。以前遇到这种,我得让他截个图、复现步骤、看日志文件,来回扯皮三天。现在不用了,我让 AI 直接看视频。

我把视频流喂给 GPT-4V,配上系统指令:“你是一个软件技术支持专家。分析用户录制的屏幕操作视频,识别软件界面、用户意图、以及可能发生的错误。直接给出排查步骤和解决方案,用最直白的话说,别用术语。” 等了几秒,它返回来了:“用户在使用‘XX数据清洗工具’,版本号在窗口标题栏显示为 V2.1.3。他试图点击‘开始处理’按钮,但按钮呈灰色不可用状态。前置条件未满足:1. 左侧‘源数据文件’区域显示为空白,未导入任何文件。2. 下方‘输出格式’选项未选择。请先导入一个CSV或Excel文件,并在下拉菜单中选择‘JSON格式’,按钮即可激活。” 我把这段复制过去,用户两分钟后就回了一句:“哦,搞定了。” 就这么简单。我瘫在椅子上,感觉过去十年教用户看说明书、写 FAQ、做交互引导的功夫,全白费了。

不是夸张。2016年那会儿,我做第一个微信小程序,为了减少用户咨询,我把帮助文档嵌在角落里,还做了个动态演示 GIF。结果呢?客服消息还是炸了,用户根本不会往下滑去找那个“?”图标。后来我学乖了,用 Axure 做高保真原型,把每一个可点击区域都加上悬浮提示,写得清清楚楚。上线后,数据告诉我,提示信息的点击率不到 0.5%。绝大多数用户的行为模式是:凭感觉乱点 -> 点不通 -> 烦躁 -> 开骂或流失。那时候我焦虑的根源是“信息触达效率”,我总以为是我呈现得不够好、不够显眼、不够智能。我研究 SEO,把关键词塞满;我研究 DOM 树,优化页面加载顺序,让帮助内容优先渲染。全是徒劳。用户和产品之间,隔着一道厚厚的、名为“认知成本”的墙,而我一直在试图把墙修得更漂亮,而不是把它拆了。

2020年带团队做外包项目时,这种无力感到达顶峰。我们给一个传统企业做了套定制 ERP,交付后光是培训就做了三轮,还留了厚厚的操作手册。上线第一个月,我电话被打爆,问题千奇百怪:“王经理,我这个采购单保存不了。”“您看一下页面最下面有没有红色小字报错?”“没有啊,啥都没有。”“您……方便拍个照吗?”然后收到一张模糊的照片,角度刁钻,根本看不清。我只能远程连过去,发现是某个必填字段他用了全角字符,系统校验不通过,但错误提示被浏览器控制台吞了,没显示在前端。为了这种破事,我们养了两个专职客服,成本哗哗的。那时候我就想,要是软件自己能“看见”用户遇到的问题,该多好。但当时的技术,图像识别还停留在识别猫狗,想理解软件界面和业务逻辑?天方夜谭。

所以当多模态大模型出来,尤其是 GPT-4V 的 API 开放后,我几乎是扑上去的。这不再是简单的 OCR 识别文字,它能理解界面元素之间的关系,能推断用户意图,能结合上下文(比如版本号、按钮状态)进行逻辑推理。我做的第一件事,就是封装这个能力。不是做一个聊天机器人让用户去描述问题,而是直接提供一个“上传报错视频”的入口。技术实现上,有几个坑:视频文件通常很大,需要先做压缩和关键帧提取;API 有频率和 token 限制,长视频需要分段处理并维护上下文;最关键的是 prompt 工程,必须极其精确地定义 AI 的角色、分析框架和输出格式,避免它胡扯。我花了整整一周,用 n8n 搭了一套自动化流程:用户上传 -> 自动转码抽帧 -> 调用视觉 API -> 解析结果 -> 结构化输出解决方案 -> 附带可能的相关文档链接。调试的时候,我自己录了上百个各种奇葩角度的“报错”视频去喂它,直到它能在光线昏暗、镜头晃动、用户手指遮挡部分按钮的情况下,依然准确指出问题。

这感觉,就像给软件装上了眼睛和大脑。说明书?FAQ?交互引导?那些都是工业时代的残影,是我们在无法实现“实时、精准、情境化”支持时,不得已而为之的补丁。现在,补丁可以撕掉了。用户不需要学习你的规则,你的规则应该去适配用户最本能、最懒惰的行为——拍个视频,骂一句,然后得到答案。这背后是一种权力的转移:从“产品设计者定义使用路径”到“用户以任意方式闯入,AI 负责实时导航”。

当然,现在这套东西还跑在我的测试服务器上,处理一些老客户的问题。效果惊人,但成本也不低,每一次视频分析都是真金白银的 API 调用费。我在想怎么把它产品化,也许做成一个 SaaS 工具,卖给那些同样被客服成本压得喘不过气的独立开发者或小团队。但更深的感触是,我这个产品经理的职能,正在被我自己搭建的 AI 流程重新定义。我不再需要花大量时间设计“防呆”界面,而是要去设计一个足够聪明的“AI 售后大脑”,去应对所有的“呆”操作。从建造坚固的城墙,转向训练一个无所不在的向导。这十年,从焦虑流量,到焦虑管理,再到焦虑技术换代,最终,焦虑的解决方案似乎不再是让自己变得更全能,而是让工具变得足够“懂”。窗外天快亮了,又一个用户上传了他电脑蓝屏的视频——好吧,这个真得转人工了,AI 暂时还修不了硬件。但谁知道明年呢?

© 版权声明
THE END
喜欢就支持一下吧
点赞33 分享