Claude 3.5 自动操作电脑：“UI 自动化”被宣告死刑了吗？-Flovico-AI商业实战教练

Claude 3.5 自动操作电脑这件事，我昨晚测到凌晨四点，鼠标在屏幕上被AI控制着移动的时候，我后背发凉。不是害怕，是那种“妈的，我过去五年在Selenium、PyAutoGUI、Playwright上投入的几千个小时，瞬间成了废铁”的寒意。

Anthropic这次更新太狠了。它直接给了Claude一个“电脑”，一个虚拟的显示器和鼠标键盘。你只需要告诉它“打开Chrome，访问我的邮箱，把未读邮件里标题包含‘发票’的附件下载到桌面”，它就开始动了。我看着那个鼠标指针，精准地点击开始菜单，在搜索框里敲“Chrome”，双击图标，然后在地址栏里输入gmail.com——整个过程流畅得像一个真人远程桌面，但速度更快。它甚至知道等页面加载完再点登录按钮，遇到谷歌的安全验证弹窗会停顿一下，然后尝试从历史记录里找登录状态。这根本不是传统的“坐标点击”或“元素定位”，这是视觉理解。它通过“看”屏幕截图来理解当前界面状态，然后决定下一步操作。这意味着所有基于DOM树、XPath、CSS Selector的UI自动化框架，从底层逻辑上被绕过去了。你不再需要关心网页结构有没有改版，按钮的id变了没有，你只需要告诉AI“你要干嘛”。

我让它测试一个更复杂的场景：我们公司内部那个屎山一样的OA系统，请假审批流程。这破系统是十年前的ExtJS写的，动态ID，iframe套娃，我当年为了做自动化打卡，用Playwright写了三百多行代码，还专门维护了一个元素映射表，每次系统偷偷更新一个class名我就得熬夜改脚本。昨晚，我把系统界面截图丢给Claude，提示词就一句：“模仿员工，填写请假申请，选年假，从明天开始请三天，理由写‘家庭事务’，然后提交。” 我看着它操作：鼠标移到“新建申请”按钮上——不是基于代码定位，就是“看到”那个按钮了——点击，然后在弹出的浮层里，它先是“看”清了有哪些输入框，鼠标依次移动到日期选择器、下拉菜单、文本框上，点击，输入。下拉菜单它点开后会等选项加载出来，再“看”到“年假”这个选项，点击选择。整个过程没有任何一行代码去描述界面结构，全靠视觉和上下文理解。最恐怖的是，它甚至处理了一个意外：点提交时弹了个Toast提示“审批人王经理已离职，请重新选择”。Claude停住了，然后它把鼠标移到了审批人选择框，点开，在长长的列表里滚动，最后选中了另一个名字。这个“理解错误提示-自行修正”的链条，在传统自动化里需要写异常处理逻辑，预设各种if-else分支，而AI是实时“思考”完成的。

这宣告了传统UI自动化的死刑吗？短期内还不是彻底死亡，但棺材板已经钉上一大半了。传统自动化（RPA、脚本）的优势在于稳定、可预测、执行速度快，适合大批量、高并发的标准化任务。比如一夜之间处理十万张票据，用Python脚本就是比AI快且成本低。但这个世界有多少任务是绝对标准、永不变化的？绝大多数企业流程充满了例外、弹窗、系统升级和界面改动。维护这些自动化脚本的成本高得吓人，本质上是在和变化搏斗。AI驱动的自动化，核心优势是“柔性”和“理解”。它不怕改版，不怕弹窗，甚至能处理一些简单的模糊指令。它的成本从“开发维护成本”转移到了“大模型API调用成本”上。对于大量长尾的、非标的、需要一点人类判断的桌面操作任务，AI自动化是降维打击。

我焦虑的点就在这里。2023年我all in大模型，学Prompt Engineering，学LangChain，以为抓住了新时代的船票。但现在看来，那只是软件层的变革。Anthropic这次直接把AI从“对话大脑”变成了“可操作的手眼”，进入了物理交互层。我们这些产品经理、自动化工程师的护城河，从“懂得业务逻辑并能将其翻译成代码”变成了“懂得如何用自然语言指挥一个AI工人”。技能栈又要地震了。接下来要深挖的不是怎么写更漂亮的Selenium脚本，而是怎么设计提示词能让AI更可靠地操作特定软件，怎么设计验证环节防止AI点错按钮删了数据库，怎么把AI自动化流程封装成普通员工也能用的傻瓜工具。竞争维度完全变了。

测完那个OA系统，我让Claude打开我的音乐播放器，播了首《加州旅馆》。看着鼠标自己找到Spotify图标，点击，搜索，播放。我坐在黑暗里，感觉就像2016年第一次看到微信小程序干掉原生App生态一样。又一个时代，啪，没了。只是这次，我成了那个可能被干掉的人。得赶紧给n8n加上Claude API节点，研究怎么把这种视觉自动化能力做成工作流，这可能是下个月吃饭的家伙。

文章版权归作者所有，未经允许请勿转载。

THE END

AI实践