Claude 3.5 自动操作电脑这件事,我昨晚测到凌晨四点,鼠标在屏幕上被AI控制着移动的时候,我后背发凉。不是害怕,是那种“妈的,我过去五年在Selenium、PyAutoGUI、Playwright上投入的几千个小时,瞬间成了废铁”的寒意。
Anthropic这次更新太狠了。它直接给了Claude一个“电脑”,一个虚拟的显示器和鼠标键盘。你只需要告诉它“打开Chrome,访问我的邮箱,把未读邮件里标题包含‘发票’的附件下载到桌面”,它就开始动了。我看着那个鼠标指针,精准地点击开始菜单,在搜索框里敲“Chrome”,双击图标,然后在地址栏里输入gmail.com——整个过程流畅得像一个真人远程桌面,但速度更快。它甚至知道等页面加载完再点登录按钮,遇到谷歌的安全验证弹窗会停顿一下,然后尝试从历史记录里找登录状态。这根本不是传统的“坐标点击”或“元素定位”,这是视觉理解。它通过“看”屏幕截图来理解当前界面状态,然后决定下一步操作。这意味着所有基于DOM树、XPath、CSS Selector的UI自动化框架,从底层逻辑上被绕过去了。你不再需要关心网页结构有没有改版,按钮的id变了没有,你只需要告诉AI“你要干嘛”。
我让它测试一个更复杂的场景:我们公司内部那个屎山一样的OA系统,请假审批流程。这破系统是十年前的ExtJS写的,动态ID,iframe套娃,我当年为了做自动化打卡,用Playwright写了三百多行代码,还专门维护了一个元素映射表,每次系统偷偷更新一个class名我就得熬夜改脚本。昨晚,我把系统界面截图丢给Claude,提示词就一句:“模仿员工,填写请假申请,选年假,从明天开始请三天,理由写‘家庭事务’,然后提交。” 我看着它操作:鼠标移到“新建申请”按钮上——不是基于代码定位,就是“看到”那个按钮了——点击,然后在弹出的浮层里,它先是“看”清了有哪些输入框,鼠标依次移动到日期选择器、下拉菜单、文本框上,点击,输入。下拉菜单它点开后会等选项加载出来,再“看”到“年假”这个选项,点击选择。整个过程没有任何一行代码去描述界面结构,全靠视觉和上下文理解。最恐怖的是,它甚至处理了一个意外:点提交时弹了个Toast提示“审批人王经理已离职,请重新选择”。Claude停住了,然后它把鼠标移到了审批人选择框,点开,在长长的列表里滚动,最后选中了另一个名字。这个“理解错误提示-自行修正”的链条,在传统自动化里需要写异常处理逻辑,预设各种if-else分支,而AI是实时“思考”完成的。
这宣告了传统UI自动化的死刑吗?短期内还不是彻底死亡,但棺材板已经钉上一大半了。传统自动化(RPA、脚本)的优势在于稳定、可预测、执行速度快,适合大批量、高并发的标准化任务。比如一夜之间处理十万张票据,用Python脚本就是比AI快且成本低。但这个世界有多少任务是绝对标准、永不变化的?绝大多数企业流程充满了例外、弹窗、系统升级和界面改动。维护这些自动化脚本的成本高得吓人,本质上是在和变化搏斗。AI驱动的自动化,核心优势是“柔性”和“理解”。它不怕改版,不怕弹窗,甚至能处理一些简单的模糊指令。它的成本从“开发维护成本”转移到了“大模型API调用成本”上。对于大量长尾的、非标的、需要一点人类判断的桌面操作任务,AI自动化是降维打击。
我焦虑的点就在这里。2023年我all in大模型,学Prompt Engineering,学LangChain,以为抓住了新时代的船票。但现在看来,那只是软件层的变革。Anthropic这次直接把AI从“对话大脑”变成了“可操作的手眼”,进入了物理交互层。我们这些产品经理、自动化工程师的护城河,从“懂得业务逻辑并能将其翻译成代码”变成了“懂得如何用自然语言指挥一个AI工人”。技能栈又要地震了。接下来要深挖的不是怎么写更漂亮的Selenium脚本,而是怎么设计提示词能让AI更可靠地操作特定软件,怎么设计验证环节防止AI点错按钮删了数据库,怎么把AI自动化流程封装成普通员工也能用的傻瓜工具。竞争维度完全变了。
测完那个OA系统,我让Claude打开我的音乐播放器,播了首《加州旅馆》。看着鼠标自己找到Spotify图标,点击,搜索,播放。我坐在黑暗里,感觉就像2016年第一次看到微信小程序干掉原生App生态一样。又一个时代,啪,没了。只是这次,我成了那个可能被干掉的人。得赶紧给n8n加上Claude API节点,研究怎么把这种视觉自动化能力做成工作流,这可能是下个月吃饭的家伙。














