看着鼠标指针自己在屏幕上移动,精准地点击 Excel 的菜单栏,选中数据透视表,然后生成图表,这种感觉比任何科幻电影都来得直接。Claude 3.5 这个“计算机使用”功能,我测了整整一周,从让它自动处理上个月的销售报表,到模拟登录企业邮箱自动回复那些格式固定的询盘邮件。它不只是模拟按键,是真正在“看”屏幕,理解像素布局,然后做出决策。
这意味着什么?意味着我过去五年积累的、赖以吃饭的整套 UI 自动化技术栈,从 Selenium 的 WebDriver 到 PyAutoGUI,从图像识别的 OpenCV 到基于 Windows API 的底层钩子,在一夜之间变成了“古典技艺”。我们以前在干什么?我们在和 DOM 树搏斗,在跟反爬虫的验证码斗智斗勇,在小心翼翼地处理弹窗和异步加载,为一个按钮的 XPath 可能动态变化而写一箩筐的异常处理和重试逻辑。我们管这叫“稳健”。现在 AI 直接视觉理解,它看到的就是用户看到的,按钮换了颜色、位置挪动几个像素,甚至整个界面改版,只要人能操作,它大概率就能操作。这种降维打击,不是效率提升10倍,是直接换了个游戏。
最讽刺的是,我去年还在给客户交付一个基于 RPA 的财务对账流程。团队吭哧吭哧搞了两个月,用 UiPath 搭了上百个活动块,就为了应对网银控件那个奇葩的 ActiveX 和每次升级都可能变动的界面。如果当时有这个,可能两天就调通了。客户不会为你的技术难度付钱,他只关心鼠标能不能自己动起来,报表能不能准时出现在邮箱里。技术人的价值壁垒,有时候脆得像张纸。
但这也不是终点,反而是一个更残酷的起点。AI 接管了“手”和“眼”,那“脑”呢?流程的决策点、异常情况的判断、业务逻辑的真正抽象,这些反而被提到了前所未有的高度。以前我们沉迷于解决“怎么点击”的技术细节,现在这个问题被原子化了,我们被迫要去面对更本质的问题:“为什么要点击这里?如果这里不行,下一步的备选方案是什么?这个流程本身是否合理?” 工具越强大,对使用工具的人的业务理解能力要求就越高。否则,你只是从“写自动化脚本的”变成了“给 AI 下指令的”,价值并没有提升。
我现在的焦虑很具体:那些还在教传统 RPA 和 Selenium 的课程,还有意义吗?我自己的知识结构里,有多少是即将作废的“技艺”,又有多少是能穿透技术变迁的“元能力”?看着鼠标自己动,兴奋之后是一身冷汗。你得跑得比工具进化更快,但方向在哪里?是更深地扎进某个垂直行业,吃透它的业务逻辑,让 AI 成为你的超级执行副驾?还是去研究怎么把这些视觉动作能力封装成更稳定的服务,解决 AI 目前还会犯的“愣神”和误判?这个问题,没有标准答案,只有不断试错。但可以肯定的是,守着旧地图,一定找不到新大陆。














