既然 AI 能自动操控鼠标了，传统意义上的“UI 自动化”就已经死了-Flovico-AI商业实战教练

看着鼠标指针自己在屏幕上移动，精准地点击 Excel 的菜单栏，选中数据透视表，然后生成图表，这种感觉比任何科幻电影都来得直接。Claude 3.5 这个“计算机使用”功能，我测了整整一周，从让它自动处理上个月的销售报表，到模拟登录企业邮箱自动回复那些格式固定的询盘邮件。它不只是模拟按键，是真正在“看”屏幕，理解像素布局，然后做出决策。

这意味着什么？意味着我过去五年积累的、赖以吃饭的整套 UI 自动化技术栈，从 Selenium 的 WebDriver 到 PyAutoGUI，从图像识别的 OpenCV 到基于 Windows API 的底层钩子，在一夜之间变成了“古典技艺”。我们以前在干什么？我们在和 DOM 树搏斗，在跟反爬虫的验证码斗智斗勇，在小心翼翼地处理弹窗和异步加载，为一个按钮的 XPath 可能动态变化而写一箩筐的异常处理和重试逻辑。我们管这叫“稳健”。现在 AI 直接视觉理解，它看到的就是用户看到的，按钮换了颜色、位置挪动几个像素，甚至整个界面改版，只要人能操作，它大概率就能操作。这种降维打击，不是效率提升10倍，是直接换了个游戏。

最讽刺的是，我去年还在给客户交付一个基于 RPA 的财务对账流程。团队吭哧吭哧搞了两个月，用 UiPath 搭了上百个活动块，就为了应对网银控件那个奇葩的 ActiveX 和每次升级都可能变动的界面。如果当时有这个，可能两天就调通了。客户不会为你的技术难度付钱，他只关心鼠标能不能自己动起来，报表能不能准时出现在邮箱里。技术人的价值壁垒，有时候脆得像张纸。

但这也不是终点，反而是一个更残酷的起点。AI 接管了“手”和“眼”，那“脑”呢？流程的决策点、异常情况的判断、业务逻辑的真正抽象，这些反而被提到了前所未有的高度。以前我们沉迷于解决“怎么点击”的技术细节，现在这个问题被原子化了，我们被迫要去面对更本质的问题：“为什么要点击这里？如果这里不行，下一步的备选方案是什么？这个流程本身是否合理？” 工具越强大，对使用工具的人的业务理解能力要求就越高。否则，你只是从“写自动化脚本的”变成了“给 AI 下指令的”，价值并没有提升。

我现在的焦虑很具体：那些还在教传统 RPA 和 Selenium 的课程，还有意义吗？我自己的知识结构里，有多少是即将作废的“技艺”，又有多少是能穿透技术变迁的“元能力”？看着鼠标自己动，兴奋之后是一身冷汗。你得跑得比工具进化更快，但方向在哪里？是更深地扎进某个垂直行业，吃透它的业务逻辑，让 AI 成为你的超级执行副驾？还是去研究怎么把这些视觉动作能力封装成更稳定的服务，解决 AI 目前还会犯的“愣神”和误判？这个问题，没有标准答案，只有不断试错。但可以肯定的是，守着旧地图，一定找不到新大陆。

文章版权归作者所有，未经允许请勿转载。

THE END

AI实践