既然 AI 都会自己操作电脑了,我们的技术壁垒在哪?这个问题像根刺一样扎在脑子里,尤其是看到 OpenAI 开发者大会前后那些关于“计算机操作代理”的传言。他们说 AI 能看屏幕、点鼠标、敲键盘,像个人一样操作任何软件。如果这是真的,那我们过去十年在爬虫、自动化脚本、API 对接上花的那些命,算什么?算行为艺术吗?
我花了整整一个下午,试图用 GPT-4V 加上 Playwright 去模拟一个最简单的“操作代理”。让它登录一个后台,导出 CSV 报表。理论上,喂几张截图,告诉它按钮在哪,它就该能执行。结果呢?卡在验证码识别上半小时,识别出来了,点登录,页面跳转加载慢了两秒,它超时了,直接报错退出。我手动介入,告诉它重试,它又开始从头识别验证码。就这么一个 loop,烧掉我十几美金 API 调用费,屁事没干成。这让我想起 2018 年写爬虫对抗反爬的日子,那时候头疼的是动态加载、IP 池、请求头伪装。现在呢?头疼的是 AI 的“理解力”和“鲁棒性”。它看得懂像素,但看不懂业务逻辑的上下文;它能模拟点击,但处理不了网络延迟和异常弹窗带来的状态歧义。这根本不是技术问题,这是“常识”和“决策”的缺失。我们人类操作电脑,靠的是一套模糊的、基于经验的预期管理系统。AI 没有这套系统,它只有概率。
但可怕的地方就在这里。OpenAI 如果真把“Operator”作为产品推出来,它解决的绝不会是我今天下午遇到的这些屎山问题。它会用工程化的方式,把“常识”和“决策”封装成可靠的模块。比如,预训练时塞进去海量的软件操作录屏数据,让模型学会“等待加载”、“识别常见错误弹窗并点掉”、“根据历史操作预测下一步可能的位置”。到那时,壁垒会瞬间转移。我们过去赖以生存的“我会写脚本自动化这个流程”的技能,会贬值到像今天“我会用 Word 打字”一样毫无价值。真正的壁垒会变成什么?是定义问题的能力,是设计那个“需要被自动化流程”的架构能力。是你能不能用自然语言,清晰无误地告诉 AI:“去财务系统,把上个月所有供应商付款记录中,状态为‘待审批’且金额大于 10 万的条目,导出成 Excel,然后发邮件给李总和王总监,邮件标题按‘YYYYMMDD-待审批大额付款’的格式来。” 这听起来简单,但里面每一个名词——“财务系统”、“供应商付款记录”、“状态”、“李总”——都需要在前期被精准地定义和映射到具体的软件界面上。这活儿,本质上就是产品经理的活儿。
所以焦虑感又升级了。2016 年我怕的是不会 Python 抢不到流量,2021 年我怕的是不懂健身搞垮了身体,现在我怕的是自己定义问题和拆解需求的速度,赶不上 AI 执行能力进化的速度。当 AI 成为一个听话但“没脑子”的超强执行力员工时,老板(也就是我们)的“脑子”就必须转得更快、想得更全。否则,你连给它下命令都下不明白。这就像你给了特种部队一把最先进的枪,但你在地图上指错了一个坐标,全盘皆输。我们的新壁垒,可能就是这种“精准指挥”的能力,以及为 AI 准备那份详尽到变态的“作战地图”(提示词、知识库、流程规范)的耐心。这很反直觉,技术越强大,对人的抽象思维和沟通能力要求反而越高。我可能得重新去啃那些系统分析和领域建模的老书了,虽然想起来就头疼。














