既然 AI 都会自己操作电脑了，我们的技术壁垒在哪？-Flovico-AI商业实战教练

既然 AI 都会自己操作电脑了，我们的技术壁垒在哪？这个问题像根刺一样扎在脑子里，尤其是看到 OpenAI 开发者大会前后那些关于“计算机操作代理”的传言。他们说 AI 能看屏幕、点鼠标、敲键盘，像个人一样操作任何软件。如果这是真的，那我们过去十年在爬虫、自动化脚本、API 对接上花的那些命，算什么？算行为艺术吗？

我花了整整一个下午，试图用 GPT-4V 加上 Playwright 去模拟一个最简单的“操作代理”。让它登录一个后台，导出 CSV 报表。理论上，喂几张截图，告诉它按钮在哪，它就该能执行。结果呢？卡在验证码识别上半小时，识别出来了，点登录，页面跳转加载慢了两秒，它超时了，直接报错退出。我手动介入，告诉它重试，它又开始从头识别验证码。就这么一个 loop，烧掉我十几美金 API 调用费，屁事没干成。这让我想起 2018 年写爬虫对抗反爬的日子，那时候头疼的是动态加载、IP 池、请求头伪装。现在呢？头疼的是 AI 的“理解力”和“鲁棒性”。它看得懂像素，但看不懂业务逻辑的上下文；它能模拟点击，但处理不了网络延迟和异常弹窗带来的状态歧义。这根本不是技术问题，这是“常识”和“决策”的缺失。我们人类操作电脑，靠的是一套模糊的、基于经验的预期管理系统。AI 没有这套系统，它只有概率。

但可怕的地方就在这里。OpenAI 如果真把“Operator”作为产品推出来，它解决的绝不会是我今天下午遇到的这些屎山问题。它会用工程化的方式，把“常识”和“决策”封装成可靠的模块。比如，预训练时塞进去海量的软件操作录屏数据，让模型学会“等待加载”、“识别常见错误弹窗并点掉”、“根据历史操作预测下一步可能的位置”。到那时，壁垒会瞬间转移。我们过去赖以生存的“我会写脚本自动化这个流程”的技能，会贬值到像今天“我会用 Word 打字”一样毫无价值。真正的壁垒会变成什么？是定义问题的能力，是设计那个“需要被自动化流程”的架构能力。是你能不能用自然语言，清晰无误地告诉 AI：“去财务系统，把上个月所有供应商付款记录中，状态为‘待审批’且金额大于 10 万的条目，导出成 Excel，然后发邮件给李总和王总监，邮件标题按‘YYYYMMDD-待审批大额付款’的格式来。” 这听起来简单，但里面每一个名词——“财务系统”、“供应商付款记录”、“状态”、“李总”——都需要在前期被精准地定义和映射到具体的软件界面上。这活儿，本质上就是产品经理的活儿。

所以焦虑感又升级了。2016 年我怕的是不会 Python 抢不到流量，2021 年我怕的是不懂健身搞垮了身体，现在我怕的是自己定义问题和拆解需求的速度，赶不上 AI 执行能力进化的速度。当 AI 成为一个听话但“没脑子”的超强执行力员工时，老板（也就是我们）的“脑子”就必须转得更快、想得更全。否则，你连给它下命令都下不明白。这就像你给了特种部队一把最先进的枪，但你在地图上指错了一个坐标，全盘皆输。我们的新壁垒，可能就是这种“精准指挥”的能力，以及为 AI 准备那份详尽到变态的“作战地图”（提示词、知识库、流程规范）的耐心。这很反直觉，技术越强大，对人的抽象思维和沟通能力要求反而越高。我可能得重新去啃那些系统分析和领域建模的老书了，虽然想起来就头疼。

文章版权归作者所有，未经允许请勿转载。

THE END

商业AI