Claude 3.5 发布“Computer Use”这个功能,我第一反应是后背发凉。不是因为它多牛逼,而是因为这意味着我去年花三个月死磕的“AI+桌面自动化”项目,瞬间变成了别人内置的基础功能。这感觉就像你吭哧吭哧造了个独轮车,抬头一看,人家开着悬浮汽车从你头顶飞过去了。
去年我还在用RPA工具加GPT API,试图让AI帮我处理那些重复的Excel报表和邮件。光是处理Windows的UI元素识别就掉了一地头发,DOM树抓取不稳定,窗口焦点一乱就全盘崩溃。我甚至自己写了个轻量级的屏幕OCR模块,就为了提升那百分之五的识别准确率。当时觉得这技术壁垒至少能撑两年。结果Anthropic直接来了个“Computer Use”,号称能理解屏幕内容并模拟鼠标键盘操作。这已经不是降维打击了,这是直接把你脚下的地板给抽了。
但冷静下来想想,这步棋背后的竞争策略太清晰了。OpenAI的GPTs还在玩“对话即应用”的过家家,Meta的Llama在开源社区里卷参数,Anthropic这是直接瞄准了“AI作为数字劳动力”的终极形态。他们不是要做一个更聪明的聊天机器人,而是要做一个能坐在你电脑前、替你干活的幽灵员工。这背后的伦理炸弹太大了——权限边界怎么划?操作回滚怎么做?如果它“理解错了”你的指令,把重要文件删了或者给客户发了不该发的东西,这责任算谁的?但现在讨论这些已经有点矫情了,潘多拉的盒子不是今天才打开的,从AutoGPT能自己上网查资料开始,这扇门就已经关不上了。
对于我们这种一线挣扎的人来说,情绪没用。要么被淘汰,要么就得跑得比他们发布的更新还要快。我的策略立刻调整:第一,彻底放弃自己造轮子,全面转向研究如何用API调用这些现成的“Computer Use”能力,把它封装成更高阶的商业流程。第二,死磕提示工程和护栏设置,怎么给这个“幽灵员工”写一份滴水不漏的“岗位说明书”和“操作红线”,这比技术本身更重要。第三,开始囤积真实的、复杂的桌面操作流程案例,这些是未来训练和微调个性化AI助理的黄金数据。
深夜盯着代码编辑器,突然觉得有点讽刺。十年前我怕的是不会写代码被淘汰,现在我怕的是代码写得太好反而成了累赘。当AI开始能操作图形界面,那些基于精确代码指令的自动化脚本,价值会断崖式下跌。未来的竞争力,可能在于你有多理解一个行业的“脏活累活”,并且能把这些模糊的人类指令,翻译成AI能安全高效执行的“原子操作”。这活儿,产品经理可能比程序员更擅长。妈的,绕了一圈,又回到老本行了。














