Devin 性能爆表:未来的 PM 还能干嘛?我选择当“逻辑指挥官”。今天看到 Devin 的工程基准测试结果,那个 SWE-bench 的解决率数字跳出来的时候,我后背一凉。不是恐惧,是一种很熟悉的、2016年第一次看到 Python 爬虫把人工采集效率踩在脚下时的感觉。那种“你的技能栈正在被系统性过时”的寒意。2025年了,AI 编码智能体已经不是“辅助”,是“执行层”了。PM 如果还只会画原型、写 PRD、跟进度,那跟2018年那些只会用 Axure 拖拽交互、不懂一点后端逻辑的产品经理有什么区别?迟早被优化成会议记录员。
我得给自己找条活路。光焦虑没用,得动手验证。我翻出两年前一个没彻底搞定的需求:做一个比 Rembg 更稳定的本地人像抠图工具,当时卡在边缘毛发和半透明物体的处理上,传统 CV 算法调参调到吐,效果也就那样。今天我就想试试,如果我彻底放弃写代码,只当一个“逻辑指挥官”,用自然语言驱动 AI,能不能把这个东西重新“设计”并“实现”出来。
我打开 Cursor,新建项目。第一道指令不是“写个抠图程序”,那太蠢了。我的指令是:“我们需要一个命令行工具,核心目标是处理人像照片的背景移除,重点优化发丝、婚纱、玻璃杯等半透明或复杂边缘。技术栈优先考虑 ONNX Runtime 加载预训练模型,并设计一个后处理流水线,针对模型输出的原始掩码进行边缘细化和平滑。请先给出技术方案架构图,并用 Mermaid 语法描述。” 你看,这里面的关键词——ONNX Runtime、预训练模型、后处理流水线、边缘细化——就是我的“武器”。我不需要记住 TensorFlow 和 PyTorch 的 API 差异,但我必须知道 ONNX 是跨框架部署的中间件,必须知道后处理是提升实用性的关键。AI 给了我一个清晰的流程图,包括了模型加载、预处理、推理、后处理、输出五个模块。
接下来是具体的“战役”。我告诉 AI:“现在,请实现后处理模块。我们需要一个函数,输入是模型生成的原始掩码(0-1之间的浮点数矩阵),输出是优化后的二值掩码。优化步骤包括:1. 使用自适应阈值处理,而不是全局固定阈值,以保留发丝细节。2. 对阈值化后的二值图像进行形态学闭操作,填充小的孔洞。3. 使用 findContours 获取最大轮廓,并对其应用高斯平滑,让边缘更自然。4. 考虑添加一个可选的边缘羽化选项,用于合成。” 这段描述,就是一个完整的产品逻辑和算法逻辑的混合体。AI 开始哗哗地写代码,用 OpenCV 实现。它写的过程中,我发现了问题:它用的自适应阈值函数是 `cv2.adaptiveThreshold`,这个函数只接受8位单通道图像。而模型输出的浮点矩阵需要先归一化到0-255。我立刻打断它:“停。在自适应阈值之前,需要将 float_mask 乘以255并转换为 uint8。另外,形态学操作的核大小应该与图像分辨率动态相关,请设计一个基于图像短边尺寸百分比的公式。”
这就是“逻辑指挥官”的工作:不是自己开车,而是看地图、下指令、纠正路线。AI 是那个不知疲倦的司机。它很快改好了代码,甚至主动加上了异常处理。我接着命令:“现在,将模型推理部分封装成一个单独的类。这个类需要实现:1. 在初始化时从指定路径加载 ONNX 模型。2. 一个 predict 方法,接收图像路径或 numpy 数组,返回处理后的掩码。注意内存管理,大图像需要自动缩放,但保持长宽比。” AI 在实现时,直接用了固定的输入尺寸(512×512)。我立刻叫停:“不行。模型可能有固定的输入尺寸,但我们的预处理必须包含:等比例缩放、填充至模型所需尺寸、记录填充信息以便后处理时将掩码映射回原图坐标。这是产品可用性的关键,不能直接暴力拉伸。” 我指出了逻辑漏洞,AI 马上道歉(拟人化的感觉)并重写。
整个下午,我就像一个导演,用自然语言调度着不同的“AI 部门”:模型部署组、图像处理组、UI 封装组(我用 n8n 做了个图形界面,调用这个命令行工具)。我不写一行代码,但我脑子里必须跑通整个数据流、异常流、用户体验流。哪个环节逻辑不闭环,AI 就会在那里卡壳,或者给出一个看似能运行但实际有缺陷的方案。我的价值,从“画图写文档”,变成了“定义问题边界、拆解系统逻辑、识别潜在陷阱、并用精确的指令让 AI 执行”。PM 的本质没变,还是解决问题。但工具链和协作对象,从程序员变成了 AI 智能体。
未来的 PM,必须升维。原型工具?Figma 插件能根据文字描述生成页面。文档?AI 能根据会议录音生成 PRD 初稿。项目管理?AI Agent 能自动拆解任务并追踪。那剩下的、无法被自动化的核心是什么?是对业务本质的洞察,是对复杂系统逻辑的抽象和拆解能力,是那种“一眼看到三层以后”的预判。是“逻辑指挥官”的视野。就像今天,我知道抠图的难点不在模型调用,而在后处理的那些 trick 上,我知道用户真正痛点是边缘的生硬和细节丢失。这是我作为“人”的经验和判断。代码,让 Devin 去写吧。我要做的,是告诉它,往哪儿打,怎么打,以及为什么这么打。
这感觉,有点像回到了2016年,那种一个人就是一个技术团队的野蛮感。但这次,我的武器不是 Python 和爬虫,而是对大模型能力的理解,和对产品逻辑的绝对掌控。焦虑依然在,但方向清晰了:把自己训练成最好的“提示词工程师”,不,是“系统逻辑的架构师”和“AI 军团的指挥官”。














