既然指令太模糊，我就让 AI 自动识别图片里的干扰元素-Flovico-AI商业实战教练

既然指令太模糊，我就让 AI 自动识别图片里的干扰元素。今天在 Rembg Pro 里加了个动态钩子，用户只要在屏幕上画个框，AI 就得给我把框里的东西“理解”出来，然后自动生成抠图指令。这玩意儿折腾了我整整三天，不是技术多难，是得把“模糊”变成“确定”的逻辑太他妈反人性了。

用户说“把背景里乱入的那个人去掉”，这指令放两年前能把我团队的产品经理逼疯。什么叫“乱入”？是距离主体近的还是远的？是完整的还是半截的？现在不用吵了，框选，提交，让多模态模型自己看。我接的是最新那版能理解空间关系和常见物体的视觉模型，它得从框选区域里识别出“人”、“树影”、“水印logo”这些概念，然后反向生成一段精准的去除指令，喂给后面的抠图引擎。这里面的坑在于，模型经常过度理解，比如你框了半个自行车轮，它可能识别成“交通工具”或“圆形物体”，生成的指令就飘了。我得用规则层去约束，比如优先匹配“人”、“动物”、“文本”这类高频干扰物，其他的再降权处理。

交互才是灵魂，AI只是引擎。这句话是我今年复盘的铁律。你堆再牛的模型，用户不会用，或者觉得更麻烦了，那就是垃圾。这个动态框选，本质上是在降低描述成本。用户不用再去学“蒙版”、“通道”、“色彩范围”这些狗屁专业术语，他只要会“圈出来”这个三岁小孩都会的动作就行。剩下的，让AI去猜，去试错，去生成几个备选方案让用户点选确认。这个“确认”环节不能省，一省就全自动到失控了，用户会觉得失去控制权，反而不敢用。

2019年那会儿做团队，最大的错误就是总想替用户把一切决定都做了，搞出一堆所谓“智能全自动”的臃肿功能，结果交付时客户各种不满意，返工改到死。现在明白了，最好的智能是提供恰到好处的“建议”，并把最终裁决权，那个按钮，清晰地交回用户手里。这个框选交互，就是这种哲学的体现：我帮你看了，我猜你想去掉这个，如果你同意，点这里；如果不对，你再画一次，或者我多给你几个猜测。

搞这个功能时，我不断想起2021年死磕爬虫的日子。那时候为了绕过网站的反爬，要分析DOM树结构，模拟鼠标移动轨迹，甚至处理各种奇怪的验证码。现在的“多模态理解”有点像当年的终极爬虫，它不再只看代码结构，而是真正去“看”屏幕上的像素，理解它们的语义。技术底座翻天覆地了，但核心问题没变：如何把人类模糊的意图，翻译成机器可精准执行的指令。以前靠我写死的规则和正则表达式，现在靠大模型“猜”，但“猜”的效率和准确性，依然要靠产品设计来框定和引导。

这三天我咖啡因又超标了，但看着那个框选区域被识别、高亮、并自动生成描述时，有种当年第一个爬虫成功跑通数据的快感。只是焦虑感不同了。那时候焦虑流量和生存，现在焦虑的是，这套基于多模态的交互范式，能领先多久？会不会明天就又有个新模型，让这种交互又显得笨重了？不管了，先让它跑起来。引擎不断换，但车还得自己开。

文章版权归作者所有，未经允许请勿转载。

THE END

AI实践