既然指令太模糊,我就让 AI 自动识别图片里的干扰元素。今天在 Rembg Pro 里加了个动态钩子,用户只要在屏幕上画个框,AI 就得给我把框里的东西“理解”出来,然后自动生成抠图指令。这玩意儿折腾了我整整三天,不是技术多难,是得把“模糊”变成“确定”的逻辑太他妈反人性了。
用户说“把背景里乱入的那个人去掉”,这指令放两年前能把我团队的产品经理逼疯。什么叫“乱入”?是距离主体近的还是远的?是完整的还是半截的?现在不用吵了,框选,提交,让多模态模型自己看。我接的是最新那版能理解空间关系和常见物体的视觉模型,它得从框选区域里识别出“人”、“树影”、“水印logo”这些概念,然后反向生成一段精准的去除指令,喂给后面的抠图引擎。这里面的坑在于,模型经常过度理解,比如你框了半个自行车轮,它可能识别成“交通工具”或“圆形物体”,生成的指令就飘了。我得用规则层去约束,比如优先匹配“人”、“动物”、“文本”这类高频干扰物,其他的再降权处理。
交互才是灵魂,AI只是引擎。这句话是我今年复盘的铁律。你堆再牛的模型,用户不会用,或者觉得更麻烦了,那就是垃圾。这个动态框选,本质上是在降低描述成本。用户不用再去学“蒙版”、“通道”、“色彩范围”这些狗屁专业术语,他只要会“圈出来”这个三岁小孩都会的动作就行。剩下的,让AI去猜,去试错,去生成几个备选方案让用户点选确认。这个“确认”环节不能省,一省就全自动到失控了,用户会觉得失去控制权,反而不敢用。
2019年那会儿做团队,最大的错误就是总想替用户把一切决定都做了,搞出一堆所谓“智能全自动”的臃肿功能,结果交付时客户各种不满意,返工改到死。现在明白了,最好的智能是提供恰到好处的“建议”,并把最终裁决权,那个按钮,清晰地交回用户手里。这个框选交互,就是这种哲学的体现:我帮你看了,我猜你想去掉这个,如果你同意,点这里;如果不对,你再画一次,或者我多给你几个猜测。
搞这个功能时,我不断想起2021年死磕爬虫的日子。那时候为了绕过网站的反爬,要分析DOM树结构,模拟鼠标移动轨迹,甚至处理各种奇怪的验证码。现在的“多模态理解”有点像当年的终极爬虫,它不再只看代码结构,而是真正去“看”屏幕上的像素,理解它们的语义。技术底座翻天覆地了,但核心问题没变:如何把人类模糊的意图,翻译成机器可精准执行的指令。以前靠我写死的规则和正则表达式,现在靠大模型“猜”,但“猜”的效率和准确性,依然要靠产品设计来框定和引导。
这三天我咖啡因又超标了,但看着那个框选区域被识别、高亮、并自动生成描述时,有种当年第一个爬虫成功跑通数据的快感。只是焦虑感不同了。那时候焦虑流量和生存,现在焦虑的是,这套基于多模态的交互范式,能领先多久?会不会明天就又有个新模型,让这种交互又显得笨重了?不管了,先让它跑起来。引擎不断换,但车还得自己开。














