既然图片处理太繁琐,我就用 AI 自动去背景。这句话现在说起来轻巧,但背后是整整一个月的技术栈重构和认知颠覆。Rembg Pro 这个项目,从最初只是一个简单的 U2Net 模型调用封装,到今天能理解“帮我把背景换成成都的晚霞”,中间隔着一道名为“多模态理解”的鸿沟。以前我们做的叫“工具”,用户得懂图层、蒙版、选区;现在我们试图做的是“代理”,用户只需要说话。
上个月还在跟团队(其实就剩我自己了)死磕传统的图像处理 pipeline。用户上传图片,调用 Rembg 抠图,返回透明背景的 PNG。逻辑清晰得像条直线。但用户反馈来了:“我抠完图想直接换个背景,还得自己去找图、调整尺寸、匹配光影,太麻烦了。” 麻烦?对,这就是痛点。但以前的思路是,那我们再加个“背景库”功能,让用户选。可这又陷入了老路:做功能,堆功能,永远追着用户屁股后面跑。直到 GPT-4V 的 API 开放,我才猛地意识到,路走错了。用户要的不是功能列表,是一个能听懂人话的助手。
所以这次迭代,我管它叫 Agent 3.0。核心就一件事:把自然语言指令,拆解成可执行的、串联的图像处理子任务。这听起来像极了产品经理画的大饼,但实现起来全是魔鬼细节。首先,用户说“成都的晚霞”,你怎么理解?GPT-4V 不能直接生成图片,但它能理解这个描述,并输出一组关键词:`cityscape, Chengdu, skyscraper, sunset, orange and purple sky, reflective glass buildings`。好,这是第一步:语义理解与关键词提取。
有了关键词,下一步是找图。这里不能用传统的图库 API 简单搜索,因为要匹配抠图主体的大小、构图、透视。我试过 Unsplash、Pexels 的 API,返回的图片质量参差不齐,构图也经常不对。最后绕了个弯子,用上了 DALL-E 3。对,让 AI 根据关键词和原图的主体轮廓信息,“生成”一个背景。这里有个关键参数:需要把用户原图的主体轮廓(用之前 Rembg 抠图得到的 mask)转换成简单的文字描述,比如“一个站立的人的侧面轮廓”,喂给 DALL-E 3,并在 prompt 里强调“留出前景主体空间,背景为 [关键词]”。这一步的调试成本极高,DALL-E 3 对空间关系的理解时好时坏,生成了大量主体和背景融为一体的废图。
生成背景只是开始,最难的是无缝合成。传统做法是 Alpha 混合,但光影不匹配会假得像贴上去的。我不得不引入另一个模型:GPEN 或 GFP-GAN 用于可能的人脸增强(如果主体是人),以及一个轻量化的色彩迁移算法,让生成背景的色调、光照方向与原图主体残留的环境光信息(从原图边缘提取)大致匹配。这整个 pipeline 被我用 n8n 搭了起来,像一条流水线:用户输入 -> 语言理解 -> 主体抠图 -> 背景生成/检索 -> 光影调整 -> 合成输出。每一个节点都可能失败,都需要 fallback 方案。
这一个月,我几乎住在命令行和 n8n 的编辑器里。最大的感触不是技术多难,而是思维模式的彻底转换。以前我焦虑的是“这个功能用 Python 怎么实现”,现在焦虑的是“这个人类意图,该怎么拆解成 AI 能可靠执行的原子操作”。可靠性是最大的敌人,AI 不是 deterministic 的,你永远要准备一个 B 计划,比如当 DALL-E 3 生成的背景太离谱时,自动 fallback 到从固定高质量图库按关键词选一张,然后强行用仿射变换适配主体轮廓。
做这件事,让我又一次陷入那种熟悉的技能恐慌。看着那些 00 后博主用 Midjourney 和 ChatGPT 几句话就能做出惊艳的图,我这一套复杂的 pipeline 似乎笨重又过时。但我知道,他们的“惊艳”不可控,不可批量,不可集成到商业流程里。而我要的,是把这种“理解”和“创造”的能力,封装成一个稳定、可调用的软件服务。Rembg Pro 不再只是一个去背景工具了,它成了一个基于多模态理解的“图像需求代理”原型。虽然现在合成效果还经不起专业设计师的放大镜看,但这条路,我觉得摸到门了。
夜深了,窗外小区路灯的光晕在屏幕上反光。我关掉 n8n 里那些错综复杂的节点连线,看着测试生成的图片:一个被我抠出来的马克杯,背后是 AI 生成的“成都晚霞”下的锦里古街屋檐轮廓。杯子和晚霞的光影还有点剥离,但一眼看去,已经有点那个意思了。这大概就是 2023 年底,一个产品经理兼独立开发者,能为自己找到的最扎实的兴奋点了。不是做出了多牛的功能,而是亲手把“智能”这个词,从宣传文案里,拖进了可运行的代码流程里。哪怕它还很笨拙。














