既然有了 GPT-4o，我就把 Rembg Pro 改成了“全语音交互”版-Flovico-AI商业实战教练

既然有了 GPT-4o，我就把 Rembg Pro 改成了“全语音交互”版。今天全网都是黑白的，代码敲到一半，屏幕右下角弹窗提醒，我切出去看了一眼，又默默切回来。整个互联网像被按下了静音键，只有代码编辑器里光标还在闪。这种时候，你做的任何事，无论是抠图还是写 AI 脚本，都显得特别轻，特别没分量。

但活儿还得干。Rembg 这个库，我用了快两年了，从做电商详情页抠白底图开始，到后来给健身教练做宣传海报自动去背景，它一直很稳。稳到我都忘了它是个命令行工具，每次都得手动拖图片进去，或者写个批处理脚本。GPT-4o 的语音交互 API 一出来，我就觉得，这东西必须得改。不是因为它多难，而是因为它太“旧”了。旧到和这个张嘴就能跟机器说话的时代格格不入。

改的过程其实挺糙的。核心就三块：用 Whisper 的本地部署版做语音转文本，把“帮我把这张图背景去掉”这种口语指令，解析成“调用 rembg 库，输入图片路径，输出处理后的 PNG”；再用 Edge TTS 把处理结果“已完成，保存至某某路径”给读出来；最后用 PyQt 糊了个极简的界面，就一个按钮，按着说话，松开执行。难点不在代码，在“意图识别”。用户不会规规矩矩地说指令，他们会说“这图人后面的东西太乱了，弄干净点”，或者“我要透明的，能放海报上那种”。你得把这些话，映射到 `rembg.remove()` 那几个有限的参数上。我用了点 prompt engineering 的土法子，让 GPT-4o 先把用户的话翻译成结构化的 JSON，我再解析 JSON 去调函数。

搞定了，测试了几张图。对着麦克风说“去掉背景”，几秒钟后，一个冰冷的合成女声告诉我处理好了。效率是高了，但那种感觉很奇怪。你对着空气说话，然后机器帮你把世界里多余的部分抹掉。这像极了我们这些年干的事：拼命提高效率，用工具抹掉一切耗时的手工操作，以为这样就能跑得更快，留下更深的痕迹。可今天这个黑白的世界提醒你，有些东西的重量，是效率无法衡量的。

我今年 37 了。2016 年那会儿，我焦虑的是怎么用多线程爬虫抢到第一波公众号流量。2020 年，我焦虑的是怎么让手下那几个人按时交付项目别跑路。现在，我焦虑的是怎么让一个抠图工具听懂人话。焦虑的对象一直在变，但那股劲儿没变，就是怕被甩下。GPT-4 出来的时候，我恐慌了一整夜，觉得自己过去十年攒的“技术直觉”全成了废纸。现在 GPT-4o 来了，连“界面”和“操作”的概念都要颠覆了。你刚学会游泳，海里就起了海啸。

也许个体留下的痕迹，从来就不是你做了哪个项目，赚了多少钱，或者你封装了哪个酷炫的工具。而是在每一次技术海啸拍过来的时候，你选择怎么应对。是躺平认嘲，还是骂骂咧咧地、用你熟悉的但已经过时的方式，再扑腾几下，试图理解新的规则。我把 Rembg 改成语音交互，不是什么了不起的成就，它可能明天就被某个在线服务替代。但这个过程，是我在试图理解这个“语音优先”的世界，是我在确认自己还有连接新事物的能力。这大概是我们这种人，在这个轮转的大时代里，唯一能抓住的、属于自己的重量。

窗外的城市还是黑白的，很安静。我的合成女声助手突然冒出一句“指令不清晰，请重试”。我愣了一下，然后笑了。算了，明天再优化一下 prompt 吧。

文章版权归作者所有，未经允许请勿转载。

THE END