既然有了 GPT-4o,我就把 Rembg Pro 改成了“全语音交互”版

既然有了 GPT-4o,我就把 Rembg Pro 改成了“全语音交互”版。今天全网都是黑白的,代码敲到一半,屏幕右下角弹窗提醒,我切出去看了一眼,又默默切回来。整个互联网像被按下了静音键,只有代码编辑器里光标还在闪。这种时候,你做的任何事,无论是抠图还是写 AI 脚本,都显得特别轻,特别没分量。

但活儿还得干。Rembg 这个库,我用了快两年了,从做电商详情页抠白底图开始,到后来给健身教练做宣传海报自动去背景,它一直很稳。稳到我都忘了它是个命令行工具,每次都得手动拖图片进去,或者写个批处理脚本。GPT-4o 的语音交互 API 一出来,我就觉得,这东西必须得改。不是因为它多难,而是因为它太“旧”了。旧到和这个张嘴就能跟机器说话的时代格格不入。

改的过程其实挺糙的。核心就三块:用 Whisper 的本地部署版做语音转文本,把“帮我把这张图背景去掉”这种口语指令,解析成“调用 rembg 库,输入图片路径,输出处理后的 PNG”;再用 Edge TTS 把处理结果“已完成,保存至某某路径”给读出来;最后用 PyQt 糊了个极简的界面,就一个按钮,按着说话,松开执行。难点不在代码,在“意图识别”。用户不会规规矩矩地说指令,他们会说“这图人后面的东西太乱了,弄干净点”,或者“我要透明的,能放海报上那种”。你得把这些话,映射到 `rembg.remove()` 那几个有限的参数上。我用了点 prompt engineering 的土法子,让 GPT-4o 先把用户的话翻译成结构化的 JSON,我再解析 JSON 去调函数。

搞定了,测试了几张图。对着麦克风说“去掉背景”,几秒钟后,一个冰冷的合成女声告诉我处理好了。效率是高了,但那种感觉很奇怪。你对着空气说话,然后机器帮你把世界里多余的部分抹掉。这像极了我们这些年干的事:拼命提高效率,用工具抹掉一切耗时的手工操作,以为这样就能跑得更快,留下更深的痕迹。可今天这个黑白的世界提醒你,有些东西的重量,是效率无法衡量的。

我今年 37 了。2016 年那会儿,我焦虑的是怎么用多线程爬虫抢到第一波公众号流量。2020 年,我焦虑的是怎么让手下那几个人按时交付项目别跑路。现在,我焦虑的是怎么让一个抠图工具听懂人话。焦虑的对象一直在变,但那股劲儿没变,就是怕被甩下。GPT-4 出来的时候,我恐慌了一整夜,觉得自己过去十年攒的“技术直觉”全成了废纸。现在 GPT-4o 来了,连“界面”和“操作”的概念都要颠覆了。你刚学会游泳,海里就起了海啸。

也许个体留下的痕迹,从来就不是你做了哪个项目,赚了多少钱,或者你封装了哪个酷炫的工具。而是在每一次技术海啸拍过来的时候,你选择怎么应对。是躺平认嘲,还是骂骂咧咧地、用你熟悉的但已经过时的方式,再扑腾几下,试图理解新的规则。我把 Rembg 改成语音交互,不是什么了不起的成就,它可能明天就被某个在线服务替代。但这个过程,是我在试图理解这个“语音优先”的世界,是我在确认自己还有连接新事物的能力。这大概是我们这种人,在这个轮转的大时代里,唯一能抓住的、属于自己的重量。

窗外的城市还是黑白的,很安静。我的合成女声助手突然冒出一句“指令不清晰,请重试”。我愣了一下,然后笑了。算了,明天再优化一下 prompt 吧。

© 版权声明
THE END
喜欢就支持一下吧
点赞48 分享