5月13日 OpenAI 更新:我在书房里感到一阵“脊背发凉”

我刚看完 OpenAI 的春季更新直播回放,关掉浏览器,书房里只有屏幕的冷光和机箱风扇的低鸣。那种感觉不是兴奋,是脊背发凉,字面意义上的。他们让 AI 看着你的屏幕实时对话,语气带停顿和思考的“嗯…”,还能看图唱歌,这他妈已经不是工具了,这是个隔着网线的“存在”。

去年我还在死磕 GPT-3.5 的 prompt 工程,觉得掌握了文字咒语就能通吃。现在看,那点手艺跟马车夫学怎么更好地挥鞭子没区别,汽车引擎已经点着了。语音和视觉的实时交互,直接把“沟通”这个动作的物理门槛拆了。以后用户跟 AI 说话,就跟现在跟 Siri 说“定个闹钟”一样自然,但深度是天壤之别。这意味着什么?意味着所有基于“文字输入、文字输出”构建的所谓“AI 工作流”、“提示词市场”,价值底座正在被釜底抽薪。红利期不是快结束了,是已经结束了,只是很多人还没听到收摊的哨声。

我立刻想到上个月接的那个健身教练 SaaS 需求。客户还想让我用文本接口做个聊天机器人,回答营养问题。现在看,这需求本身已经过时了。用户未来会直接对着手机说:“嘿,看看我冰箱里这盘菜,帮我算下碳水,另外我今晚练腿,蛋白质够不够?”AI 通过摄像头看你冰箱里的实物,结合你的训练计划,用带情绪的声音回答你。这里面的技术栈全变了:实时语音识别与合成、多模态视觉理解、超低延迟的端云交互。我熟悉的那些 API 调用、队列处理、纯文本逻辑判断,成了最不值钱的那一层。

最让我后背发凉的不是技术本身,是迭代速度。从 GPT-4 到 4o,才多久?他们这次强调的“免费”、“更快”、“更自然”,明显是在铺量,抢占用户的最自然交互心智。一旦用户习惯了和 AI 用说话和展示来代替打字,整个互联网的产品形态都会被重构。搜索引擎?你直接问就行了。购物推荐?你直接把衣服举到摄像头前。我的很多甲方,那些还想着做个“智能客服”小程序的企业,他们的需求文档还没写完,技术范式就已经被淘汰了。

我站起来倒了杯水,没加咖啡。得重新想出路了。纯靠信息差和 prompt 技巧赚钱的日子,肉眼可见地进入倒计时。接下来必须扎进多模态和实时交互的坑里,哪怕从最简单的开始:语音接口的调用优化,怎么处理背景噪音中断;视觉 API 怎么处理模糊、倾斜的图片,怎么把识别结果结构化。还有延迟,用户可不会忍受两秒的等待,他们习惯的是真人对话的节奏。这又涉及到边缘计算、流式响应,一堆我去年觉得还用不上的东西。

焦虑感又上来了,和 2016 年第一次看到 Google 的 RankBrain 算法更新时一样。但这次不一样,那次是算法规则变了,你还能去研究 DOM 树、外链结构去对抗。这次是交互的根本逻辑变了,你对抗不了,只能跳上去,或者被碾过去。嗓子有点干,我把那杯水一口喝完。明天开始,第一个任务:把 OpenAI 最新的语音和视觉 API 文档啃下来,用 n8n 搭个最简单的“看图说话”流水线试试。再怕也得动,不动,就真凉了。

© 版权声明
THE END
喜欢就支持一下吧
点赞39 分享