Google 发布多模态模型：我为什么坚持“多云部署”-Flovico-AI商业实战教练

Google 发布多模态模型 Gemini 1.5 Pro 那天，我正卡在 n8n 的一个工作流里，试图让 Midjourney 的 Discord API 和我的客户 CRM 系统对话。发布会直播窗口在后台挂着，听到“原生多模态”和“100万上下文”时，我手一抖，把工作流里一个关键的 JSON 解析节点给删了。

操。

这感觉就像 2016 年我第一次看到 Google 的 BERT 论文，当时还在死磕 LSTM 做文本分类，觉得那玩意儿是学术玩具。结果两年后，它把整个 SEO 行业掀了个底朝天。现在，历史换了个皮肤又来了。Gemini 这次不是“理解”图片，是它“原生”就把图片、音频、视频、代码、文本都当成同一种东西处理。这意味着什么？意味着我之前花了三个月，用 OpenAI 的 Vision API + 自己写的图片预处理脚本 + LangChain 搭起来的那个“电商客服自动看图回复”系统，架构上可能从根上就落后了。

我赶紧停了手头的活儿，去申请 API 密钥。测试过程很直接，扔给它一张我昨晚画的、极其潦草的流程图照片，让它生成前端 React 代码。它不光读出了我鬼画符一样的方框和箭头，连旁边标注的“这里要异步请求”的扭曲字迹都识别了，生成的代码骨架居然能跑。我又试了更损的：把一个包含错误数据的 CSV 文件截图，和一段描述数据问题的语音备忘录（用 TTS 转的）一起喂给它，让它写一段 Python 脚本来清洗数据。它做到了，而且指出了我 CSV 里一个我自己都没注意到的类型不一致问题。

震撼不是来自“它能做”，而是来自“它如此平滑地就做了”。没有我之前架构里那种“先用这个模型识别图片文字，再用那个模型理解意图，最后用第三个模型生成代码”的管道拼接感。那种拼接，每一个接口都是潜在的故障点，要处理错误、要协调格式、要担心上下文丢失。现在，一个 API 调用，全扔进去，完事。

但这恰恰是最大的风险点。你把所有鸡蛋都放进一个篮子里，哪怕这个篮子叫 Google。API 服务不可用怎么办？突然调价怎么办？像当年 GPT-3 突然收紧政策怎么办？你的整个业务就僵在那里。2021年我做外包时吃过这种亏，当时重度依赖某个国内云厂商的特定服务，结果他们一次不兼容升级，我这边三个项目连夜救火。

所以“多云部署”不是技术偏好，是生存本能。我的策略开始清晰了：核心的、要求最高稳定性的生产流程，还是用 OpenAI 的 GPT-4，毕竟生态最熟。那些需要疯狂消耗上下文、处理复杂多模态输入的原型探索和内部工具，用 Gemini 1.5 Pro。同时，一定在架构层保留一个“降级通道”，比如用开源的 Llama 多模态版本或者 Claude 的 API 做备份，哪怕效果打点折。关键是把“模型调用”这一层抽象出来，做成可热插拔的组件。

这需要基础设施。n8n 的工作流里，每个 AI 模型节点都不能写死 endpoint 和 key，必须从环境变量或者我自己的一个小型模型路由服务里读。这个路由服务很简单，就是记录各个 API 的当前状态（响应延迟、错误率、成本），根据策略分发请求。听起来简单，但调试起来全是坑，比如不同模型输出的 JSON 格式怎么统一，token 计数方式不同怎么算成本。

搞到凌晨两点，初步的路由服务能跑了。我写了几个测试用例，模拟 Gemini API 返回 502 错误，流量自动切到了 OpenAI 的 gpt-4-vision-preview。看着日志里平滑切换的记录，我才稍微松了口气。这不是技术胜利，这是一种风险对冲带来的、脆弱的安心感。我知道 Google、OpenAI 他们下一轮更新可能又会把今天的部署方式变成古董，但至少，我的系统不会因为单一节点的崩溃而瞬间死亡。

窗外？没什么窗外。屏幕的光就是全部。现在要做的，是把这套多云逻辑，固化到我给学员准备的 AI 自动化实战案例里去。告诉他们，别迷恋任何一个神话，你要做的，是在神话们互相打架的缝隙里，把自己的小生意跑通。

文章版权归作者所有，未经允许请勿转载。

THE END