Gemini 发布那天,我盯着发布会视频,脑子里就一个念头:妈的,又得重学一遍。不是兴奋,是生理性的疲惫。Google 把多模态原生模型这玩意儿扔出来,意味着什么?意味着以前我们吭哧吭哧搞的“图像识别+文本分析” pipeline 可以扔进垃圾桶了。以前要调用两个 API,中间还得写逻辑判断,现在一个模型,图片、文字、语音,它自己就能给你揉在一起理解了。这他妈是降维打击。
我今年 38,按互联网算法,已经是个老帮菜了。去年还在跟人吹我那个用 OpenCV 加 Tesseract 做的票据识别系统,虽然准确率也就 85%,但好歹是自己搭的。现在呢?Gemini 的 API 一开放,你传张发票图片过去,它能把抬头、金额、税号、日期全给你结构化地吐出来,准确率 99%。你学 OpenCV 学 Tesseract 的那些时间,瞬间归零。这种被技术迭代一脚踹翻的感觉,在 2023 年已经不是第一次了。年初是 ChatGPT,现在是 Gemini。每一次都像有人拿着大喇叭在你耳边喊:你过去十年攒的那点手艺,不值钱了。
但骂完街,还得坐下来想。Google 开放算力接口,对我们这种小个体来说,真正的机会在哪?肯定不是去跟风做又一个“基于 Gemini 的聊天机器人”。那玩意儿门槛已经低到发指了,小学生都能用 no-code 平台搭一个。差异化竞争,得往深了挖。我琢磨了几天,觉得关键在“工作流封装”和“垂直领域微调”这两件事上。
多模态原生模型厉害,但它是个通才。你让它看一张工业零件的质检图片,它可能能描述出“一个金属零件,表面有划痕”,但它不知道这个划痕在行业标准里属于几级瑕疵,该报废还是返修。这就是我们的空间。我们得成为那个“翻译官”,把通用模型的强大能力,“翻译”成某个具体行业能直接用的判断逻辑。这活儿,大厂不屑干,因为太碎、太垂直、赚不了快钱。但对我们来说,一个细分领域吃透了,就够活。
具体怎么做?我拿自己正在折腾的一个健身教练的小项目试水。以前教练看学员的动作视频,得自己一帧帧看,判断深蹲膝盖有没有内扣、卧推轨迹对不对。现在我可以让 Gemini 的视觉接口去分析视频帧,同时用它的文本理解能力去读我提前写好的《力量训练动作标准库》。两相结合,让模型不只是“看到”了动作,而是能对照标准给出“膝关节外展角度超过安全阈值 5 度,建议降低重量并强化臀中肌”这样的结论。然后我把这一整套判断逻辑,用 n8n 或者干脆自己写个轻量级 GUI 封装起来,做成一个给私教用的桌面小工具。模型是 Google 的,算力是 Google 的,但怎么用、用在哪儿、输出什么对行业有用的结果,这个“知识封装”的过程,是我的护城河。
这其实就是产品经理的老本行:不是创造原子技术,而是组合现有技术,解决一个具体、值钱的问题。只不过,以前组合的是 Axure 画的原型、程序员写的代码、运营搞的流量。现在,你组合的是 Google、OpenAI 这些巨头提供的“智力原子”。你的价值,从“我会写爬虫”变成了“我知道爬来的数据,在健身/电商/法律这个行当里,怎么用大模型处理出别人愿意付钱的结果”。
焦虑吗?当然焦虑。感觉脚下踩的技术基石,每半年就换一次。但反过来想,这也逼着你永远不能躺在“我会某个技术”的功劳簿上。你得永远保持连接,保持翻译,保持封装。Gemini 发布不是终点,它只是又一次提醒:个体户的战争,早就从拼代码量,变成了拼洞察、拼组装、拼谁能把前沿技术的核爆当量,精准地投送到一平方米的细分阵地里。














