既然视频生成降维打击,我就把枯燥的文档变成了成都烟火气的 AI 短片。今天在 n8n 里调试一个客户的数据流,屏幕上拖来拖去都是节点和 API 调用,枯燥得让人眼皮打架。突然想到上周看到的 Kling 新 demo,那光影和物理模拟,已经不是“像不像”的问题,是直接把你脑子里的画面端出来了。这玩意儿对营销的降维打击是毁灭性的,以前一个产品宣传片,从脚本、分镜、拍摄到后期,没个十万八万下不来,现在呢?一个 prompt,加上点素材微调,成本直接打到地板上。
我手头正好有份给某 SaaS 平台写的技术白皮书,讲数据中台架构的,全是“高并发”、“微服务”、“负载均衡”这种词,扔给市场部他们都说没法传播。我盯着屏幕上的 n8n 工作流,突然有个念头:能不能用这堆枯燥的逻辑,生成点有生命力的东西?不是直接翻译文字,是把文档里那种“稳定支撑”、“灵活扩展”的抽象概念,视觉化成一座城市的运转。
第一步是拆解文档。我用 Claude 把 50 页的 PDF 嚼碎了,提炼出核心意象:基石、脉络、节点、流动、生长。然后我把这些词,全部替换成成都的实体。基石是青城山的山石,脉络是府南河与二环高架,节点是春熙路、软件园、茶馆,流动是车流、人流、火锅的热气,生长是高新区不断拔地而起的玻璃幕墙。逻辑没变,只是从硅基世界转译到了碳基烟火里。
真正的战斗在提示词工程。Sora V2 和 Kling 这类工具,你喂给它“一个繁忙的城市路口”,它可能给你纽约时代广场。要精准锁定成都的质感,必须下毒手抠细节。光线必须是四川盆地那种常有的、灰蒙蒙却又透亮的散射光,不是加州阳光。建筑立面要有瓷砖、老旧涂料和玻璃幕墙混杂的质感。人物的动作节奏得是慢的,骑车、散步、在路边择菜,不是东京那种疾走。最关键的是“锅气”,你得提示“镜头掠过小吃摊时,空气因高温产生的细微扭曲”、“麻将碰撞的清脆声与远处车流的低频噪音叠加”。
我用了最笨的办法:分镜污染。先让 AI 生成几十个我认为“绝对不对”的成都场景——太现代的、太旅游明信片的、人物穿着太整齐的。把这些坏样本的共性提炼成负面提示词,比如“over-saturated colors”、“hyper-clean sidewalks”、“staged smiling”。然后,我翻出自己 2019 年在成都出差时用手机拍的几百张废片,那些模糊的、构图歪斜的、拍糊了的市井角落,用 GPT-4V 把它们描述成文本,形成一组“不完美的真实”语料库,喂给模型做风格参考。
生成过程像在驯兽。第一个版本,春熙路的天桥看起来像科幻基地,太冷。加权重,“warm tungsten street lights”,“slight lens flare from neon signs”。第二个版本,茶馆里的老人动作像蜡像。改提示词,“slow blinks”,“subtle hand tremors while holding teacup”,“conversation pauses filled with ambient tea house sounds”。前后调了十七八轮,光“菜市场湿漉漉反光的地面”这个 3 秒镜头,就耗了我一个下午。
最后成片 2 分钟。开篇是青城山雾气缭绕的岩石(基石),叠化到府南河蜿蜒的水流与高架桥的车灯轨迹(脉络)。春熙路的人潮、软件园下班时单车流(节点与流动),穿插着茶馆里码放茶碗的手、火锅沸腾的红油、阳台伸出竹竿晾晒的衣服。背景音乐是我用 AI 生成的,混合了街头棋局的落子声、采耳工具的嗡鸣、和一段极简的电子脉冲节奏——后者代表那套看不见的数据中台在底下跑着。
片子扔进客户群,沉默了三分钟。然后市场总监跳出来说,原来我们的技术文档讲的是这个。他看懂了。逻辑没有消失,只是穿上了烟火气的衣裳,会说话了。
视觉时代,沉默的逻辑就是死的逻辑。以前我们产品经理吭哧吭哧写 PRD、画原型,以为把逻辑讲清楚就赢了。现在 AI 视频把这层窗户纸捅穿了:人类大脑处理图像信息的速度比文字快 6 万倍,情感共鸣的强度不在一个量级。你那份架构再优雅,抵不过一个 30 秒的视觉隐喻来得直击心脏。
降维打击之下,旧技能会贬值,但定义问题、拆解概念、进行跨介质转译的能力,反而更贵了。我不再是那个只关心 API 接口是否兼容的产品经理了,现在我得同时是意象提炼师、文化地理解码器、和 AI 视觉导演。累,但比写没人看的文档有意思多了。至少,这次我的输出,有人愿意看完了。














