既然视觉时代不看字,我就用 Luma API 把文字复盘全变成了短视频素材。今天测试完最后一轮,看着后台自动生成的视频列表,我他妈突然有点恍惚。十年前我还在死磕 SEO 关键词密度,现在得琢磨怎么让 AI 生成的 3D 场景跟我的文案情绪同步。这世界变得太快,快到你刚学会爬,别人已经在用曲率引擎了。
昨天一个做知识付费的老哥找我,说流量掉得厉害,图文没人看了。我问他试没试过视频,他说剪不过来,一个脚本从写稿到出片得两天,成本扛不住。我直接把我的 n8n 工作流截图甩过去。核心就三块:一是用 GPT-4o 把复盘日记提炼成 15 秒爆点脚本,强调冲突和反转;二是调用 Luma Labs 的 Dream Machine API,根据脚本里的关键词生成 3-5 秒的动态场景;三是用 ElevenLabs 把文案转成带情绪的语音,最后在 CapCut 的云剪辑 API 里把所有素材、字幕、背景音乐自动合成。从文字到发布,全流程无人值守,耗时不超过 7 分钟。
这里面的坑多得能摔死人。Luma 的 API 有频率限制,免费 tier 根本不够用,你得自己写个队列管理器,把渲染任务排队,还得处理失败重试。更恶心的是 AI 生视频的不可控性,你 prompt 里写“一个疲惫的产品经理对着电脑”,它可能给你生成一个卡通人物在跳舞。我花了整整一周,才通过“负面提示词”和“参考图像”把风格勉强控住。这玩意儿不像 ChatGPT 那么听话,它有自己的“艺术理解”,你得跟它博弈。
视觉时代,沉默的逻辑也需要会说话。我过去十年写的几百万字复盘,那些关于 DOM 树解析、团队股权纠纷、低卡饮食配比的思考,在抖音快手里就是一堆沉默的垃圾。但现在,我能让“2018年那个为了抢微信搜索流量熬夜写爬虫的自己”,变成一个在昏暗办公室里、代码滚动、咖啡杯见底的 3D 动画场景。配上低沉语音说:“那时候以为抓住技术就是一切。” 这种情绪渲染,比干巴巴的文字有力一万倍。
有人问我,这不就是内容流水线吗,还有思考的深度吗?我的回答是,深度没变,变的是载体和效率。思考本身发生在写复盘的那一刻,而视频只是它的放大器。当你需要用这个时代听得懂的语言去布道时,封装技术就是你的义务。我现在训练自己,每写完一段文字,脑子里自动开始分镜:这里用什么画面?节奏是快是慢?背景音乐是激昂还是悬疑?这是一种全新的肌肉记忆。
团队扩张那两年,我陷在管理泥潭里,觉得什么事都得亲力亲为才叫负责。现在看,蠢透了。真正的负责,是建立一套系统,让高质量的内容能像自来水一样流出来。AI 不是替代思考,它替代的是那些重复、机械、耗时的“表达转换”环节。我把更多时间留给了真正核心的东西:问题定义、策略判断,以及像现在这样,琢磨怎么用下一个工具。
后台显示,今天又自动生成了 17 条视频素材,已经通过预设的规则分发到了 TikTok 和视频号。我不用再关心渲染进度,系统会给我发失败告警。十年前,我焦虑的是技术会不会过时;现在,我焦虑的是我的“自动化思维”能不能跑得比平台算法迭代更快。这种焦虑,高级多了。至少,我不再是那个对着窗外夜色,感叹时光流逝的文艺青年了。我是在服务器日志里,看流量如何起搏。














