手指用力扣掉算力机箱风扇上那层厚厚的积灰,这玩意儿已经连续跑了快一个月没关机了。今天终于把最后一批数据灌完,本地模型在 3090 上跑出了第一个能用的结果。这意味着,从今天起,我所有核心的复盘逻辑、产品拆解、甚至情绪波动的模式,都不再需要调用 OpenAI 的 API 了。不是赌气,是算了一笔账,发现依赖外部 API 的“智能”,在 2026 年已经成了一种慢性毒药。
十年前,2016年,我焦虑的是怎么从百度嘴里抢流量,爬虫怎么绕过反爬,怎么用 Axure 把交互画得更炫。那时候的“自主”是物理层面的,服务器在自己手里,代码自己写。后来依赖微信生态、依赖各种云服务,其实已经让渡了一部分自主权,但好歹数据格式还是自己的。ChatGPT 刚出来那两年,我是狂喜的,感觉拿到了核武器,所有思考的粗活累活都能外包了。但很快,问题就来了。首先是成本,当你真的想把 AI 深度嵌入工作流,每天几百次的调用,账单看着就肉疼。更致命的是“黑盒化”,你喂给它的 prompt 和你拿到的结果之间,隔着一层你永远无法掌控的“公司意志”。它今天好用,明天可能就因为一次更新变得啰嗦或者保守。你的核心工作流,建立在另一家公司的产品策略之上,这感觉比当年依赖微信还糟糕。
所以从去年开始,我就琢磨“脱钩”。不是不用 AI,而是要把最核心的、决定我 IP 底层逻辑的那部分,搬回本地。第一步是数据整理,这才是最他妈累的。十年的博客、复盘笔记、课程文稿、甚至和一些学员的深度聊天记录(脱敏后),全部导出来。txt,md,json,什么格式都有。光是清洗和分类就花了两个月,用 n8n 搭了流水线,先让 GPT-4 帮我做初步的结构化标签,然后再人工校验。这里有个关键:不能只喂“成功经验”,那些我踩过的坑、判断失误的记录、情绪崩溃时写的碎碎念,反而可能是更珍贵的训练数据。模型需要理解一个完整的人,而不是一个圣人。
第二步是选模型和微调。直接上最新的千亿参数模型不现实,本地显卡扛不住。退而求其次,选了 Llama 3 一个 70B 的版本,在量化后勉强能在 3090 上跑起来。微调框架用的就是主流的 LoRA,关键点在于“提示词工程”的迁移。我把过去几年优化出来的、针对我写作风格的 prompt 模板,本身也作为训练数据的一部分喂了进去。目标不是创造一个通用的写作 AI,而是创造一个“Flovico 思维模式的模拟器”。训练过程就是不断调试,看它输出的复盘文字,有没有我那种“带着焦虑感拆解技术细节”的味儿,会不会动不动就冒出“我操”、“特么的”这种我的口头禅(当然正式输出会过滤掉)。
现在跑通的这个版本,我给它取了个代号叫“内核”。它的能力边界很清晰:你给它一个我最近在研究的工具(比如一个新的自动化 GUI 封装软件),它能基于我过去的行文逻辑,生成一篇结构类似、知识点拆解角度类似的初稿。它不会凭空创造我不知道的知识,但能极大加速我从“学习”到“输出”的过程。更重要的是,整个流程都在我书房这台嗡嗡作响的机器里完成。没有网络延迟,没有审核风险,没有突然的费率调整。那种控制感,回来了。
当然,这不是终点。本地模型的智力天花板就在那儿,复杂逻辑和最新知识还得靠联网搜索和调用更强大的云端模型(作为可选插件)。但核心的、标志性的“Flovico 方法论”已经完成了本地化封装。这感觉就像当年从租用虚拟主机,到终于攒钱买了第一台属于自己的服务器。表面上都是提供服务,但底层的心态完全不同。一个是在别人的土地上盖房子,再怎么装修,地契不是你的。现在,我至少把最核心的思维地基,搬回了自己的院子。风扇的噪音很吵,但听起来比每月收到 API 账单时的心跳声,要安静得多。














