既然文字不再值钱，我就把十年的博客喂给了本地模型-Flovico-AI商业实战教练

既然文字不再值钱，我就把十年的博客喂给了本地模型。硬盘里那三千多个.md文件，从2016年Axure原型拆解到2023年LangChain踩坑实录，加起来快两个G的纯文本，在今天的AI眼里就是一堆廉价燃料。以前觉得字字心血，现在看，无非是给大模型准备的、标注了时间的训练数据。

昨晚搞到凌晨两点，Ollama跑Qwen2.5:7B，用最简单的RAG链条。预处理脚本跑了三个小时，主要时间花在去重和清洗上——早年那些为了SEO硬凑的关键词段落、复制粘贴的API文档碎片，现在看真是污染数据。2018年那会儿疯狂追热点，一篇技术文里能塞五六个“小程序”、“裂变”、“风口”，现在让AI去读，它估计会觉得这人是个躁郁症患者。

真正的麻烦是格式不一致。2016-2017年的文章好多是从WordPress导出的，带一堆HTML标签；2019年之后用Markdown了，但图片链接全崩了；还有几百篇是直接从微信后台复制的，那排版，DOM树看了都得哭。写了个正则表达式处理，匹配了十几种时间戳格式，光这个就报错了十七次。

喂进去之后，用“2024年的我”去问“2018年的我”。我问它：“当时死磕微信小程序云开发，觉得是未来，现在怎么看？”本地模型在索引里刨了一会儿，返回来的句子，混合了我2021年写的反思和2018年写的狂热宣言。它说：“云开发降低了后端门槛，但锁定了生态。2021年回头看，项目死了，不是因为技术，是因为微信改规则。但2018年我不可能信这个。” 这种感觉太诡异了，像是强迫症过去的自己提前剧透。RAG检索出的片段，时间标签是乱的，技术观点却是连贯的——这大概就是数字永生带来的时空错乱：你的结论，早就散落在你过去的挣扎里，只是当时没能力拼起来。

我接着问更狠的：“2020年带团队，最大的失误是什么？”模型吐出来几段，分别来自2020年6月（抱怨招人难）、2020年12月（流水账记录加班）、以及2022年8月的一篇复盘。最后生成的回答是：“用管理弥补招聘的懒惰。当时以为流程能解决一切，实际上招错一个人，后面一百个流程都是补窟窿。身心俱疲的根源不是事多，是人和事不匹配。” 这精准得让我后背发凉。2022年我才彻底想明白的事，模型从我的碎片里挖出来，用2024年的语言组织好了。

这比任何日记复盘都狠。日记有修饰，有情绪滤镜。但技术博客不会撒谎，尤其是那些卡在具体bug里的暴躁记录、那些对某个API过时的诅咒、那些以为发现新大陆其实只是井底之蛙的兴奋——这些是纯粹的状态切片。本地模型没有情感，它只是冷酷地拼接，反而让“自我”的脉络更清晰：焦虑一直没变，只是对象从SEO算法变成了大模型幻觉。

搞完这一套，我盯着命令行滚动的日志，突然觉得十年写作，可能就是为了这一刻：给自己造一个不美化、不遗忘、随时可对话的“数字暗房”。文字是不值钱了，但用三千篇废话炼出来的这个“自我镜像”，可能是对抗AI时代个体失语的最硬通货。它不会安慰你，但能告诉你，你每个阶段的“深信不疑”，后来都成了笑话。而这，可能就是唯一的清醒剂。

文章版权归作者所有，未经允许请勿转载。

THE END

AI实践