既然文字不再值钱,我就把十年的博客喂给了本地模型。硬盘里那三千多个.md文件,从2016年Axure原型拆解到2023年LangChain踩坑实录,加起来快两个G的纯文本,在今天的AI眼里就是一堆廉价燃料。以前觉得字字心血,现在看,无非是给大模型准备的、标注了时间的训练数据。
昨晚搞到凌晨两点,Ollama跑Qwen2.5:7B,用最简单的RAG链条。预处理脚本跑了三个小时,主要时间花在去重和清洗上——早年那些为了SEO硬凑的关键词段落、复制粘贴的API文档碎片,现在看真是污染数据。2018年那会儿疯狂追热点,一篇技术文里能塞五六个“小程序”、“裂变”、“风口”,现在让AI去读,它估计会觉得这人是个躁郁症患者。
真正的麻烦是格式不一致。2016-2017年的文章好多是从WordPress导出的,带一堆HTML标签;2019年之后用Markdown了,但图片链接全崩了;还有几百篇是直接从微信后台复制的,那排版,DOM树看了都得哭。写了个正则表达式处理,匹配了十几种时间戳格式,光这个就报错了十七次。
喂进去之后,用“2024年的我”去问“2018年的我”。我问它:“当时死磕微信小程序云开发,觉得是未来,现在怎么看?”本地模型在索引里刨了一会儿,返回来的句子,混合了我2021年写的反思和2018年写的狂热宣言。它说:“云开发降低了后端门槛,但锁定了生态。2021年回头看,项目死了,不是因为技术,是因为微信改规则。但2018年我不可能信这个。” 这种感觉太诡异了,像是强迫症过去的自己提前剧透。RAG检索出的片段,时间标签是乱的,技术观点却是连贯的——这大概就是数字永生带来的时空错乱:你的结论,早就散落在你过去的挣扎里,只是当时没能力拼起来。
我接着问更狠的:“2020年带团队,最大的失误是什么?”模型吐出来几段,分别来自2020年6月(抱怨招人难)、2020年12月(流水账记录加班)、以及2022年8月的一篇复盘。最后生成的回答是:“用管理弥补招聘的懒惰。当时以为流程能解决一切,实际上招错一个人,后面一百个流程都是补窟窿。身心俱疲的根源不是事多,是人和事不匹配。” 这精准得让我后背发凉。2022年我才彻底想明白的事,模型从我的碎片里挖出来,用2024年的语言组织好了。
这比任何日记复盘都狠。日记有修饰,有情绪滤镜。但技术博客不会撒谎,尤其是那些卡在具体bug里的暴躁记录、那些对某个API过时的诅咒、那些以为发现新大陆其实只是井底之蛙的兴奋——这些是纯粹的状态切片。本地模型没有情感,它只是冷酷地拼接,反而让“自我”的脉络更清晰:焦虑一直没变,只是对象从SEO算法变成了大模型幻觉。
搞完这一套,我盯着命令行滚动的日志,突然觉得十年写作,可能就是为了这一刻:给自己造一个不美化、不遗忘、随时可对话的“数字暗房”。文字是不值钱了,但用三千篇废话炼出来的这个“自我镜像”,可能是对抗AI时代个体失语的最硬通货。它不会安慰你,但能告诉你,你每个阶段的“深信不疑”,后来都成了笑话。而这,可能就是唯一的清醒剂。














