既然忘性变大，我就用 Dify 搭了个“懂我十年”的知识库-Flovico-AI商业实战教练

往太阳穴上抹了把清凉油，指尖那股刺鼻的凉意直冲天灵盖，算是把今天下午跟一个客户扯皮时积攒的烦躁暂时压下去了。最近这半年，忘性是真的大了，上周刚跟人聊过的需求细节，这周复盘会议时脑子里只剩个模糊的影子，得翻半天聊天记录才能对上号。这不行，绝对不行。一个靠交付吃饭的超级个体，脑子就是硬盘，现在这硬盘读写速度明显下降了，还时不时丢数据。

十年前，2014年左右吧，我还在死磕爬虫和SEO，那时候的记忆力好得吓人，一个网站的DOM树结构看几眼就能摸清规律，写正则跟玩儿似的。现在？连昨天中午吃了什么都得想半天。这不是年龄问题，是信息过载。ChatGPT出来之后，我像海绵一样吸水，Prompt工程、RAG架构、LangChain的各种Chain，还有层出不穷的模型API，每天接触的新概念比过去一个月都多。大脑的缓存区早就爆了，新东西挤进来，旧东西就被覆盖，包括那些本该记住的、关于“我”自己的东西。

所以我得给自己搞个“外置硬盘”，一个专属于Flovico的、懂我过去十年的知识库。工具选的是Dify，没选更底层的LangChain。原因很简单，2024年了，时间成本是第一位的。LangChain当然强大，灵活，但你得自己搭管道，处理各种Loader、TextSplitter、VectorStore的兼容性问题，还有那令人头疼的Chain的调试。Dify提供了一个相对完整的GUI，把RAG（检索增强生成）的流程封装成了可视化的工作流，我要的是快速验证这个想法，而不是再掉进技术细节的坑里。

具体搭建过程，其实核心就三步，但每一步都有坑。第一步，喂数据。我把能找到的电子化资料全扔进去了：2016年到2023年的博客草稿和发布稿（Markdown格式）、几个重要项目的需求文档和会议纪要（Word/PDF）、甚至还有微信聊天记录的导出文本（剔除了隐私部分）。Dify支持多种文件格式，这点省事。关键在“文本分割”策略。不能按固定字符数无脑切，那样会把一个完整的需求描述腰斩。我用了基于语义的分割，确保每个“块”在语义上相对完整，比如一个功能点描述，或者一段项目复盘。

第二步，嵌入和检索。这是核心中的核心。Dify内置了OpenAI的text-embedding模型，我直接用了。向量数据库用的是它自带的，够用了。真正的功夫在“检索”环节的设置。你不能简单返回相似度最高的几个片段就完事。我设置了“多路召回”：先用关键词快速筛一遍（比如“小程序”、“交付延期”），再用向量相似度做精细检索，最后把结果做一个重排序，让最相关、信息密度最高的片段排在最前面。这里调了几次参数，比如相似度阈值、返回片段的数量，目的是在“召回率”和“精确率”之间找到平衡，别让它漏掉关键信息，也别塞一堆废话进来。

第三步，提示词工程，让AI“懂我”。这才是赋予这个知识库灵魂的地方。我在Dify的“提示词”模块里，写了很长的一段系统指令。不只是告诉它“你是一个基于Flovico知识库的助手”，而是详细定义了“Flovico是谁”：“一个从2016年开始写博客的产品经理，经历过野蛮生长、团队管理陷阱，2021年后回归超级个体，目前专注AI与自动化。他的文风直接，讨厌废话，思考问题带有强烈的交付和ROI视角。回答问题时，应优先引用知识库中他本人过去的经历和观点来佐证或类比，语气需贴合其复盘风格。”

昨晚我做了测试。我问它：“2019年做团队管理时，最大的教训是什么？”它没有泛泛而谈“沟通很重要”，而是从知识库里检索出了我2020年一篇草稿里的原话：“当时以为流水就是一切，招了五个人做小程序外包，结果陷入无限的需求变更和救火式交付。教训是，小团队的核心控制力不在于管理流程，而在于老板本人能否守住交付底线和利润模型，一旦失控，流水只是过手财神，身心俱疲。”看到这个回复的瞬间，后脊梁有点发麻。它不是在生成信息，它是在帮我“回忆”，用一种比我当下大脑更精准的方式。

这个“数字记忆”的意义，远不止于防止遗忘。它是我作为“AI实战教练”这个新身份的基石。当我在n8n里设计一个自动化流程，或者在封装一个GUI工具时，我可以随时问我的知识库：“类似的数据清洗需求，我在2021年的爬虫项目里是怎么处理的？”“当时用Selenium应对反爬的策略，有哪些可以迁移到现在？”它连接了我的过去和现在，把十年的经验教训变成了一个可实时查询、可交叉引用的智库。

清凉油的劲儿过去了，太阳穴又开始隐隐发胀。但心里稳了点。在这个AI进化速度按周计算的时代，个人的肉身记忆注定是脆弱的。但或许，超级个体的终极进化形态，不是把自己变成AI，而是学会用AI工具，外化、强化、并永久保存那个独特的“自己”。这个懂我十年的知识库，就是我的第一块，也是最重要的一块拼图。

文章版权归作者所有，未经允许请勿转载。

THE END