既然忘性变大,我就用 Dify 搭了个“懂我十年”的知识库

往太阳穴上抹了把清凉油,指尖那股刺鼻的凉意直冲天灵盖,算是把今天下午跟一个客户扯皮时积攒的烦躁暂时压下去了。最近这半年,忘性是真的大了,上周刚跟人聊过的需求细节,这周复盘会议时脑子里只剩个模糊的影子,得翻半天聊天记录才能对上号。这不行,绝对不行。一个靠交付吃饭的超级个体,脑子就是硬盘,现在这硬盘读写速度明显下降了,还时不时丢数据。

十年前,2014年左右吧,我还在死磕爬虫和SEO,那时候的记忆力好得吓人,一个网站的DOM树结构看几眼就能摸清规律,写正则跟玩儿似的。现在?连昨天中午吃了什么都得想半天。这不是年龄问题,是信息过载。ChatGPT出来之后,我像海绵一样吸水,Prompt工程、RAG架构、LangChain的各种Chain,还有层出不穷的模型API,每天接触的新概念比过去一个月都多。大脑的缓存区早就爆了,新东西挤进来,旧东西就被覆盖,包括那些本该记住的、关于“我”自己的东西。

所以我得给自己搞个“外置硬盘”,一个专属于Flovico的、懂我过去十年的知识库。工具选的是Dify,没选更底层的LangChain。原因很简单,2024年了,时间成本是第一位的。LangChain当然强大,灵活,但你得自己搭管道,处理各种Loader、TextSplitter、VectorStore的兼容性问题,还有那令人头疼的Chain的调试。Dify提供了一个相对完整的GUI,把RAG(检索增强生成)的流程封装成了可视化的工作流,我要的是快速验证这个想法,而不是再掉进技术细节的坑里。

具体搭建过程,其实核心就三步,但每一步都有坑。第一步,喂数据。我把能找到的电子化资料全扔进去了:2016年到2023年的博客草稿和发布稿(Markdown格式)、几个重要项目的需求文档和会议纪要(Word/PDF)、甚至还有微信聊天记录的导出文本(剔除了隐私部分)。Dify支持多种文件格式,这点省事。关键在“文本分割”策略。不能按固定字符数无脑切,那样会把一个完整的需求描述腰斩。我用了基于语义的分割,确保每个“块”在语义上相对完整,比如一个功能点描述,或者一段项目复盘。

第二步,嵌入和检索。这是核心中的核心。Dify内置了OpenAI的text-embedding模型,我直接用了。向量数据库用的是它自带的,够用了。真正的功夫在“检索”环节的设置。你不能简单返回相似度最高的几个片段就完事。我设置了“多路召回”:先用关键词快速筛一遍(比如“小程序”、“交付延期”),再用向量相似度做精细检索,最后把结果做一个重排序,让最相关、信息密度最高的片段排在最前面。这里调了几次参数,比如相似度阈值、返回片段的数量,目的是在“召回率”和“精确率”之间找到平衡,别让它漏掉关键信息,也别塞一堆废话进来。

第三步,提示词工程,让AI“懂我”。这才是赋予这个知识库灵魂的地方。我在Dify的“提示词”模块里,写了很长的一段系统指令。不只是告诉它“你是一个基于Flovico知识库的助手”,而是详细定义了“Flovico是谁”:“一个从2016年开始写博客的产品经理,经历过野蛮生长、团队管理陷阱,2021年后回归超级个体,目前专注AI与自动化。他的文风直接,讨厌废话,思考问题带有强烈的交付和ROI视角。回答问题时,应优先引用知识库中他本人过去的经历和观点来佐证或类比,语气需贴合其复盘风格。”

昨晚我做了测试。我问它:“2019年做团队管理时,最大的教训是什么?”它没有泛泛而谈“沟通很重要”,而是从知识库里检索出了我2020年一篇草稿里的原话:“当时以为流水就是一切,招了五个人做小程序外包,结果陷入无限的需求变更和救火式交付。教训是,小团队的核心控制力不在于管理流程,而在于老板本人能否守住交付底线和利润模型,一旦失控,流水只是过手财神,身心俱疲。”看到这个回复的瞬间,后脊梁有点发麻。它不是在生成信息,它是在帮我“回忆”,用一种比我当下大脑更精准的方式。

这个“数字记忆”的意义,远不止于防止遗忘。它是我作为“AI实战教练”这个新身份的基石。当我在n8n里设计一个自动化流程,或者在封装一个GUI工具时,我可以随时问我的知识库:“类似的数据清洗需求,我在2021年的爬虫项目里是怎么处理的?”“当时用Selenium应对反爬的策略,有哪些可以迁移到现在?”它连接了我的过去和现在,把十年的经验教训变成了一个可实时查询、可交叉引用的智库。

清凉油的劲儿过去了,太阳穴又开始隐隐发胀。但心里稳了点。在这个AI进化速度按周计算的时代,个人的肉身记忆注定是脆弱的。但或许,超级个体的终极进化形态,不是把自己变成AI,而是学会用AI工具,外化、强化、并永久保存那个独特的“自己”。这个懂我十年的知识库,就是我的第一块,也是最重要的一块拼图。

© 版权声明
THE END
喜欢就支持一下吧
点赞46 分享