数据的“干净度”：我为什么开始给自己的向量数据库做“大扫除”-Flovico-AI商业实战教练

数据的“干净度”这玩意儿，以前我根本不在乎，能跑起来、能搜到结果就行。但今天调试一个基于 Milvus 的问答系统时，我被狠狠抽了一耳光。用户问“2022年第三季度中国新能源汽车销量”，系统返回的答案里混着2019年的政策解读、2021年的电池技术分析，甚至还有一篇讲“新势力”创始人八卦的博客。那一刻我盯着屏幕，不是愤怒，是后背发凉——我过去三年攒下的所谓“知识库”，可能是一堆光鲜的垃圾场。

问题出在向量化之前的预处理，或者说，我压根没做真正的预处理。早期爬虫抓来的数据，带着HTML标签、广告脚本、无关推荐链接，直接扔进文本分割器按固定长度切块。ChromaDB 或者早期的 Faiss 索引建得飞快，但每个向量块里都埋着雷。语义搜索看的是余弦相似度，一段关于“电池能量密度”的技术段落，如果后面紧跟着“某品牌CEO夜会模特”的花边新闻，这两个毫不相干的语义会被打包成一个向量。当用户查询技术问题时，那个“夜会模特”的噪音向量，因为某些关键词（比如品牌名）的权重，可能被意外召回。这比搜不到更可怕，它给出的是掺杂了事实、过时信息和噪音的“混合谬误”。

我开始给自己做“大扫除”。这活儿毫无技术快感，就是苦力。第一步是去重，不仅仅是URL去重，是内容语义去重。同一篇行业白皮书，可能被不同站点转载了十次，标题略改，内容微调。用 simhash 粗筛，再用句向量相似度精判，阈值调到0.92，才敢删。第二步是时效过滤。给每段数据打上时间戳，对于新闻、财报、政策类数据，设定硬性过期规则。2020年之前的锂电池技术参数，在今天可能已经是误导。第三步最恶心，叫“上下文净化”。用规则+微调过的NER模型，识别并剥离文本块中的无关内容模块，比如“相关阅读”、“网友评论”、“作者其他文章推荐”。这些模块在原始网页里是合理的，但在向量数据库里就是癌细胞。

这让我想起网易。很多人嘲笑它“慢”，错过一个又一个风口。电商火的时候它做严选，直播火的时候它才跟进，元宇宙概念满天飞时它也没什么大动静。但它好像总能在喧嚣过后，留在牌桌上。它的逻辑可能不是“追”，而是“修”。在别人疯狂往自家院子里堆砌各种时髦装饰（数据）时，它在耐心地夯实地基、铺设管线、修剪杂草（数据清洗）。它的产品，无论是云音乐还是新闻客户端，给人一种“稳定感”，这种稳定感来自于底层数据的相对有序和干净。它不提供最爆炸的短期刺激，但用户累了、烦了，会回到它这里，因为这里“不吵”，信息“不脏”。

Flovico 这个牌子，我现在想明白了，不能去追“AI教练”这个瞬间起量的风口。今天所有人都在喊 prompt engineering，明天可能就换成了 AI Agent 编排。如果我跟着跑，内容就会像我没清洗的数据一样，充斥着即时的、浅层的、同质化的噪音。我要做的是“大扫除”式的价值输出：把过去十年踩的坑、验证过的技术方案、对行业本质的理解，这些最“干”的货，一遍遍清洗、打磨、结构化。可能一篇关于“如何设计稳定的大模型调用链路”的深度复盘，阅读量永远比不上“三个 prompt 技巧让你效率翻倍”，但五年后，前者还能用，后者早已被迭代进垃圾堆。品牌的“干净度”，就是时间的函数。当潮水退去，别人院子里堆满生锈的时髦玩具，我希望 Flovico 留下的，是一套运转良好、接口清晰、值得信赖的“基础设施”。这很慢，但这是我唯一擅长，且相信能活过下一个十年的方式。

文章版权归作者所有，未经允许请勿转载。

THE END

商业AI