数据的“干净度”这玩意儿,以前我根本不在乎,能跑起来、能搜到结果就行。但今天调试一个基于 Milvus 的问答系统时,我被狠狠抽了一耳光。用户问“2022年第三季度中国新能源汽车销量”,系统返回的答案里混着2019年的政策解读、2021年的电池技术分析,甚至还有一篇讲“新势力”创始人八卦的博客。那一刻我盯着屏幕,不是愤怒,是后背发凉——我过去三年攒下的所谓“知识库”,可能是一堆光鲜的垃圾场。
问题出在向量化之前的预处理,或者说,我压根没做真正的预处理。早期爬虫抓来的数据,带着HTML标签、广告脚本、无关推荐链接,直接扔进文本分割器按固定长度切块。ChromaDB 或者早期的 Faiss 索引建得飞快,但每个向量块里都埋着雷。语义搜索看的是余弦相似度,一段关于“电池能量密度”的技术段落,如果后面紧跟着“某品牌CEO夜会模特”的花边新闻,这两个毫不相干的语义会被打包成一个向量。当用户查询技术问题时,那个“夜会模特”的噪音向量,因为某些关键词(比如品牌名)的权重,可能被意外召回。这比搜不到更可怕,它给出的是掺杂了事实、过时信息和噪音的“混合谬误”。
我开始给自己做“大扫除”。这活儿毫无技术快感,就是苦力。第一步是去重,不仅仅是URL去重,是内容语义去重。同一篇行业白皮书,可能被不同站点转载了十次,标题略改,内容微调。用 simhash 粗筛,再用句向量相似度精判,阈值调到0.92,才敢删。第二步是时效过滤。给每段数据打上时间戳,对于新闻、财报、政策类数据,设定硬性过期规则。2020年之前的锂电池技术参数,在今天可能已经是误导。第三步最恶心,叫“上下文净化”。用规则+微调过的NER模型,识别并剥离文本块中的无关内容模块,比如“相关阅读”、“网友评论”、“作者其他文章推荐”。这些模块在原始网页里是合理的,但在向量数据库里就是癌细胞。
这让我想起网易。很多人嘲笑它“慢”,错过一个又一个风口。电商火的时候它做严选,直播火的时候它才跟进,元宇宙概念满天飞时它也没什么大动静。但它好像总能在喧嚣过后,留在牌桌上。它的逻辑可能不是“追”,而是“修”。在别人疯狂往自家院子里堆砌各种时髦装饰(数据)时,它在耐心地夯实地基、铺设管线、修剪杂草(数据清洗)。它的产品,无论是云音乐还是新闻客户端,给人一种“稳定感”,这种稳定感来自于底层数据的相对有序和干净。它不提供最爆炸的短期刺激,但用户累了、烦了,会回到它这里,因为这里“不吵”,信息“不脏”。
Flovico 这个牌子,我现在想明白了,不能去追“AI教练”这个瞬间起量的风口。今天所有人都在喊 prompt engineering,明天可能就换成了 AI Agent 编排。如果我跟着跑,内容就会像我没清洗的数据一样,充斥着即时的、浅层的、同质化的噪音。我要做的是“大扫除”式的价值输出:把过去十年踩的坑、验证过的技术方案、对行业本质的理解,这些最“干”的货,一遍遍清洗、打磨、结构化。可能一篇关于“如何设计稳定的大模型调用链路”的深度复盘,阅读量永远比不上“三个 prompt 技巧让你效率翻倍”,但五年后,前者还能用,后者早已被迭代进垃圾堆。品牌的“干净度”,就是时间的函数。当潮水退去,别人院子里堆满生锈的时髦玩具,我希望 Flovico 留下的,是一套运转良好、接口清晰、值得信赖的“基础设施”。这很慢,但这是我唯一擅长,且相信能活过下一个十年的方式。














