清洗几十G的脏数据：正则表达式是产品经理最该学的黑魔法-Flovico-AI商业实战教练

窗外是深圳科技园凌晨三点的灯光，雨刚停，玻璃上还挂着水珠。我盯着屏幕上那几十个G的压缩包，里面是我过去三个月用爬虫从各种角落扒下来的“内容矿藏”。解压出来，全是txt，但打开任何一个文件，你都会怀疑人生——HTML标签像藤蔓一样缠绕着正文，乱码字符像霉菌一样随机生长，还有无数广告脚本残留的{click here}和[ADVERTISEMENT]。

三十二岁，还在用最笨的字符串替换。我写了几百行Python脚本，用replace()一遍遍过滤。一个下午，就为了清理掉

和

。结果呢？漏了

，漏了

，还差点把正文里出现的“div”这个词给误杀了。效率低得像用勺子挖隧道，而且你永远不知道黑暗里还藏着什么。

然后我遇到了正则表达式。

第一次看到^[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,}$这串天书时，我脑子是懵的。这什么鬼画符？美元符号、尖括号、加号问号……感觉像在解读外星电码。本能地抗拒，觉得这是程序员为了制造壁垒而发明的黑话。

但数据不会说谎。那堆乱麻里，埋着可能几十万个邮箱，几百万个手机号片段。那是钱，是流量，是能喂给下一步自动化内容生成模型的干净粮食。商业逻辑很简单：脏数据是负资产，清洗成本决定挖掘上限。你不标准化，后续所有分析、聚合、推荐都是空中楼阁。

硬着头皮学。从最简单的.开始，匹配任意字符。然后是*，零次或多次。+，一次或多次。?，非贪婪匹配——这个太关键了。你知道当你用去匹配时，它会一口气吞掉从第一个

到文档最后一个>之间的所有内容吗？那就是贪婪。而会乖巧地在遇到第一个闭合>时就停下。就这一个符号，把我从无尽的嵌套地狱里拉了出来。

真正的神迹发生在那个通宵的尾声。我需要从混杂的文本里提取所有中国大陆手机号。格式太乱了，有写成“138-0013-8000”的，有“138 0013 8000”，还有“手机：13800138000”。用常规字符串处理，得写一堆条件判断，还容易漏。

我深吸一口气，在编辑器里敲下：
`(?