咪蒙事件一出来,我后背的汗毛都竖起来了。不是为她,是为我自己手里这摊子 SaaS 业务。我们给那些实体店老板做私域流量工具,说白了就是帮他们在微信里建群、发内容、做裂变。以前觉得内容审核是平台的事,现在明白了,平台一旦收紧,第一个死的就是我们这种提供工具的。那些老板,尤其是医美、保健品、金融这些行业的,脑子里根本没有“合规”这根弦。他们觉得私域就是法外之地,什么“一针见效”、“绝对保本”、“内部渠道”这种词,随手就打出来了。他们号被封了,顶多骂骂咧咧再买一个。但微信的风控是链式的,一旦追查到内容是从我们 SaaS 后台的域名发出去的,整个域名池都可能被拉黑。那就不是死一个客户,是所有客户的业务瞬间瘫痪。这个风险,我担不起。
所以,必须把合规防御拉到最高级别,而且是自动化的。不能再依赖人工抽查,那纯属扯淡。我的思路是两层:第一层,本地部署一个超大规模的敏感词正则匹配库。这个库不能只用网上流传的那些基础版,得自己养。我写了个爬虫,专门去爬各大投诉平台、网信办公告、还有那些已经被封杀的微商朋友圈截图,用 OCR 识别文字,再人工复核,提取出新的高危词汇和变体(比如用符号、谐音、拆字)。这个库现在有快四万个词条,每天还在更新。正则匹配的优势是快,毫秒级响应,能拦住大部分明显的雷。
但光有正则不够。有些内容,单看词汇没问题,组合起来的意思就极其危险,或者玩高级黑、隐喻。这就需要第二层:接入大厂的 NLP 文本合规 API。我对比了百度 AI 和腾讯云的 Text Moderation API,最后选了腾讯的,毕竟在微信生态里,用他们自家的服务可能更“懂”他们的审核规则。对接过程就是标准的 API 调用,但坑不少。首先是频率限制和成本,客户每天产生的内容量很大,全量送审费用扛不住。所以我做了个策略:本地正则库先筛一遍,只有那些匹配了中低风险关键词组合,或者句式结构可疑的文本,才会触发第二层 API 深度审核。这叫防御性编程,得控制成本。
调试阶段最折磨人。我模拟了各种极端案例去测试,比如把一段明显的涉政隐喻拆成好几段发,或者用行业黑话描述违禁服务。API 的返回结果里有标签和置信度,比如“政治敏感”、“暴恐”、“色情低俗”、“广告营销”。我需要设定一个阈值,置信度超过 70% 的直接拦截并记录,50%-70% 的标记为可疑,转人工复核队列(虽然这个队列基本没人看,但流程得有)。这里还涉及文本特征向量化的问题,简单说就是 API 会把文本转换成数学向量,然后和它的风险模型做比对,这个过程我们不可见,只能相信大厂的算法。
昨天下午,系统报警了。一位做医美的客户,在编辑群发文案时,输入了这么一段:“本院引进韩国最新‘僵尸细胞活化术’,一针下去,皱纹全消,效果永久,无效全额退款,这是国家不允许公开的技术,仅限前十名。” 本地正则库先命中了“永久”、“全额退款”、“不允许公开”这几个风险词组合,触发了 API 送审。三秒后,API 返回结果:标签“广告营销-虚假夸大”,置信度 92%。系统自动拦截,文案被打回,后台记录了一条高危日志,并给客户站内信提示“您的内容可能违反平台规定,请修改”。
看到拦截成功的那条日志时,我靠在椅子上,长长地、长长地出了一口气。这不是技术上的胜利,这是一种劫后余生的庆幸。我知道,这只是万里长征第一步,审核规则会变,对抗会升级,成本压力一直都在。但至少此刻,我给自己和客户,筑起了一道看得见的防火墙。在微信的生态里讨饭吃,就得比平台更紧张,更怕死。这种如履薄冰的感觉,大概会伴随我的整个创业生涯。














