这项目其实源于我妈上周又被骗了三千块。她接了个自称“医保局”的电话,对方准确报出了她的身份证号,说她的医保卡在上海被盗刷,需要立刻冻结账户并转移资金到“安全账户”。老太太吓坏了,按照指示操作,等反应过来已经晚了。我在电话里听着她带着哭腔的叙述,火气蹭蹭往上冒,但更多的是无力感——骂骗子没用,怪她也于心不忍。最后憋出一句:“妈,以后陌生电话你别接了,等我回来弄。”
挂掉电话我就知道,光靠叮嘱没用。诈骗话术迭代速度比 App 更新还快,老年人那点认知防御根本不够看。市面上那些防骚扰 App,靠的是号码库标记,对付这种用虚拟号码、一次性话术的精准诈骗,基本是马后炮。得从通话内容本身下手。既然我现在整天泡在 AI 里,那就用 AI 来筑这道防火墙。
技术栈选型没太多犹豫。核心是实时语音转文本 + 大模型语义识别 + 自动化动作。语音转文本用 OpenAI 的 Whisper API,便宜,准确度对付普通话诈骗话术够用。大模型本来想用 GPT-4,但考虑到实时性和成本,最后选了 Claude 3 Haiku,响应快,对“安全账户”、“涉嫌洗钱”、“配合调查”这类关键词和意图的捕捉非常敏锐。自动化部分用了 n8n,这个我太熟了,用它来监听通话录音文件(通过一个改造过的 Android 自动化工具获取),触发工作流。
真正的难点在“实时”和“本地化”的平衡上。理想情况是手机端本地完成所有处理,但现阶段移动设备的算力跑 Whisper 再加个大模型,延迟和发热都是问题。所以走了个折中方案:手机上的自动化工具只负责在接听后自动录音,并把音频流实时上传到我的家庭服务器。服务器跑着 n8n 工作流,收到音频块就调用 Whisper 转译,然后把文本片段喂给 Claude 做流式分析。我设定了几个高置信度的诈骗特征触发器:一旦在对话中同时检测到“官方机构身份宣称”(如公安局、医保局)、“紧迫性威胁”(如逮捕、冻结)和“资金转移指令”(安全账户、验证资金),并且对方持续说话超过 45 秒(排除正常客服可能),工作流就会向手机发送一个高强度震动+特定铃声的指令,这是我和家人约定好的“立刻挂断”信号。如果检测到家人已经开始透露身份证号、银行卡号等敏感信息,则会触发更紧急的指令——自动调大手机媒体音量播放一段我预设的警告语音:“该通话涉嫌诈骗,请立即挂断!”,然后自动化工具会强行挂断电话。
测试阶段我用自己的手机模拟了各种诈骗话术。效果比预想的好。对于那种“猜猜我是谁”的老套开场,AI 可能还会犹豫一下,但对于剧本化的、带有明确勒索和转账指令的诈骗,识别准确率能到 95% 以上。我特意测试了正常推销电话,因为推销员也会说“您好这里是XX银行”,但只要不涉及“涉嫌犯罪”、“安全账户”这种组合拳,系统就不会误判。我把这套东西装在了我爸和我妈的旧手机上,界面极其简单,就一个开关。我告诉他们:“只要这个绿灯亮着,奇怪的电话来了,听不清或者觉得不对劲,就放着,别说话,等手机自己震动或大声提醒,你们就挂。”
昨晚我妈打电话来,语气有点新奇,说下午有个电话进来,说了两句“您涉嫌金融诈骗”,手机突然很大声地喊“诈骗电话,挂掉挂掉”,把她吓了一跳,然后电话就自己断了。她笑着说:“你这东西,比儿子还凶。” 我在这头也笑了,但鼻子有点酸。
搞了十几年技术,从爬虫抓数据到做小程序追流量,再到被 AI 浪潮拍打得晕头转向,很多时候都在焦虑怎么用技术搞钱、怎么不被淘汰。但这个小小的、粗糙的自动化脚本,却让我第一次清晰地感觉到,技术那冰冷的逻辑底下,最终流淌的还是关于人的温度。它解决不了一切,防不住所有骗局,但至少,在那些电话铃声响起、父母不知所措的瞬间,我能用我熟悉的方式,在他们身边筑起一道小小的、会思考的堤坝。这大概就是一个中年极客,能写出的最笨拙也最直接的情书了。














