百度这次把文心一言的 API 接口价格打下来,还开放了那么多垂直场景的模型,动作比阿里腾讯快半拍。我盯着后台的计费文档看了半小时,脑子里就一个念头:以前是我求着用他们的服务,现在是不是可以反过来,用他们的“基础设施”来武装我的本地脚本了?
十年前我做爬虫,最头疼的就是反爬和解析。一个页面结构稍微变一下,正则表达式或者 XPath 就得重写,半夜被报警短信叫起来是常事。后来用上了一些机器学习做文本分类和实体识别,但训练和维护成本高得吓人,小团队根本玩不转。现在好了,大厂把训练好的模型像水电煤一样摆出来,按量计费,这完全改变了游戏规则。
我昨天花了三个小时,把我一个老客户的数据清洗脚本重构了。这脚本原本是用正则和一堆 if-else 硬编码,专门处理各种电商平台导出的混乱商品标题,提取品牌、型号、规格。每次平台改版,我都得手动去调规则,客户还总觉得我收维护费是在坑他。这次我直接接入了文心一言的 ERNIE 3.5 Text-Embedding 和他们的商品信息结构化接口。流程变成了:脚本先本地爬取或读取原始数据,把一堆乱七八糟的文本扔给 API,返回一个结构化的 JSON,我的脚本再拿着这个 JSON 去进行后续的比对、去重和入库。
效果是降维打击。以前靠规则,准确率撑死 85%,遇到“Apple iPhone 15 Pro Max 蓝色 1TB 国行”和“苹果手机15PM 1T 蓝色 大陆版”这种变体,根本认不出是同一个东西。现在让大模型去理解语义,相似度匹配轻松上 95%。更重要的是,我的脚本逻辑变得极其简单和健壮——它不再需要理解“商品标题”是什么,它只需要会调用 API、处理返回的数据、然后记录日志和计费。所有的“智能”和“脏活”都外包给了百度的服务器。
但这带来了新的问题,或者说,新的焦虑点。首先是成本敏感。我的脚本现在是 7×24 小时在服务器上跑的,虽然单次调用几分钱,但量大了也是肉。我得在脚本里加入更精细的流量控制和缓存逻辑,比如对完全相同的文本请求进行内存缓存,对相似度极高的文本尝试用上一次的结果进行模糊匹配,避免无谓的 API 调用。这又回到了我老本行——性能优化,只不过对象从数据库变成了远程 API。
其次是依赖风险。我的整个自动化流程的“大脑”现在不在我手里了。API 的稳定性、响应延迟、甚至未来的价格调整,都成了我系统的单点故障源。昨晚我就在 n8n 里设计了一个故障转移方案:主用百度,备用阿里通义千问,再备一个本地运行的、用小数据集微调过的开源模型(比如 Qwen 或 ChatGLM)。调用时先试主用,超时或返回异常就快速切换。这相当于给我的脚本上了个保险,但复杂度也上来了,从“写业务逻辑”变成了“设计分布式服务治理”,虽然规模很小。
最后是“灵魂”问题。当我的脚本里最核心的认知能力都依赖于外部 API 时,我作为开发者还剩下什么?是流程设计的能力?是拼接这些“乐高积木”的眼光?还是对客户业务本身的理解?想深了有点虚无。但转头一看,客户才不管你的“灵魂”在本地还是云端,他们只关心数据准不准、速度快不快、价格贵不贵。能用几分钱的成本,解决过去需要我投入几十个小时调试的难题,这就是实实在在的生产力解放。
所以想通了,别矫情。大厂开源节流、争夺 AI 生态,这是他们的战争。而我作为一个超级个体,要做的就是像游击队一样,灵活地利用这些战场上抛出来的“先进武器”,武装我的自动化小队。我的核心优势不再是会写多精妙的解析算法,而是知道在什么时候、用什么姿势、调用哪个 API,并把它们用 n8n 这类工具串联成一个稳定赚钱的流水线。这就是 2025 年的生存方式:不再造轮子,而是成为最会使用和组合轮子的人。
下一步,我打算用这个思路,把手上几个需要“人工审核”或“模糊判断”的环节全部 AI 化。比如用百度的内容审核 API 替代人工初审,用视觉理解 API 自动给上传的图片打标签。把省下来的时间,去啃更硬的骨头——比如怎么用 AI 来优化自动化流程本身,让流程能基于运行日志,自我诊断瓶颈并提出优化建议。那才是下一个台阶。














