特斯拉Q3财报出来了,营收和利润都没达到华尔街预期,股价盘后直接跌了。但我盯着新闻稿里那几行字看了很久——马斯克在电话会上花了大量时间谈Dojo超算,谈FSD,谈AI训练集群的规模。这信号太明显了:当车卖不动的时候,他押注的根本不是下一款更便宜的车,而是那个烧钱的无底洞,那个叫“全自动驾驶”的终极赌局。
这让我后背发凉。不是为特斯拉,是为我自己。2023年,我31岁,一个前产品经理,一个靠写自动化脚本糊口的超级个体。我的“主营业务”是什么?是给中小公司做数据抓取、流程自动化,是那些基于Requests库和Selenium的定制脚本。过去三年,这套东西让我活下来了,甚至活得不错。但ChatGPT-4发布那天,我盯着那个能看懂网页截图、能描述图像内容的演示视频,脑子里就一个声音:你那些靠解析DOM树、写XPath、对付反爬虫的“手艺”,正在以肉眼可见的速度贬值。环境不是“在变”,是已经在我的头顶完成了核爆。
所以这几个月我像疯了一样。不是焦虑,是某种更冰冷的东西:我必须让我的脚本,我吃饭的家伙,先于我这个人实现“进化”。以前写爬虫,核心逻辑是“模拟人”。用Selenium驱动浏览器,填表单,点按钮,等元素加载,从复杂的网页结构里把数据抠出来。对抗的是反爬策略:IP频率限制、验证码、动态加载、JavaScript混淆。我的武器库是User-Agent轮换、代理IP池、OCR打码平台,还有大量的时间——用来分析网络请求,调试那些脆弱的XPath。
但现在,环境变成了“多模态”。信息不再规整地躺在HTML标签里。它可能在一张财报图表的截屏里,在一段分析师电话会的音频转写里,在一份PDF扫描件里,甚至在一段模糊的工厂巡检视频的几帧画面里。客户的需求变成了:“帮我监控这二十个竞品的官网,他们一换Banner图就告诉我主题是什么”,或者“从这些行业研讨会的直播回放里,提取他们提到关键技术名词的频率和上下文”。
传统的脚本面对这种需求,链条长得可怕:截图工具 -> 本地保存 -> 调用某个云的OCR API -> 解析文本 -> 再写规则清理。音频和视频更完蛋,得先转写,转写的准确率又是一道坎。每一个环节都可能断,每一个外部API调用都在增加成本和不可控性。这根本不是“自动化”,这是用胶水粘起来的一碰就碎的玩具。
我的突围点,是让脚本自身获得“感知”和“理解”的初步能力。不是取代GPT-4,而是把它变成我脚本的一个“标准内置模块”。我开始死磕几个东西:一是本地化部署的小模型。CLIP的变体用来做图像特征提取和简单描述,Whisper的量化版用来做离线音频转写。我不需要它们达到GPT-4V的水平,我只需要它们能在我本地,没有网络延迟、没有API费用的情况下,把非结构化数据(图片、音频)转化成一段结构化的文本描述。比如,一张官网Banner图,CLIP模型能告诉我“图片主题包含:电动汽车、户外山路、夕阳”,这就够了。我的脚本拿到这个文本描述,再去和上次抓取的结果做向量相似度比对,就能判断是否更新。
二是流程的重构。以前的脚本是线性的:访问A -> 解析B -> 存储C。现在是并发的、感知驱动的。一个主控脚本像调度中心,它根据任务类型(监控图片、监控文本、监控音频),动态唤醒不同的“感知子程序”。子程序可能是一个加载了轻量化视觉模型的容器,也可能是一个调用云端大模型进行深度分析的“大招”。核心是“自适应”:如果本地轻量化模型置信度低,就自动触发更昂贵但更准确的云端分析;如果网络环境差,就降级到纯本地处理,哪怕结果粗糙点。这要求脚本有状态判断和决策逻辑,而不仅仅是执行固定步骤。
三是数据流的重新设计。过去的数据流是“清洗-入库”。现在是“感知-理解-结构化-决策”。中间多了一个“理解”层。比如,脚本从一段音频转写文字里,不仅要提取出“Dojo”这个词,还要结合上下文判断情绪是“积极强调”还是“谨慎乐观”。这步以前靠写死的关键词和规则,现在靠给本地LLM(比如用ChatGLM2-6B INT4量化版)喂一段Prompt:“请判断以下文本片段中,提及‘Dojo’时传达的主要情绪是积极、消极还是中性,并简述理由。” 虽然慢,虽然回答可能啰嗦,但它在本地,它可控,它能把非结构化的“文本”变成我数据库里一个结构化的字段:`sentiment: positive, reason: 将其描述为未来增长核心引擎`。
这个过程极其痛苦。每天都在和CUDA版本、模型量化、内存溢出、推理速度搏斗。一个看起来简单的“图片描述”功能,从决定做到能在生产环境稳定跑起来,花了我三周。其中百分之八十的时间在解决环境依赖和性能调优,只有百分之二十在写真正的业务逻辑。这感觉就像你是个木匠,突然被要求去造内燃机,你还得先从炼钢开始。
但今晚看到特斯拉的新闻,我反而有点平静了。马斯克在赌一个未来,他在用Dojo赌特斯拉能从一家汽车公司变成一家人工智能公司。我在赌的,是我的脚本能从一个执行固定命令的木偶,变成一个能看、能听、能简单思考的侦察兵。当主营业务(我的定制脚本开发)的增长遇到天花板时,技术储备——这套“多模态自适应”的框架,这些被我驯服、能跑在廉价显卡上的小模型——就是我下一个项目的起点,是我面对那些只会调用OpenAI API的竞争对手时的护城河。环境不会停下来等我。我能做的,就是让我的代码,比我更早、更快地学会适应。哪怕它现在笨拙、缓慢、像个蹒跚学步的孩子。至少,它开始学习了。而很多人的工具,已经死了。














