特斯拉的发布会我看完了,马斯克又把“端到端”这个词扔了出来。这次是扔在自动驾驶上。我盯着那个从摄像头像素直接输出方向盘扭矩的示意图,脑子里嗡的一声,想的不是车,是我那个破去背景软件 Rembg Pro。如果 AI 连物理世界的车都能开,能从像素直接理解世界并做出驾驶决策,那我还在那吭哧吭哧调 U^2-Net 的模型参数,手动处理边缘毛刺,算不算是石器时代的工匠在打磨燧石?
2019年那会儿,我为了接一个电商批量抠图的单子,带着两个实习生搞这个。当时市面上都是基于传统算法的,边缘处理一塌糊涂。我们上了深度学习,自己标注了几万张图,训了个模型,效果确实好,客户很满意。但交付过程是场噩梦。客户要集成到他们老旧的生产系统里,环境千奇百怪,CUDA 版本、Python 依赖、内存泄漏……那两个实习生被我逼着天天看日志,解决各种“玄学”问题。那根本不是在做产品,是在当救火队长。赚的那点钱,全耗在无休止的客服和技术支持上了,身心俱疲。我当时就觉得,这种重交付、强依赖特定环境的软件模式,是个泥潭。
现在看特斯拉这个思路,它把整个感知、决策、控制链条全部压扁,变成一个巨大的神经网络。输入传感器数据,输出控制指令。中间没有规则引擎,没有 if-else 的决策树。这带来的是一种根本性的简洁。反观我的 Rembg Pro,用户上传图片,我的后端调用模型,计算,返回结果。听着简单,但为了这个“简单”,我背后维护着一整个服务器集群、负载均衡、模型版本管理、算力调度。任何一个环节出问题,用户那边就是“服务不可用”。这复杂度是自我繁殖的。
马斯克说他们的系统是“用物理学训练出来的”。这话很唬人,但内核我懂。就是海量的真实世界数据灌进去,让模型自己学会物理规律。我的去背景模型呢?是用干净的数据集训出来的,一旦遇到现实中光线诡异、背景复杂、主体半透明的图片,就开始胡言乱语。我需要不断收集“脏数据”去 finetune,这是个没有尽头的循环。而端到端系统,理论上,你给它更多真实行车视频,它自己就能学会处理雨雪、逆光、隧道明暗变化这些极端 case。这种学习范式是碾压性的。
所以问题来了。当 AI 的能力边界从“处理信息”扩张到“在物理世界完成复杂任务”时,像去背景、写基础脚本、处理表格这类“数字苦力”,其价值坐标就彻底变了。它们不应该再是一个需要人类去“做”的任务,而应该是一个被自然“解决”的状态。就像电灯开关,你不会觉得“开灯”是个需要技能的事,你只是“需要光”。未来的软件,或者说 AI 智能体,就应该像电灯开关。用户说“把这张图背景去掉”,AI 理解意图,调用它认为合适的工具(可能根本不是一个专门的去背景模型,而是其多模态理解能力的一个自然延伸),瞬间完成。用户无需知道背后是 U^2-Net 还是 SAM,也无需关心 API 返回码是 200 还是 500。
我这几个月死磕 n8n 和 AI 自动化,方向是对的,但格局可能还是小了。我总想着用 AI 把现有的、重复的工作流串起来,提高效率。但特斯拉展示的是一种更激进的可能:用 AI 重新定义“工作”本身。当端到端的 AI 能开车,那么所有流程清晰、目标明确、但步骤繁琐的“任务”,都应该被这种范式溶解掉。我不应该再想着如何做一个更好的去背景工具,而应该想着如何让“去除图像背景”这个需求,在未来用户的 workflow 里,变得像呼吸一样自然且无需被感知。
发布会结束,我关掉视频,打开 Rembg Pro 的后台监控。一堆运行日志,几个等待处理的错误报警。窗外天色暗了,但我没开灯。我在想,我维护的这套复杂系统,以及它代表的那个需要人类亲手调试参数、处理异常的世界,它的黄昏是不是已经来了。而我现在疯狂补课大模型、玩转自动化工具,不过是想在黄昏彻底降临前,找到那艘通往下一个黎明的船。时间不多了,这种被技术浪潮推着后背狂奔的感觉,2024年了,依然熟悉得让人焦虑。














