特斯拉发布“We, Robot”：如果 AI 能开车，那去背景算什么？-Flovico-AI商业实战教练

特斯拉的发布会我看完了，马斯克又把“端到端”这个词扔了出来。这次是扔在自动驾驶上。我盯着那个从摄像头像素直接输出方向盘扭矩的示意图，脑子里嗡的一声，想的不是车，是我那个破去背景软件 Rembg Pro。如果 AI 连物理世界的车都能开，能从像素直接理解世界并做出驾驶决策，那我还在那吭哧吭哧调 U^2-Net 的模型参数，手动处理边缘毛刺，算不算是石器时代的工匠在打磨燧石？

2019年那会儿，我为了接一个电商批量抠图的单子，带着两个实习生搞这个。当时市面上都是基于传统算法的，边缘处理一塌糊涂。我们上了深度学习，自己标注了几万张图，训了个模型，效果确实好，客户很满意。但交付过程是场噩梦。客户要集成到他们老旧的生产系统里，环境千奇百怪，CUDA 版本、Python 依赖、内存泄漏……那两个实习生被我逼着天天看日志，解决各种“玄学”问题。那根本不是在做产品，是在当救火队长。赚的那点钱，全耗在无休止的客服和技术支持上了，身心俱疲。我当时就觉得，这种重交付、强依赖特定环境的软件模式，是个泥潭。

现在看特斯拉这个思路，它把整个感知、决策、控制链条全部压扁，变成一个巨大的神经网络。输入传感器数据，输出控制指令。中间没有规则引擎，没有 if-else 的决策树。这带来的是一种根本性的简洁。反观我的 Rembg Pro，用户上传图片，我的后端调用模型，计算，返回结果。听着简单，但为了这个“简单”，我背后维护着一整个服务器集群、负载均衡、模型版本管理、算力调度。任何一个环节出问题，用户那边就是“服务不可用”。这复杂度是自我繁殖的。

马斯克说他们的系统是“用物理学训练出来的”。这话很唬人，但内核我懂。就是海量的真实世界数据灌进去，让模型自己学会物理规律。我的去背景模型呢？是用干净的数据集训出来的，一旦遇到现实中光线诡异、背景复杂、主体半透明的图片，就开始胡言乱语。我需要不断收集“脏数据”去 finetune，这是个没有尽头的循环。而端到端系统，理论上，你给它更多真实行车视频，它自己就能学会处理雨雪、逆光、隧道明暗变化这些极端 case。这种学习范式是碾压性的。

所以问题来了。当 AI 的能力边界从“处理信息”扩张到“在物理世界完成复杂任务”时，像去背景、写基础脚本、处理表格这类“数字苦力”，其价值坐标就彻底变了。它们不应该再是一个需要人类去“做”的任务，而应该是一个被自然“解决”的状态。就像电灯开关，你不会觉得“开灯”是个需要技能的事，你只是“需要光”。未来的软件，或者说 AI 智能体，就应该像电灯开关。用户说“把这张图背景去掉”，AI 理解意图，调用它认为合适的工具（可能根本不是一个专门的去背景模型，而是其多模态理解能力的一个自然延伸），瞬间完成。用户无需知道背后是 U^2-Net 还是 SAM，也无需关心 API 返回码是 200 还是 500。

我这几个月死磕 n8n 和 AI 自动化，方向是对的，但格局可能还是小了。我总想着用 AI 把现有的、重复的工作流串起来，提高效率。但特斯拉展示的是一种更激进的可能：用 AI 重新定义“工作”本身。当端到端的 AI 能开车，那么所有流程清晰、目标明确、但步骤繁琐的“任务”，都应该被这种范式溶解掉。我不应该再想着如何做一个更好的去背景工具，而应该想着如何让“去除图像背景”这个需求，在未来用户的 workflow 里，变得像呼吸一样自然且无需被感知。

发布会结束，我关掉视频，打开 Rembg Pro 的后台监控。一堆运行日志，几个等待处理的错误报警。窗外天色暗了，但我没开灯。我在想，我维护的这套复杂系统，以及它代表的那个需要人类亲手调试参数、处理异常的世界，它的黄昏是不是已经来了。而我现在疯狂补课大模型、玩转自动化工具，不过是想在黄昏彻底降临前，找到那艘通往下一个黎明的船。时间不多了，这种被技术浪潮推着后背狂奔的感觉，2024年了，依然熟悉得让人焦虑。

文章版权归作者所有，未经允许请勿转载。

THE END

AI实践