既然不想买高价显卡,我就租了云端 GPU 跑模型。这决定背后,是今年彻底想明白的一件事:所有重资产,无论是团队还是硬件,都是负债。去年这时候,我还在为办公室里那十几号人的工资和社保发愁,现在,我只需要为 AWS 的 p3.2xlarge 实例按小时付费,跑完就关,账单一清二楚。
团队那摊子事,真是把我掏空了。2019年膨胀的时候,觉得接了个大单,得配齐人马。结果呢?招来的人,一半时间在磨合,四分之一时间在扯皮,剩下四分之一在填自己挖的坑。最要命的是,你从一个写代码、画原型的产品经理,变成了一个全职的“情绪垃圾桶”和“规则解释器”。客户凌晨两点改需求,我得先安抚手下兄弟的情绪,再自己硬着头皮想解决方案。那段时间,赚的流水看着漂亮,扣掉成本,落到自己手里的,还不如我2018年一个人单干的时候多。关键是,不快乐,一种被绑架的、深陷泥潭的疲惫。每天醒来,想的不是今天要攻克什么技术难点,而是张三会不会又请假,李四的那个模块到底能不能按时交付。
疫情是个转折点,或者说,是个让我不得不停下来的刹车。项目黄了,团队散了。看着空荡荡的办公室,我第一反应不是失落,居然是松了口气。妈的,终于不用管人了。我重新捡起了 Python,不是去写那些业务逻辑,而是开始研究自动化脚本,研究怎么用 Requests 和 BeautifulSoup 更优雅地“借”点数据。我发现,离开了团队协作那些噪音,我的效率高得吓人。一个人,一台电脑,一个清晰的待办清单,世界都清净了。
所以回到显卡这个问题。以前做团队,想着要建“技术壁垒”,琢磨过自己搭个 GPU 服务器,搞点私有的模型训练环境。现在想想,纯属扯淡。一张 RTX 3090 那时候炒到快两万,还得考虑电费、散热、运维。最关键的是,我的需求是波动的,可能这个月密集需要跑 CV 模型处理一批图片,下个月就完全用不上。为这种波峰需求囤积硬件,是典型的“管理思维”遗毒,总想着掌控一切资源。
云端租用就简单粗暴多了。我需要处理十万张图片做分类,就开个按需实例,用 PyTorch 写好数据管道和训练循环,挂上去跑。用的框架是 Fast.ai,它的高阶 API 对快速原型验证太友好了,几行代码就能把预训练模型拉起来做微调。过程中遇到显存溢出,直接在脚本里调整 batch size 或者用梯度累积模拟大 batch,不需要去折腾硬件。跑完,模型文件下载到本地,实例终止。费用精确到小时,甚至分钟。这种“召之即来,挥之即去”的感觉,太他妈符合我现在“超级个体”的生存哲学了。
当然,坑也有。主要是数据上传和下载的带宽成本,以及配置环境的琐碎。我写了一套 Bash 脚本,把 AMI 镜像、依赖包安装、代码库拉取全自动化了。启动实例后,一条命令,环境就绪。这也逼着我把项目结构整理得更干净,因为每一次都是全新的环境,容不得半点“在我本地是好的”这种侥幸。这反而成了好事,代码的健壮性和可复现性都上来了。
季度末算账,这个月在云 GPU 上花了大概八百多。如果自购显卡,这笔钱连个零头都不够,更别提带来的灵活性和零维护负担。效率呢?我完成了三个小模型的原型验证,其中一个给一个健身教练客户做了体态评估的 POC,效果不错,可能能发展成一个轻量级的 SaaS 工具。这要放在以前,光是在团队内部立项、协调资源、开会,可能一个月就过去了。
规模小了,但掌控感回来了。快乐,来自于清晰的投入产出比,来自于技术直接变现的短路径,来自于深夜跑模型时,听着风扇狂转(云端的,不是我电脑的)的那种纯粹的、解决问题的快感。团队是放大器,但前提是你得有足够结实和稳定的内核。去年我的内核都快被管理耗散了,现在,我重新把它拧紧了,就拧在代码、模型和这些实实在在的自动化脚本里。下一步,该琢磨怎么把这些零散的脚本,封装成哪怕再小的、能收钱的工具了。














