既然 Token 越来越贵,我就尝试在本地跑 LLaMA

既然 Token 越来越贵,我就尝试在本地跑 LLaMA。这话说出来,我自己都觉得有点魔幻。去年这时候我还在为团队里三个程序员下个月的工资发愁,现在却坐在书房里,对着命令行窗口,琢磨怎么把 70 亿参数的模型塞进我那台 3090 的显存里。这转变,比健身餐从水煮鸡胸肉换成空气炸锅烤鸡胸肉还快。

财务盘点是上个月做的。彻底解散了那个小团队,账上流水看着还行,但一算净利润,再除以我投入的时间和心力,时薪低得可怜。最要命的是那种失控感,每天醒来就是各种“管理问题”:谁又迟到了,哪个客户的需求又变了,下周的现金流能不能覆盖。身体最先报警,体检报告上多了几项箭头,血压也悄悄往上爬。那时候我才真正意识到,所谓“老板”的自由,很多时候是幻觉,是用健康和时间换来的另一种形式的打工。

所以回归“超级个体”不是选择,是断尾求生。把那些复杂的、需要协调多人的项目全砍了,只接我能独立闭环的活儿。时间一下子多出来,但焦虑没少,只是换了种形式。以前焦虑人,现在焦虑技术。眼看着 AI 这波浪潮起来,GPT-3 的 API 调用成本摆在那儿,玩得起的是大厂,我们这种个体户,每次调用都得掂量掂量。这不行,太被动了。我得把主动权拿回来,至少一部分。

于是开始折腾本地部署。选 LLaMA 是因为它开源,而且相对“轻量”。但“轻量”是相对的,对个人硬件来说依然是巨兽。光是搞明白 PyTorch 版本、CUDA 驱动兼容性、各种依赖库的冲突,就耗掉两个晚上。最崩溃的是模型下载,那个 13B 的版本,几十个 G,家里的网络断断续续,每次失败都得从头来。那一刻真想摔键盘,但想想以前处理团队里程序员因为环境配置吵架的破事,这至少是跟机器较劲,结果确定。

跑起来的那一刻,风扇狂转,机箱像个暖炉。看着终端里一行行缓慢但确实在生成的文本,感觉很奇怪。没有调用 API 那种即时的、付费的爽快感,而是一种原始的、笨拙的掌控感。速度慢,效果也比不上最新的商用模型,但它就在我自己的机器里,我想怎么折腾就怎么折腾,不用担心账单,不用怕服务商突然调整策略。这种安全感,是 API 给不了的。

这个过程里,饮食控制帮了大忙。不是玄学,是物理上的。以前压力大就乱吃,血糖坐过山车,下午必然困成狗。现在固定高蛋白、低碳水,配合每天半小时的划船机,精神状态稳定得像条直线。下午三点不再需要靠咖啡续命,晚上也有精力啃这些硬核的技术文档。身体果然是第一生产力,这话以前当鸡汤听,现在觉得是物理定律。

所以,路越来越清晰了。团队扩张那条路我试过了,毒打挨够了。现在这条路,一个人,一台机器,把技术栈压深,把交付流程极致简化。AI 是核弹,但我不能只当个按按钮的人,我得知道这弹头里大概是什么结构,哪怕自己造的土炮威力小点。LLaMA 本地化只是个开始,后面还有微调,还有知识库嵌入,还有怎么把它和我的自动化脚本打通。Token 贵就贵吧,逼着我往底层走,未必是坏事。

至少,现在焦虑的,是技术问题,不是人的问题。这感觉,踏实。

© 版权声明
THE END
喜欢就支持一下吧
点赞63 分享