4090的价格让我直接放弃了装台式机的念头,这玩意儿现在不是生产力工具,是理财产品。我盯着苹果官网的M3 Max参数看了半小时,下单,等快递,然后今晚就在这台新机器上把Llama 2 13B的4-bit量化模型跑通了。风扇甚至没怎么转。
没有员工需要安抚,没有合同等着盖章,这种疲惫很干净。就是我和代码,还有一桌子散落的零食包装袋。为了自己脑子里那个“想看看它到底行不行”的念头折腾到凌晨三点,累,但心甘情愿。这种累和2020年那种被十几个人的工资和客户催命连环Call逼出来的心累,完全是两种东西。那时候身体是垮的,现在只是需要睡一觉。
跑通的关键根本不是模型本身,是环境配置和量化参数那些脏活累活。GGUF格式,Q4_K_M量化级别,用llama.cpp编译。苹果的Metal后端加速确实顶,但文档里不会告诉你,M系列芯片的内存统一架构在加载大模型时,如果虚拟内存交换太频繁,速度会掉得亲妈都不认。你得手动用`sysctl`调高`vm.swapusage`的预警阈值,还得确保你的量化文件是本地SSD读取,不能挂载网络盘。这些坑,一个个踩过去,才是真实的“跑通”。
身体和逻辑是现在唯一的行李了。这话是2021年断尾求生之后才彻底明白的。你代码写得再飞,需求拆得再细,颈椎废了,睡眠垮了,一切都归零。所以现在哪怕调试到再晚,半小时的筋膜枪放松和第二天早晨的空腹有氧是铁律。逻辑是武器,身体是持枪的人。武器可以升级换代,从Axure到Python脚本再到今天的大模型,但持枪的人倒了,就什么都没了。
量化本身是个数学妥协游戏。把FP16的权重砍到4-bit整数,本质上是在模型精度和推理速度/内存占用之间找平衡点。Q4_K_M这个级别,就是对中间层的权重保留多一些精度,对注意力层的权重压得更狠一些。看着终端里一行行刷出来的生成文本,虽然比FP16原版偶尔会有些许逻辑跳跃,但考虑到它现在只用不到8GB内存就能在笔记本上流畅对话,这种妥协太值了。这就是超级个体的核心:用极致的技术杠杆,撬动原本需要庞大算力才能触及的能力。什么管理,什么团队协同,在这种直接的“想法-验证-结果”链条面前,都显得臃肿。
跑个分吧。用我自己整理的五百条中文指令集测试,平均token生成速度比我在云端租的A10节点快了大概15%,这还没算网络延迟和排队时间。成本?一次性的硬件投入。这感觉就像早年自己攒服务器做爬虫池,绕过所有平台限制,那种掌控感又回来了。只不过这次爬的不是网页DOM树,是AGI的可能性。
接下来一周的计划排满了。用n8n把这条本地推理管道接上我的知识库,做成一个自动处理用户咨询的闭环。GUI封装的事可以往后放放,核心是让流程先转起来。AI的核爆已经发生了,现在不是感叹的时候,是跳进坑里,把手弄脏,一块砖一块砖把自己从信息焦土里垒出来的时间。窗外天都快亮了,但没什么“不知不觉”。每一分钟都是我主动换来的。














