关掉顶灯,拔掉氛围灯带,连屏幕挂灯都调到最低档。整个书房只剩下屏幕本身的光,像一块悬浮的黑暗里发烫的矩形。这种光线下,眼睛会不自觉地凑近,注意力被物理性地压缩到代码行上。成本控制,抠到极致,连电费都是敌人。
十年前我绝不会这么干。2016年那会儿,焦虑的是流量,是爬虫怎么绕过反爬,是Axure画的原型能不能唬住客户。服务器?能用就行,性能不够就堆机器,反正那时候云服务器价格战打得凶,总觉得未来流量来了钱就来了。现在想想,那叫野蛮,不叫效率。流量没等来,等来的是ChatGPT,是推理成本按token计费,是每一个API调用都像在割肉。
2023年AI核爆那阵子,恐慌是技术性的。觉得旧技能全废了,拼命学prompt,学微调,学RAG。但恐慌过去,真正坐下来做产品,才发现最要命的是经济账。你调通一个工作流,用GPT-4跑一遍,漂亮,流畅,然后一看账单,心凉半截。这玩意儿根本没法规模化,除非你定价高到天上。所以去年开始,所有精力都扑在成本上。不是那种“优化一下”的成本,是“砍到骨头里”的成本。
今天这个算法,已经优化了七轮。从最初的纯GPT-4接口调用,到混合使用Claude和本地模型,再到把固定逻辑抽成函数,用n8n编排,只把最需要“灵性”的部分交给大模型。成本从每次执行十几美分,压到了不到一美分。但就是这最后的一美分,像鞋里的沙子,磨得人睡不着。因为量一旦起来,它就是纯利润。
所以坐在这片微光里,目标明确:把这最后1%的冗余剪掉。不是靠感觉,是靠推理模型驱动。我写了个简单的评估脚本,让一个轻量级的开源模型(比如Qwen2.5-Coder-7B,在本地跑,费不了几个电钱)去分析主流程的日志。让它看,每一次API调用,输入的token里,有多少是真正必要的上下文?输出的结果里,有多少是重复的、格式化的、其实可以用一个字符串模板直接拼出来的废话?
结果很残酷。那个评估模型反馈,有大约0.7%的调用,其输出完全可以被预测和缓存。比如,用户输入“总结一下”,后面跟一大段文本,模型的前80个token输出永远是“好的,已收到您提供的文本。我将为您进行总结,核心要点如下:”。这他妈不是废话是什么?但之前为什么没砍?因为担心“体验不连贯”,怕砍掉了这段“人性化”的前缀,用户会觉得生硬。这就是惯性,是产品经理的“感觉”在作祟。
推理模型不管感觉。它只认模式和概率。它告诉我,这类固定前缀,在99.3%的情况下不影响后续核心内容的评价。那就砍。用规则判断,如果是这类高度可预测的指令,直接跳过前缀生成,从核心要点开始输出。光这一项,就把平均输出token砍掉了5%。
还有上下文。我总怕信息不够,把用户最近三次交互的历史都塞进prompt。评估模型分析显示,超过85%的情况下,用户本次问题只和最近一次交互强相关。那就改。动态构建上下文,只用相关性超过阈值的历史。这又省下一块输入token。
这些改动,单个看微不足道。0.5%的输入优化,0.2%的输出优化。但把它们叠在一起,用在这个每天可能要跑上万次的自动化流程里,意义就完全不同了。电费?屏幕这点微光耗不了几个钱。真正的成本在云上,在每一次API调用里。抠到这里,已经不再是技术问题,是一种心态。是承认自己资源有限,承认“够用就好”比“完美无缺”更接近生存的本质。
剪完枝,跑了一遍测试集。效果指标几乎没波动,成本曲线实实在在地往下沉了一小截。靠在椅背上,屏幕的光映在墙上,我的影子巨大而模糊。想起2020年带团队那会儿,最烦的就是算各种开销,人力、场地、零食。现在好了,就我一个人,一台机器,成本清晰到每一个token。累,但累得明白。这大概就是超级个体走到最后的样子:在绝对的孤独里,追求绝对的效率。














