既然不想买高价服务器,我就把废旧树莓派组成了集群。这堆吃灰的板子,从 3B+ 到 4B 都有,加起来内存不到 8G,单论性能连我主力机的零头都够不上。但今天,它们跑起来一个分布式爬虫,把某电商平台 50 万条商品评论的采集任务,在 API 频率限制的夹缝里,用 6 个小时啃下来了。成本?电费大概三块钱。
这个念头是上个月被刺激出来的。看了一个云服务器厂商的报价,想要稳定跑我那种需要大量 IP 轮换、异步并发的采集任务,月租直奔四位数。那一刻不是焦虑,是愤怒。我们这种独立开发者,或者说数字游民,利润就是被这些“基础设施税”一点点啃光的。2016 年那会儿,我还能靠一台 VPS 加各种野路子代理池硬刚,现在平台的风控模型都上 AI 了,单点突破就是找死。
集群的思路很直白,就是分治。把目标 URL 列表切片,扔给 N 个树莓派 worker 去各自为战。难点不在概念,在细节,在那些能让整个系统瞬间崩盘的“脏活”。第一关是网络,家里路由器带不动这么多有线设备,最后用了一个旧千兆交换机做了个隔离的子网,主控机用无线连进去,算是混搭架构。第二关是同步,最开始想用 Redis,发现太吃内存,换成了 SQLite,每个 worker 完成任务后把状态写回主控机的数据库,主控机负责调度和重试。就这个切换,调了两天,因为 SQLite 的写并发锁差点让整个流程卡死。
最深的感触是,硬件限制逼出了最简化的设计。你不能在这些 ARM 小板上跑 Docker 玩编排,那点资源全给容器 overhead 吃掉了。最后就是裸跑 Python 脚本,用 Paramiko 做 SSH 管道分发任务和收集结果。日志系统?直接每个 worker 输出到本地文件,再用 SCP 拉回来聚合。粗糙,但有效。当我在主控机上看到六个终端窗口同时滚动着不同的抓取日志,那种掌控感,比在 AWS 控制台点一下启动一百台虚拟机来得实在得多。这是穷人的弹性计算。
这其实是我 2024 年心态的缩影:二次技能恐慌下的务实反击。ChatGPT 出来之后,我过去引以为傲的爬虫技巧、反反爬策略,价值在暴跌。大模型能直接解析网页,能模拟人类点击,甚至能写爬虫代码。但有一点它暂时替代不了:物理分散的、低成本的、抗封禁的基础设施。我的护城河,从“怎么写代码”,被迫转向了“怎么用最低的物理和金钱成本,让代码可持续地跑下去”。树莓派集群就是一个答案,它不优雅,但它是我的。电费三块,快乐无价。
下一步想试试在这套破烂集群上跑轻量级大模型,比如用 Ollama 部署个 7B 参数的模型做实时数据清洗。如果成了,那就真是一套从采集到初步分析的闭环边缘 AI 工坊了。别人在云上烧钱,我在桌角省电,这感觉,有点像回到了十年前在宿舍折腾服务器的日子,只是现在,没人给我断电了。














