既然一个人就是一家公司,我就用 Swarm 实现了自动报税。这种快感不是来自省了多少钱,而是来自凌晨两点,手机弹出“1月税务申报已完成,无异常”的通知时,你他妈知道背后是一串冰冷的代码在替你打工,而你正躺在床上看美剧。这种掌控感,是过去十年被客户、被员工、被工商税务来回拉扯时,做梦都不敢想的。
2019年那会儿,公司流水刚过百万,我就被报税这事儿整崩溃了。每个月5号之前,财务小姑娘就得跟我对账,发票、成本票、银行流水,Excel表传来传去,一个数对不上就能耗掉一整个下午。后来我亲自上阵,用Python写脚本爬网银流水,再用pandas去匹配发票系统的CSV导出,光是处理“备注栏”里那些乱七八糟的商户名和缩写,正则表达式就写了二十多个。最要命的是国税局网站,那个反爬机制隔三差五升级,验证码从四位数字变成扭曲汉字再变成滑块拼图,我的Selenium脚本每隔两个月就得大修一次,心累到想直接把公司注销了。
所以现在用上Swarm,感觉像是从手摇拖拉机直接跳进了自动驾驶汽车。核心逻辑其实不复杂,但Agent之间的协作链条必须精密得像钟表。我设了三个核心Agent:侦察兵、会计、申报员。侦察兵是个永不停歇的爬虫,但它现在不用我管DOM树和XPath了,我给它喂了几个常见的网银和云财务软件登录案例,它自己学会了用Playwright去模拟操作,抓取数据后按我设定的schema整理成JSON。最关键的是容错,遇到“网络异常”或“页面元素变更”,它会自己重试三次,然后把异常截图和日志扔给我指定的Slack频道,不会像以前那样傻乎乎地卡死。
会计Agent是大脑。它拿到JSON数据后,调用本地部署的Qwen2.5-7B模型(为了数据安全,没走GPT API),执行分类和核对。哪些是收入,哪些是成本,哪些票能抵扣,税率是多少。这里面的prompt工程花了大力气,不是简单一句“请分类”,而是把税法里关于“现代服务业”的条款拆解成几十条“IF-THEN”规则喂给它,让它学会判断“技术服务费”和“软件销售”的税率区别。一开始它老把“软件维护费”也归到6%,被我用人肉反馈纠正了五六次才准。
申报员Agent是最后一步,也是最刺激的一步。它负责登录电子税务局,填表,提交。我用n8n做了个GUI封装,把Swarm的API节点、数据过滤节点和条件分支节点连起来,形成了一个可视化的工作流。申报员Agent的每次点击和输入,都在n8n的日志里有毫秒级记录,任何一步失败都会自动回滚到上一步,并触发警报。这意味着,我不用再守着电脑等那个“申报成功”的页面,系统自己会完成闭环。
这整套东西跑通第一个月,我坐在电脑前,看着n8n上那些绿色节点一个个自动跳过去,感觉像在观看自己的数字分身替我处理这些狗屁倒灶的行政琐事。那种感觉,比当年赚到第一个一百万还爽。因为钱会花完,项目会结束,但这种把系统性痛苦编码成自动化流程的能力,成了我身体的一部分。
现在想想,2021年我断尾求生,砍掉团队回归一个人,就是因为受不了管理中的不可控因素。人的情绪,人的失误,人的延迟。而代码,只要逻辑严谨,它就会在凌晨三点,风雨无阻地执行。这种确定性,才是“超级个体”真正的内核。不是说你什么都会,而是你能用技术杠杆,把那些消耗心力的重复性环节,彻底从你的生命里剥离出去。
Swarm这类框架的出现,让这种剥离从“硬编码”的苦力活,变成了“定义规则与协作”的设计活。门槛依然有,但已经从爬虫攻防战,降维到了工作流设计。这大概就是2025年,一个老产品经理的终极浪漫:不再追求管理多少人,而是能优雅地指挥多少个Agent,让它们7×24小时地,守护你那点小小的、珍贵的自由。














