排序
如何让脚本写出“成都味儿”?我的语料库实验
想让脚本写出“成都味儿”,本质上是在对抗一个巨大的惯性:互联网上绝大多数语料都是标准普通话,AI学出来的自然也是那套“官腔”。我最近接了个本地生活号的单子,甲方要求内容必须“接地气”...
放弃了 50 个爬虫节点,我的服务器终于不再“咳嗽”了
今天下午,我亲手把阿里云控制台里那五十几个爬虫节点一个个关机、释放。听着硬盘IO监控从一片血红警报变成平稳的绿线,CPU占用率从90%暴跌到15%,我靠在椅子上,感觉服务器和我都同时长舒了一...
既然回到了书房,就把那套自动化打包脚本写完
既然回到了书房,就把那套自动化打包脚本写完。团队那摊子事刚吵完,嗓子眼还发干,但手指一碰到键盘,那种熟悉的、能掌控一切的幻觉就回来了。比管人强。 下午跟技术合伙人又干了一架,为了一...
百度“惊雷算法”2.0 后的生存:关键词密度已经死了
百度“惊雷算法”2.0 更新日志一出来,我就知道之前那套堆关键词的老办法彻底完蛋了。什么3%-8%的黄金密度,现在往文章里硬塞就是找死,蜘蛛爬过去直接给你权重清零,连降权都省了,直接不收录...
谷歌宣布“量子霸权”:那一晚,我担心自己的密码不安全
谷歌宣布“量子霸权”的新闻弹出来的时候,我正在给一个本地生活类小程序的支付接口做压力测试。手一抖,JMeter里模拟的并发数直接飙到了五千,把测试环境的数据库连接池瞬间打满。屏幕上红色的...
我的书房就是我的工厂:SOP 的二次革命
我的书房就是我的工厂,这句话现在听起来有点讽刺。去年还在吹嘘自己搞定了团队 SOP,现在发现,那套东西管别人不行,管自己倒是刚刚好。 团队散了,或者说,我主动把它拆了。养人太他妈贵了,...
既然手动抢不到,那就写个爬虫盯着库存
既然手动抢不到,那就写个爬虫盯着库存。说真的,当上这个破老板之后,已经很久没碰代码了,手生得厉害。今天想给自己买个新出的降噪耳机,官网、京东、天猫,所有渠道秒光。看着那个灰色的“缺...
双 11 前夜的流量突袭:我的防盗链策略
双 11 前夜的流量突袭,本质上是一场成本与意志的消耗战。凌晨一点半,服务器监控的告警短信像催命符一样响个不停,带宽曲线直接拉成 90 度角往上飙。我那个刚有点起色的在线 PDF 转换工具站,...
既然不想招人,我就把所有的流程都写进 Docker
既然不想招人,我就把所有的流程都写进 Docker。这话说出来,一半是赌气,一半是绝望。团队扩张到第七个人,我他妈每天不是在开会,就是在去开会的路上。张三的代码跑不通李四的环境,王五的测...
爬虫、伪原创与搜索引擎的“猫鼠游戏”
爬虫、伪原创和搜索引擎,这三者之间的猫鼠游戏,本质上是一场关于“内容价值”的零和博弈。我今天花了整整六个小时,试图用当时最新的语义理解模型,比如 BERT 的变种,去生成一篇关于“冬季汽...










