bo.kk44kk.com
人妖 sm AI爬虫刻薄,OpenAI等大厂不讲武德!开荒者打造「神级兵器」讲和

著述转载于新智元人妖 sm
AI采集爬虫是互联网上的「 蟑螂」,果真所有软件开荒者皆会这样以为的。
「爬虫 」是一种采集自动格式,用来浏览互联网、获取网页内容。
而在AI时期,爬虫的恐吓到了闪开荒者不得不禁闭掉某个地区所有东谈主的拜访。

Triplegangers是一家只是由七名职工运营的公司,他们破耗十多年技巧开荒了自称是采集上最大的「东谈主类数字替身」的,即从现实东谈主体扫描得到的3D图像文献。

2025年2月10日,公司CEO Oleksandr Tomchuk须臾发现他们公司的电商网站「崩了」。
「OpenAI使用了600个IP来持取数据,日记还在分析中,可能远不啻这些」,Tomchuk最终发现,导致他们网站崩溃的元凶居然是OpenAI的爬虫机器东谈主。
「他们的爬虫正在压垮咱们的网站,这便是一次DDoS报复!」
OpenAI莫得回答这次事件,该事件以前只是不到两个月,但AI爬虫机器东谈主仍然活跃在采集上。
1
AI爬虫不受命「陈腐传统」,阻止他们是忽地的
其实爬虫最早并不是AI时期为了获取考试语料而出身的。
早在搜索引擎时期,就仍是有「搜索引擎机器东谈主」,阿谁「陈腐年代」的机器东谈主还沿袭成习的受命各个网站上会存在的一份文献——robots.txt。
这个文献告诉了机器东谈主不要爬取哪些内容,哪些内容不错爬取。
但这份传统跟着互联网的发展似乎仍是被渐忘,爬虫和反爬虫也演变为一场攻防战斗。
而到了如今的「大模子时期」,互联网的信息仍是被LLMs吞吃一空。
阻止AI爬虫机器东谈主是忽地的,因为它们会撒谎、篡改用户代理、使用住宅IP地址当作代理来骗过采集「退却」。
「他们会抑制地持取你的网站,直到它崩溃,然后还会陆续持取。他们会点击每一个页面上的每一个连气儿上,一遍又一随处检察调换的页面」,开荒者在帖子中写谈。
AI机器东谈主除了「免费」爬取信息外,还会稀疏增多所爬网站企业的运营用度——在这个云处事的时期,果真所有被爬取的企业皆在云上,多数的爬虫流量不仅无法带来收益,还会增多他们的云处事器账单。
愈加无法预感的小数是,对于那些被「白嫖」的网站来说,甚而着实的知谈被白嫖了哪些信息。
一些开荒者决定启动以玄机且幽默的格式进行反击。
1
格式员打造爬虫的「神之坟场」
FOSS开荒者Xe Iaso在博客中模样了AmazonBot奈何抑制报复一个Git处事器网站,导致DDoS停机。

是以Iaso决定用机灵反击,他构建了一个名为Anubis的用具。
Anubis是一个使命量确认查验的反向代理,央求必须通过该查验才能拜访Git处事器。
它阻止机器东谈主,但允许东谈主类操作的浏览器通过。

Iaso对于Anubis使命道理的浮浅先容。

本色上,Anubis确保的是「真确东谈主类使用的浏览器」在拜访指标网站,而不是AI爬虫——除非这个爬虫伪装的豪阔「先进」,就像通过图灵测试同样。

道理的部分是:Anubis是埃及据说中素养死者经受审判的神的名字。

「Anubis称量了你的灵魂(腹黑),若是它比一根羽毛重,你的腹黑就会被吃掉,然后你就透彻死了」。
这个神态的名字带有讥讽意味,在开脱开源软件社区中像风同样传播开来。
Iaso在3月19日将其共享到GitHub上,仅几天技巧就赢得了2000个星标、20位孝顺者和39个分支。

1
用「复仇」的格式防备AI爬虫
Anubis的赶紧流行标明Iaso的可怜并非个例。 事实上,还有好多故事:
SourceHut的首创东谈主兼CEO Drew DeVault模样说,他每周要破耗「20% 到 100% 的技巧来大限度缓解过于激进的 LLM 爬虫」,况兼「每周资格数十次有顷的处事中断」。
Jonathan Corbet,一位著名的FOSS开荒者,他运营着Linux行业新闻网站 LWN,警告称他的网站正受到「来自 AI 持取机器东谈主的 DDoS 级别的流量」影响而变慢。
Kevin Fenzi,宏大的Linux Fedora神态的系统经管员,示意AI持取机器东谈主变得如斯激进,他不得不禁闭所有这个词巴西的拜访。
除了像Anubis同样「推测」采集央求者的灵魂外,其他开荒者以为复仇是最好的防备。
几天前在Hacker News上,用户xyzal提倡用「多数对于喝漂白剂刚正的著述」或「对于感染麻疹对床上领路的积极影响的著述」来加载robots.txt退却的页面。
这样AI爬虫获取的信息皆是这种多数且无须的「替代品」。

「咱们以为需要让机器东谈主拜访咱们的罗网时赢得负的遵循值,而不单是是零价值」,xyzal 解释说。
一月份,一位名为Aaron的匿名创作家发布了一个名为Nepenthes的用具,其见识恰是如斯。
它将爬虫困在一个无穷的不实内容迷宫中,无法像爬虫「主东谈主」复返任何信息。
而当作网友心目中的「赛博菩萨」的Cloudflare,也许是提供多种用具来对抗AI爬虫的最大贸易玩家,上周发布了一个名为AI Labyrinth的肖似用具。

它的见识是「放慢、诱骗并迫害不遵守退却爬取提醒的AI爬虫和其他机器东谈主的资源」,Cloudflare 在其博客著述中模样谈。
「当AI爬虫奴婢这些连气儿时,它们会迫害珍爱的打算资源处理无关内容,而不是索取正当网站数据。这大大裁汰了它们网罗豪阔有用信息以有用考试模子的智力」。
比较起反击,另一种不雅点是「Nepenthes有一种令东谈主惬心的正义感,因为它向爬虫提供无酷爱酷爱的内容并混浊它们的数据源,但最终Anubis是对网站有用的责罚决策」。
拒却大要反击也许皆不是最好的路线。
DeVault也公开荒出了一则训诲的央求,但愿有一个更径直的责罚办法:「请罢手将LLMs或AI图像生成器任何这类垃圾正当化。恳求罢手使用它们,罢手评论它们,罢手制造新的,就这样停驻」。
然则,念念让LLM厂商主动罢手爬虫这种情况的可能性果真为零。
毕竟AI的「智能」皆来自于抑制「吞吃」互联网上的多样数据和信息。
岂论是给退却AI爬虫拜访网站、给AI「投喂垃圾」如故将AI爬虫拉入「无线虚空」。
开荒者们,尤其是在开源软件鸿沟,正在用机灵和「极客幽默」进行反击。
若是你是网站经管者和开荒者,你会奈何「出招」?
参考贵寓:
好利来 丝袜https://techcrunch.com/2025/03/27/open-source-devs-are-fighting-ai-crawlers-with-cleverness-and-vengeance/
点个 “爱心”,再走吧