栏目分类

热点资讯

bo.kk44kk.com

你的位置：人妖丝袜 > bo.kk44kk.com >

人妖 sm AI爬虫刻薄，OpenAI等大厂不讲武德！开荒者打造「神级兵器」讲和

发布日期：2025-04-08 07:16 点击次数：104

著述转载于新智元人妖 sm

AI采集爬虫是互联网上的「蟑螂」，果真所有软件开荒者皆会这样以为的。

「爬虫」是一种采集自动格式，用来浏览互联网、获取网页内容。

而在AI时期，爬虫的恐吓到了闪开荒者不得不禁闭掉某个地区所有东谈主的拜访。

Triplegangers是一家只是由七名职工运营的公司，他们破耗十多年技巧开荒了自称是采集上最大的「东谈主类数字替身」的，即从现实东谈主体扫描得到的3D图像文献。

2025年2月10日，公司CEO Oleksandr Tomchuk须臾发现他们公司的电商网站「崩了」。

「OpenAI使用了600个IP来持取数据，日记还在分析中，可能远不啻这些」，Tomchuk最终发现，导致他们网站崩溃的元凶居然是OpenAI的爬虫机器东谈主。

「他们的爬虫正在压垮咱们的网站，这便是一次DDoS报复！」

OpenAI莫得回答这次事件，该事件以前只是不到两个月，但AI爬虫机器东谈主仍然活跃在采集上。

AI爬虫不受命「陈腐传统」，阻止他们是忽地的

其实爬虫最早并不是AI时期为了获取考试语料而出身的。

早在搜索引擎时期，就仍是有「搜索引擎机器东谈主」，阿谁「陈腐年代」的机器东谈主还沿袭成习的受命各个网站上会存在的一份文献——robots.txt。

这个文献告诉了机器东谈主不要爬取哪些内容，哪些内容不错爬取。

但这份传统跟着互联网的发展似乎仍是被渐忘，爬虫和反爬虫也演变为一场攻防战斗。

而到了如今的「大模子时期」，互联网的信息仍是被LLMs吞吃一空。

阻止AI爬虫机器东谈主是忽地的，因为它们会撒谎、篡改用户代理、使用住宅IP地址当作代理来骗过采集「退却」。

「他们会抑制地持取你的网站，直到它崩溃，然后还会陆续持取。他们会点击每一个页面上的每一个连气儿上，一遍又一随处检察调换的页面」，开荒者在帖子中写谈。

AI机器东谈主除了「免费」爬取信息外，还会稀疏增多所爬网站企业的运营用度——在这个云处事的时期，果真所有被爬取的企业皆在云上，多数的爬虫流量不仅无法带来收益，还会增多他们的云处事器账单。

愈加无法预感的小数是，对于那些被「白嫖」的网站来说，甚而着实的知谈被白嫖了哪些信息。

一些开荒者决定启动以玄机且幽默的格式进行反击。

格式员打造爬虫的「神之坟场」

FOSS开荒者Xe Iaso在博客中模样了AmazonBot奈何抑制报复一个Git处事器网站，导致DDoS停机。

是以Iaso决定用机灵反击，他构建了一个名为Anubis的用具。

Anubis是一个使命量确认查验的反向代理，央求必须通过该查验才能拜访Git处事器。

它阻止机器东谈主，但允许东谈主类操作的浏览器通过。

Iaso对于Anubis使命道理的浮浅先容。

本色上，Anubis确保的是「真确东谈主类使用的浏览器」在拜访指标网站，而不是AI爬虫——除非这个爬虫伪装的豪阔「先进」，就像通过图灵测试同样。

道理的部分是：Anubis是埃及据说中素养死者经受审判的神的名字。

「Anubis称量了你的灵魂（腹黑），若是它比一根羽毛重，你的腹黑就会被吃掉，然后你就透彻死了」。

这个神态的名字带有讥讽意味，在开脱开源软件社区中像风同样传播开来。

Iaso在3月19日将其共享到GitHub上，仅几天技巧就赢得了2000个星标、20位孝顺者和39个分支。

用「复仇」的格式防备AI爬虫

Anubis的赶紧流行标明Iaso的可怜并非个例。事实上，还有好多故事：

SourceHut的首创东谈主兼CEO Drew DeVault模样说，他每周要破耗「20% 到 100% 的技巧来大限度缓解过于激进的 LLM 爬虫」，况兼「每周资格数十次有顷的处事中断」。

Jonathan Corbet，一位著名的FOSS开荒者，他运营着Linux行业新闻网站 LWN，警告称他的网站正受到「来自 AI 持取机器东谈主的 DDoS 级别的流量」影响而变慢。

Kevin Fenzi，宏大的Linux Fedora神态的系统经管员，示意AI持取机器东谈主变得如斯激进，他不得不禁闭所有这个词巴西的拜访。

除了像Anubis同样「推测」采集央求者的灵魂外，其他开荒者以为复仇是最好的防备。

几天前在Hacker News上，用户xyzal提倡用「多数对于喝漂白剂刚正的著述」或「对于感染麻疹对床上领路的积极影响的著述」来加载robots.txt退却的页面。

这样AI爬虫获取的信息皆是这种多数且无须的「替代品」。

「咱们以为需要让机器东谈主拜访咱们的罗网时赢得负的遵循值，而不单是是零价值」，xyzal 解释说。

一月份，一位名为Aaron的匿名创作家发布了一个名为Nepenthes的用具，其见识恰是如斯。

它将爬虫困在一个无穷的不实内容迷宫中，无法像爬虫「主东谈主」复返任何信息。

而当作网友心目中的「赛博菩萨」的Cloudflare，也许是提供多种用具来对抗AI爬虫的最大贸易玩家，上周发布了一个名为AI Labyrinth的肖似用具。

它的见识是「放慢、诱骗并迫害不遵守退却爬取提醒的AI爬虫和其他机器东谈主的资源」，Cloudflare 在其博客著述中模样谈。

「当AI爬虫奴婢这些连气儿时，它们会迫害珍爱的打算资源处理无关内容，而不是索取正当网站数据。这大大裁汰了它们网罗豪阔有用信息以有用考试模子的智力」。

比较起反击，另一种不雅点是「Nepenthes有一种令东谈主惬心的正义感，因为它向爬虫提供无酷爱酷爱的内容并混浊它们的数据源，但最终Anubis是对网站有用的责罚决策」。

拒却大要反击也许皆不是最好的路线。

DeVault也公开荒出了一则训诲的央求，但愿有一个更径直的责罚办法：「请罢手将LLMs或AI图像生成器任何这类垃圾正当化。恳求罢手使用它们，罢手评论它们，罢手制造新的，就这样停驻」。

然则，念念让LLM厂商主动罢手爬虫这种情况的可能性果真为零。

毕竟AI的「智能」皆来自于抑制「吞吃」互联网上的多样数据和信息。

岂论是给退却AI爬虫拜访网站、给AI「投喂垃圾」如故将AI爬虫拉入「无线虚空」。

开荒者们，尤其是在开源软件鸿沟，正在用机灵和「极客幽默」进行反击。

若是你是网站经管者和开荒者，你会奈何「出招」？

参考贵寓：

好利来丝袜

https://techcrunch.com/2025/03/27/open-source-devs-are-fighting-ai-crawlers-with-cleverness-and-vengeance/

点个 “爱心”，再走吧

上一篇：九儿巨乳以旧换新带动消耗温雅，成皆各大商圈玩出“新神志”：有阛阓零卖同比增多20％

下一篇：快播成人网国元证券予以广联达买入评级，2024年年度陈诉点评：本钱用度有用管控，引发贪图彰显信心