首页 > AI教程资讯

Cloudflare称Perplexity绕过限制,抓取明令禁止AI抓取的网站

文章来源:08ai导航网发布时间:2025-08-06 17:06:24

8月5日消息,当地时间周一,Cloudflare发布了一份报告,指控AI初创公司Perplexity在网站已明确标注禁止AI抓取的情况下仍进行抓取,并通过改变身份标识规避拦截规则。

报告显示,Perplexity忽略网站robots.txt文件(用于告知搜索引擎和AI公司哪些页面可供索引)及针对其已知爬虫的拦截规则,调整UA和ASN信息,通过更换身份和网络地址等手段绕过屏蔽并抓取大量内容。

Cloudflare称,他们通过“机器学习与网络信号相结合”的方式,识别出了Perplexity爬虫的特征,其行为涉及“数万个域名,每天数百万次请求”。

针对指控,Perplexity发言人JesseDwyer表示:Cloudflare的博文是“销售噱头”,并表示文中截图“显示没有内容被访问”。在后续邮件中,Dwyer进一步否认,称Cloudflare提到的机器人“甚至不是我们的”。

Cloudflare表示,其调查源于客户投诉——部分客户已在robots文件中添加规则并专门拦截Perplexity的已知爬虫,但仍遭其抓取。Cloudflare测试后确认属实。

作为回应,Cloudflare已将Perplexity的爬虫移出认证名单(用于标识合法爬虫),并添加新的技术拦截其行为。

注意到,这并非Perplexity首次面临此类指控。去年《Wired》等媒体也曾指控Perplexity抄袭其内容;首席执行官AravindSrinivas在Disrupt2024大会上面对媒体问询却不敢回答。

参考资料:

《Perplexityisusingstealth,undeclaredcrawlerstoevadewebsiteno-crawldirectives》