此文章发布于 2023/11/06,部分内容可能已经过时,请谨慎甄别。

此文章使用365Blog 2.0引擎的旧版格式编写,可能未兼容新站点,部分内容可能显示异常,请谅解。

参考资料

避免自己的网站被OpenAI爬取的几个方法 - Kris Yan

什么是GPTBot?

GPTBot是OpenAI的网络爬虫,可以通过以下UA字符串来识别:

User agent token: GPTBot
Full user-agent string: Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.0; +https://openai.com/gptbot)

GPTBot将用于:改进未来的模型,并经过过滤以删除需要付费专区访问、已知会收集个人身份信息 (PII) 或包含违反有关政策的文本的来源。

如何禁止爬取?

为什么要禁止?

与Google,百度等搜索引擎相比,搜索引擎爬取后是链接到你的网站,但GPT模型用了你的内容之后不会注明出处

禁止方法

方法一,使用自带规则拦截

OpenAI表示,GPTBot会“严格遵守”robots.txt内的规则,根据规则抓取内容。 最简单的就是

禁止爬取所有内容

robots.txt内添加:

User-agent: GPTBot
Disallow: /

这段内容表示:对于UA是GPTBot的爬虫而言,爬取根目录及其子目录下的任何内容都是不被允许的。 如果你只想GPTBot爬取部分内容,则需要学习

GPTBot爬取规则的使用

例:

User-agent: GPTBot
Allow: /folder-A/

表示允许爬取folder-A目录中的所有内容

User-agent: GPTBot
Disallow: /folder-B/

表示禁止爬取folder-B目录中的所有内容

总结: 总而言之,就是Allow后面跟允许爬取的目录路径,Disallow后面则跟着禁止爬取的目录路径。

方法二,屏蔽爬虫的访问

1.屏蔽IP段

IP段请参考GPTBot IP段文档

2.屏蔽UA

屏蔽来自

Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.0; +https://openai.com/gptbot)

UA的所有请求即可。