参考资料

什么是GPTBot？

GPTBot是OpenAI的网络爬虫，可以通过以下UA字符串来识别：

User agent token: GPTBot
Full user-agent string: Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.0; +https://openai.com/gptbot)

GPTBot将用于：改进未来的模型，并经过过滤以删除需要付费专区访问、已知会收集个人身份信息 (PII) 或包含违反有关政策的文本的来源。

如何禁止爬取？

为什么要禁止？

与Google，百度等搜索引擎相比，搜索引擎爬取后是链接到你的网站，但GPT模型用了你的内容之后不会注明出处。

禁止方法

方法一，使用自带规则拦截

OpenAI表示，GPTBot会“严格遵守”robots.txt内的规则，根据规则抓取内容。最简单的就是

禁止爬取所有内容

在robots.txt内添加：

User-agent: GPTBot
Disallow: /

这段内容表示：对于UA是GPTBot的爬虫而言，爬取根目录及其子目录下的任何内容都是不被允许的。如果你只想GPTBot爬取部分内容，则需要学习

GPTBot爬取规则的使用

例：

User-agent: GPTBot
Allow: /folder-A/

表示允许爬取folder-A目录中的所有内容

User-agent: GPTBot
Disallow: /folder-B/

表示禁止爬取folder-B目录中的所有内容

总结：总而言之，就是Allow后面跟允许爬取的目录路径，Disallow后面则跟着禁止爬取的目录路径。

方法二，屏蔽爬虫的访问

1.屏蔽IP段

IP段请参考GPTBot IP段文档

2.屏蔽UA

屏蔽来自

Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.0; +https://openai.com/gptbot)

UA的所有请求即可。