如何避免自己的网站被GPT-Bot“白嫖”?
此文章发布于 2023/11/06,部分内容可能已经过时,请谨慎甄别。
此文章使用365Blog 2.0引擎的旧版格式编写,可能未兼容新站点,部分内容可能显示异常,请谅解。
参考资料
避免自己的网站被OpenAI爬取的几个方法 - Kris Yan
什么是GPTBot?
GPTBot是OpenAI的网络爬虫,可以通过以下UA字符串来识别:
User agent token: GPTBot
Full user-agent string: Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.0; +https://openai.com/gptbot)
GPTBot将用于:改进未来的模型,并经过过滤以删除需要付费专区访问、已知会收集个人身份信息 (PII) 或包含违反有关政策的文本的来源。
如何禁止爬取?
为什么要禁止?
与Google,百度等搜索引擎相比,搜索引擎爬取后是链接到你的网站,但GPT模型用了你的内容之后不会注明出处。
禁止方法
方法一,使用自带规则拦截
OpenAI表示,GPTBot会“严格遵守”robots.txt
内的规则,根据规则抓取内容。 最简单的就是
禁止爬取所有内容
在robots.txt
内添加:
User-agent: GPTBot
Disallow: /
这段内容表示:对于UA是GPTBot的爬虫而言,爬取根目录及其子目录下的任何内容都是不被允许的。 如果你只想GPTBot爬取部分内容,则需要学习
GPTBot爬取规则的使用
例:
User-agent: GPTBot
Allow: /folder-A/
表示允许爬取folder-A
目录中的所有内容
User-agent: GPTBot
Disallow: /folder-B/
表示禁止爬取folder-B
目录中的所有内容
总结: 总而言之,就是Allow
后面跟允许爬取的目录路径,Disallow
后面则跟着禁止爬取的目录路径。
方法二,屏蔽爬虫的访问
1.屏蔽IP段
IP段请参考GPTBot IP段文档
2.屏蔽UA
屏蔽来自
Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.0; +https://openai.com/gptbot)
UA的所有请求即可。
评论
匿名评论
隐私声明
365云栈通过Markdown语法对内容进行引用,请不要删除自动填充的内容,直接评论即可,否则将导致引用失效!