如何避免自己的网站被GPT-Bot“白嫖”?
00 分钟
2023-11-6
2024-5-16
status
type
date
slug
summary
tags
category
comment
icon

参考资料

什么是GPTBot?

GPTBot是OpenAI的网络爬虫,可以通过以下UA字符串来识别:
GPTBot将用于:改进未来的模型,并经过过滤以删除需要付费专区访问、已知会收集个人身份信息 (PII) 或包含违反有关政策的文本的来源。

如何禁止爬取?

为什么要禁止?

与Google,百度等搜索引擎相比,搜索引擎爬取后是链接到你的网站,但GPT模型用了你的内容之后不会注明出处

禁止方法

方法一,使用自带规则拦截

OpenAI表示,GPTBot会“严格遵守”robots.txt内的规则,根据规则抓取内容。 最简单的就是

禁止爬取所有内容

robots.txt内添加:
这段内容表示:对于UA是GPTBot的爬虫而言,爬取根目录及其子目录下的任何内容都是不被允许的。 如果你只想GPTBot爬取部分内容,则需要学习

GPTBot爬取规则的使用

例:
表示允许爬取folder-A目录中的所有内容
表示禁止爬取folder-B目录中的所有内容 总结: 总而言之,就是Allow后面跟允许爬取的目录路径,Disallow后面则跟着禁止爬取的目录路径。

方法二,屏蔽爬虫的访问

1.屏蔽IP段

IP段请参考GPTBot IP段文档

2.屏蔽UA

屏蔽来自
UA的所有请求即可。
上一篇
Twikoo美化样式分享
下一篇
为你的Gridea主题添加运行时间显示

留言区
请稍后,插件加载中...