如何发现OpenAI的爬虫机器人并阻止它在网站上获取训练数据-北京着陆云科技有限公司

如何发现OpenAI的爬虫机器人并阻止它在网站上获取训练数据

2023-08-11 16:19:46行业资讯

OpenAI是在公共网络数据上训练的机器学习模型的制造商，它已经发布了其网络爬虫的规范，以便发布商和网站所有者可以选择不抓取他们的内容。

新发布的技术文档描述了如何通过其用户代理令牌和字符串识别OpenAI的网络爬虫GPTBot，这些令牌和字符串由该公司的软件在HTTP请求头中发出，以向服务器请求网页。

因此，Web发布者可以在其Web服务器的robots.txt文件中添加一个条目，告诉爬虫应该如何行为，假设GPTBot被设计为遵守Robots Exclusion Protocol例如，下面的robots.txt键/值对集合将指示GPTBot远离根目录和站点上的其他所有内容。

User-agent: GPTBot
Disallow: /

然而，OpenAI坚持认为，允许其机器人收集网站数据可以提高该企业构建的人工智能模型的质量，并且可以在不收集敏感信息的情况下进行抓取

“使用GPTBot用户代理抓取的网页可能会被用于改进未来的模型，并被过滤以删除需要付费墙访问的来源，已知收集个人身份信息（PII），或含有违反我们政策的文本，”ML超级实验室的文档写道。

允许GPTBot访问你的站点，可以帮助AI模型变得更加准确，提高它们的通用能力和安全性

“允许GPTBot访问您的网站可以帮助AI模型变得更加准确，并提高其一般功能和安全性。“

谁不想为OpenAI节省时间和费用，使其模型更强大，风险更低？

即便如此，OpenAI承认它在公共互联网上训练其大型语言模型，这与组织限制通过网络自动访问信息的努力不谋而合。

人工智能软件制造商喜欢从网站获取各种信息，以训练他们的模型，从而获得数百万美元的收入。一些企业正在采取措施，如果他们不能从收入中分得一杯羹，他们就会关闭这些渠道。

例如，Reddit最近更改了API条款，以使该公司能够更好地将用户免费创建的内容货币化。

Twitter最近起诉了四家身份不明的实体，以防止网站数据被抓取用于人工智能培训。