OpenAI是在公共网络数据上训练的机器学习模型的制造商,它已经发布了其网络爬虫的规范,以便发布商和网站所有者可以选择不抓取他们的内容。
新发布的技术文档描述了如何通过其用户代理令牌和字符串识别OpenAI的网络爬虫GPTBot,这些令牌和字符串由该公司的软件在HTTP请求头中发出,以向服务器请求网页。
因此,Web发布者可以在其Web服务器的robots.txt文件中添加一个条目,告诉爬虫应该如何行为,假设GPTBot被设计为遵守Robots Exclusion Protocol例如,下面的robots.txt键/值对集合将指示GPTBot远离根目录和站点上的其他所有内容。
User-agent: GPTBot Disallow: /
然而,OpenAI坚持认为,允许其机器人收集网站数据可以提高该企业构建的人工智能模型的质量,并且可以在不收集敏感信息的情况下进行抓取
“使用GPTBot用户代理抓取的网页可能会被用于改进未来的模型,并被过滤以删除需要付费墙访问的来源,已知收集个人身份信息(PII),或含有违反我们政策的文本,”ML超级实验室的文档写道。
允许GPTBot访问你的站点,可以帮助AI模型变得更加准确,提高它们的通用能力和安全性
“允许GPTBot访问您的网站可以帮助AI模型变得更加准确,并提高其一般功能和安全性。“
谁不想为OpenAI节省时间和费用,使其模型更强大,风险更低?
即便如此,OpenAI承认它在公共互联网上训练其大型语言模型,这与组织限制通过网络自动访问信息的努力不谋而合。
人工智能软件制造商喜欢从网站获取各种信息,以训练他们的模型,从而获得数百万美元的收入。一些企业正在采取措施,如果他们不能从收入中分得一杯羹,他们就会关闭这些渠道。
例如,Reddit最近更改了API条款,以使该公司能够更好地将用户免费创建的内容货币化。
Twitter最近起诉了四家身份不明的实体,以防止网站数据被抓取用于人工智能培训。
- 教育部部署加强中小学人工智能教育 12-09
- 比特币的价格已突破10万美元 12-07
- 美国当选总统唐纳德·特朗普提名前参议员戴维·珀杜出任美国驻华大使 12-06
- 恭喜中国春节申遗成功 12-05
- Sam Altman表示,明年他最兴奋的事情是实现AGI 11-12
- 借助 AI 之力:不懂编程也能制作游戏 11-12
- 从谷歌到 ChatGPT 网络搜索:信息获取的革新之战 11-12
- 当园艺遇上 AI:智能花园的奇妙之旅 11-12