英伟达被发现窃取数量惊人的YouTube视频来训练人工智能
2024-08-08 17:22:14行业资讯

nvidia-caught-scraping-youtube-ai.jpeg

据媒体获得的泄露文件显示,人工智能驱动的芯片巨头英伟达一直在悄悄地抓取天文数字的YouTube视频数据来训练其人工智能模型——这是一个法律和道德上含糊不清的决定,增加了从初创企业到企业巨头等实体不断增加的令人深信不疑且往往非常秘密的人工智能培训实践。

根据爆炸性独家新闻,英伟达获得了令人垂涎的YouTube数据来训练人工智能模型,包括其宇宙深度学习模型、自动驾驶汽车算法、“数字人类”人工智能化身产品及其名为Omniverse的3D世界构建工具。

据报道,英伟达还煞费苦心地向YouTube隐瞒其活动,使用数十个自动更改IP地址以避免被发现的“虚拟机”。

无论是个人视频创作者还是YouTube所有者谷歌,一个著名的英伟达客户,都不同意英伟达的数据抓取。

鉴于英伟达正在使用这些学术数据来训练商业模型,这看起来很糟糕。

麻省理工学院媒体实验室的博士生谢恩·朗普雷告诉记者,“我认为未经某人同意将某样东西商业化与研究基于公开发布在网上的东西的生成人工智能能力之间存在巨大差距。”

英伟达因其对图形处理单元(GPU)的市场主导地位而成为人工智能行业的核心参与者。

图形处理单元是通常支持计算密集型人工智能系统的计算芯片。包括OpenAI、微软、Meta和谷歌在内的人工智能公司都将自己视为英伟达的客户,这使得英伟达偷偷摸摸地使用最终属于谷歌的数据变得更加可耻。

人工智能行业的每个主要参与者都在争夺主导地位——包括市场硬件支柱英伟达,现在已经被证明是一个朋友。

事实上,当被问及英伟达的抓取做法时,谷歌的一名发言人指出,在4月份的一次采访中,YouTube首席执行官尼尔·莫汉告诉外面,未经许可使用YouTube的数据“明显违反”了平台的服务条款。

莫汉补充说:“当创作者将他们的辛勤工作上传到我们的平台时,他们有一定的期望,其中一个期望是服务条款将得到遵守。它不允许下载成绩单或视频片段等东西,这显然违反了我们的服务条款。”