新ChatGPT中文有很大的问题
2024-05-27 18:00:19行业资讯

脏数据

据报道,OpenAI 的训练数据存在污染问题,导致其新聊天机器人处理中文输出时充斥着色情和垃圾信息。

researcher-openai-sex-drug-parties.jpeg

不久前,OpenAI 发布了 GPT-4o,这是一个明显带有挑逗意味的新大型语言模型(LLM),具备新的先进功能——例如,通过用户设备摄像头“看到”事物,以及实时大声对话的能力。

然而,尽管 GPT-4o 在表面上取得了诸多进展,但它似乎存在一个巨大的盲点:中文语言。

为了训练 AI 模型,你需要令牌,即代表信息的数据单元,AI 使用这些令牌来“阅读”和学习。根据 麻省理工学院 的说法,AI 研究人员很快发现,该人工智能用于解读中文提示的 100 个最长中文令牌中,几乎所有令牌都包含垃圾、色情和赌博内容——导致对普通查询的奇怪、淫秽和垃圾信息泛滥的回应。

“这有点荒谬,”普林斯顿大学的 AI 研究员、博士生 Tianle Cai 在一个展示受污染令牌的 Github 帖子中写道。

非强迫性错误

最糟糕的部分是什么?据专家称,数据清洗不彻底的问题是 AI 训练中众所周知的障碍——并且这个问题应该不难解决。

门洛风险投资公司 的 AI 投资者 Deedy Das 曾在 Google 搜索团队工作过,他告诉 麻省理工学院,“每个垃圾邮件问题都有解决方案。”

他补充说,仅将令牌化的内容自动翻译以检测某些有问题的关键词就可以使数据集的清洁度达到“60%”。

“归根结底,我只是认为他们在这个问题上没有做好工作。”

“英文令牌似乎没有问题,”普林斯顿的研究员 Cai 告诉 麻省理工学院,“但中文的就有问题。”

换句话说,OpenAI 犯此错误的最可能原因是,确保其中文令牌大部分不包含色情和赌博垃圾邮件并未列入待办事项清单。

这对 OpenAI 来说是一个糟糕的形象。

中文是世界上使用人数最多的语言。

除此之外,如果未来互联网确实将围绕 AI 生成的材料展开——而不是人类创建和构建的网站、社区和世界——那么像不确保顶级聊天机器人能够解析超过十亿人的母语这样的错误,意味着人们,更不用说整个文化,都将被排除在外。