跳转到内容

GPT-4o中文词库沦陷色情

维基新闻,自由的新闻源

【2024年5月20日讯】

GPT-4o中文词库遭充斥色情赌博字词,研究指OpenAI在数据清理上存在疏忽。

ChatGPT

根据普林斯顿大学博士生蔡天乐(Tianle Cai)的观察,OpenAI于本月13日推出的GPT-4o在解析和压缩中文提示时存在使用不当的分词问题,导致充斥着垃圾邮件和色情词汇。

蔡天乐查看GPT-4o公开分词库,并列出模型解析中文的100个最长分词,其中只有三个常用于日常对话,其馀的均与赌博或色情语境相关。最长分词指的是“免费日本色情影片观看”。

蔡天乐指出,问题显然出在训练分词器的语料库上,英文的分词没有问题,但中文的分词存在问题,OpenAI可能未适当清理中文数据。

卡内基梅隆大学博士生耿正阳(Zhengyang Geng)称,GPT-3.5和旧版的GPT-4的分词器在中文分词方面没有此问题,最长的中文分词是“生命周期”或“自动生成”等常用词。

前Google搜索团队成员、门罗创投的AI投资者Deedy Das指出,垃圾内容普遍存在是已知的问题,修复并不困难。Das认为OpenAI可能在发布GPT-4o之前未清理中文数据集或分词。

《麻省理工科技评论》引述专家指出,解决这个问题并不难,但污染的分词和模型若在未来叠代中被继承,情况或会转趋复杂。报道亦提及,目前尚无法测试GPT-4的影片音频功能是否受这些中文分词问题影响。

消息来源