OpenAI试图通过更广泛的训练数据来改善人工智能

人工智能研究公司OpenAI宣布的本周的一项新举措旨在多样化和扩大用于训练的数据人工智能被称为数据伙伴关系的模型。通过这个项目，OpenAI公司计划与第三方组织合作，为人工智能训练建立新的公共和私人数据集。

为了更加公平和准确，OpenAI希望呈现更好的数据

根据OpenAI的说法，目标是通过将它们暴露于更广泛的数据来创建更公平、准确和有益的模型，这些数据更好地反映了不同的语言、文化和主题。当前的人工智能数据集往往受到西方中心主义、缺乏多样性以及包含有毒或有偏见的内容等问题的困扰。

OpenAI在宣布该计划的一篇博客文章中说:“为了最终使[AI]安全并有益于全人类，我们希望AI模型能够深入理解所有主题、行业、文化和语言，这需要尽可能广泛的训练数据集。”

跨平台的建模和理解可以通过培训来实现

通过与合作伙伴合作，收集文本、图像、音频和视频等各种形式的大规模数据集，OpenAI希望提高对模型的理解，而不仅仅是今天可以从互联网上轻松获取的数据。该公司表示，它将努力删除任何敏感或个人信息，并将提供保持数据集隐私的选项。

OpenAI已经与冰岛政府、自由法律项目和Mið eind ehf等组织就该计划的早期版本进行了合作。然而，一些专家对这一努力是否能成功地将迄今为止影响人工智能模型的根深蒂固的偏见降至最低表示怀疑。

“总的来说，我们正在寻找希望帮助我们教会人工智能理解我们的世界的合作伙伴，以便最大限度地帮助每个人，”OpenAI说。

多样化的人工智能训练数据，为GPT-4改善

虽然多样化的人工智能训练数据是必不可少的，但该计划也显然有利于商业上的开放人工智能模型，如GPT-4。这种被认为的双重动机，加上OpenAI缺乏对数据合作伙伴的补偿，已经引起了一些批评，因为有人指责该公司未经许可使用数据。

OpenAI的数据集收集、偏见缓解工作和商业利益的更大透明度将是衡量数据合作对人工智能整体格局影响的关键。但该计划标志着一种意识，即改善未来的人工智能需要从更好、更具代表性的数据开始。