构想一下,假设你的名字选择了 AI 如何看待你,这将是如许一件荒诞的事件,但最新钻研标明,这或者就是事实。OpenAI钻研团队对 ChatGPT 启动了一项幽默的钻研,不只发现了"姓名成见",还发现更多AI 伦理和偏心性疑问。
“第一人称偏心性”疑问
当用户经常使用"Emily"这个名字时,ChatGPT 偏向于经常使用更友好、更团体化的语气;而关于"Muhammad"这个名字,AI 的回应则显得更为正式和疏离。这种差异并非孤例,而是在少量样本中出现出的系统性偏向,这种现象被称为"第一人称偏心性"疑问。
便捷来说,这就像是 AI 在表演不同角色时,不可偏心看待每个"我"。他们经过精心设计的实验,让 AI 系统表演不异性别、种族和文明背景的角色,而后剖析其照应中能否存在成见。该实验模拟了 AI 系统以特定身份间接与用户对话的场景。钻研人员开发了一个名为 PERSONA 的数据集,有 110 万条实在对话,涵盖 9个畛域 66 种义务,包括写故事、提供职业倡导、处置数学识题等。蕴含了各种背景的虚拟人物。他们让 ChatGPT 表演这些角色,回答一系列触及性别、种族、宗教等敏感话题的疑问。
钻研团队经过剖析 AI 的回应,不只发现AI存在“姓名成见”,还发现了一些其余成见:
为了量化这些成见,钻研团队开发了一套评价框架,包括品质评价和有害刻板印象检测。他们经常使用了人造言语处置技术来剖析 AI 生成的文本,并联合人工评价来确保结果的准确性。
钻研团队并未止步于发现疑问,他们还尝试了一些改良措施。经过调整模型的训练方法,特意是引入人类反应的强化学习,他们成功地缩小了这些成见。
总结
这项钻研的翻新之处在于,它不只仅关注 AI 系统的输入,还思考了系统在表演不同角色时的行为变动。这种方法更凑近实在环球中 AI 运行的场景,为评价 AI 系统的偏心性提供了新的视角。
同时,钻研也存在一些局限性。例如,PERSONA 数据集只管涵盖了多种背景,但仍不可齐全代表事实环球的多样性。此外,钻研重要基于英语对话,或者不可齐全反映其余言语和文明背景下的 AI 行为。
这项钻研的意义远超出了学术界。假设,这个环球上的各种不偏心歧视在未来AI环球也不可防止,这将会是一件如许丧气的事件。
参考资料
[1]钻研:
本文转载自,作者: