认识人工智能语言模型的偏见并通过RCI改善其正确性

华盛顿大学、卡内基梅隆大学和西安交通大学进行的最新研究揭示了AI语言模型具有不同的政治偏见。该研究对包括OpenAI的GPT-2、GPT-3 Ada和GPT-3 Da Vinci以及Meta的LLaMA在内的14个大型语言模型进行了调查。结果显示,OpenAI的ChatGPT和GPT-4倾向于左翼自由主义观点,而Meta的LLaMA则表现出右翼威权主义的倾向。

大型语言模型的内在偏见研究

研究人员采用政治罗盘 (Political Compass) 来绘制模型在女权主义和民主等议题上的立场。他们还调查了以更具政治偏见的数据将模型重新训练是否会影响其行为和识别仇恨言论和虚假信息的能力,结果发现确实会产生影响。

由于人工智能语言模型被广泛应用,理解其固有的政治假设和偏见变得至关重要。这些偏见有可能造成伤害,比如医疗聊天机器人拒绝提供关于堕胎或避孕的信息,或者客服机器人提供冒犯性内容。 OpenAI因ChatGPT被认为存在自由主义偏见而受到批评,但该公司强调正努力释除疑虑,并避免偏袒任何政治团体。然而,一些研究人员,如卡内基梅隆大学的Chan Park,认为语言模型完全摆脱政治偏见是不可实现的。

“我们认为没有任何语言模型可以完全摆脱政治偏见。”卡内基梅隆大学的博士研究员Chan Park表示。

人工智能语言模型具有明显不同的政治倾向。图表由Shangbin Feng、Chan Young Park、Yuhan Liu和Yulia Tsvetkov绘制。

研究人员进行了一项研究,以了解人工智能语言模型的政治偏见。他们分析了模型发展的三个阶段,首先评估了14个模型对政治敏感陈述的立场,并将它们绘制在一个政治罗盘上。令人惊讶的是,他们发现这些模型具有明显的政治倾向。与OpenAI的GPT模型相比,Google的BERT模型在社会观念上更加保守,这可能是因为其训练数据来自保守派的书籍而非自由派的互联网文本。

该研究还揭示了人工智能模型的偏见可以通过训练数据得到加强。再者,研究人员观察到模型的政治倾向影响了它们对仇恨言论和虚假信息的分类。左倾模型对针对少数群体的仇恨言论更为敏感,而右倾模型对针对白人基督教男性的仇恨言论更为敏感。此外,左倾模型更擅长检测来自右倾源头的虚假信息,而右倾模型则相反。

研究的局限性

根据参与研究的研究人员Park的说法,由于用于训练人工智能模型的数据和方法的透明度不足,使得外部观察者难以理解为何不同模型展现出不同的政治偏见。尽管研究人员试图通过从数据集中删除有偏见的内容来减轻偏见,但该研究强调清洗数据是不足够的。即使在较低的水平,偏见可能仍然存在,而且学术研究人员也难以存取当代的人工智能模型作全面的分析。该研究的局限性包括使用较旧的模型,以及评估人工智能模型的真实内部状态的挑战。研究人员承认政治罗盘测试不能完美地测量政治细微差异。为确保公平性,公司需要意识到偏见如何影响其人工智能模型的行为。

大型语言模型的自我批判能力

研究人员提出了一种名为”Recursive Criticism and Improvement”(RCI)的方法,通过自然语言引导增强预训练的大型语言模型(LLM)在执行推理任务时的表现。 RCI基本上是一种提示方案,当大型语言模型生成初始输出后,它会识别输出结果中的问题,然后根据该问题生成改进后的输出。

在GSM8K数据集上, RCI提示和基准提示方法的说明示例,相关提示文本以紫色显示。RCI提示有效地解决了基准提示方法中出现的逻辑错误。

RCI提示使大型语言模型能够识别其输出中的问题,并根据识别出的问题进行改进,从而实现迭代改进。研究人员将RCI与基准提示方法进行比较,使用一个经过清理的数据集,例如GSM8K数据集(小学数学问题),并展示了RCI的两个步骤:对先前答案进行批判性评估,并基于批判性评估生成改进后的答案。 RCI过程可以持续进行,直到满足特定条件。

RCI提示方案广泛改进了大型语言模型的推理能力,为智能应用的发展做出了重要贡献。

本文是在 AI 的协助下撰写,并参考以下来源:

https://www.technologyreview.com/2023/08/07/1077324/ai-language-models-are-rife-with-political-biases/

https://arxiv.org/abs/2303.17491

在此感谢 InnoHK、香港特别行政区政府及人工智能金融科技实验室对本文的支持。
(AIFT 竭力但不能保证内容之准确和可靠,亦不会承担因任何不准确或遗漏而引起的任何损失或损害。)

分享此內容

人工智能金融科技实验室与中银香港进一步加强金融科技合作

Tokenization Revolution - Unleashing Banking's Growth Potential

地址

香港沙田香港科学园科技大道西 19号
11楼 1101-1102 及 1121-1123 室

产品及解决方案

人才

工作机会

关于我们

地址

版权所有 © 2024 人工智能金融科技实验室有限公司