認識人工智能語言模型的偏見並通過RCI改善其正確性

華盛頓大學、卡內基梅隆大學和西安交通大學進行的最新研究揭示了AI語言模型具有不同的政治偏見。該研究對包括OpenAI的GPT-2、GPT-3 Ada和GPT-3 Da Vinci以及Meta的LLaMA在內的14個大型語言模型進行了調查。結果顯示,OpenAI的ChatGPT和GPT-4傾向於左翼自由主義觀點,而Meta的LLaMA則表現出右翼威權主義的傾向。

大型語言模型的內在偏見研究

研究人員採用政治羅盤 (Political Compass) 來繪製模型在女權主義和民主等議題上的立場。他們還調查了以更具政治偏見的數據將模型重新訓練是否會影響其行為和識別仇恨言論和虛假信息的能力,結果發現確實會產生影響。

由於人工智能語言模型被廣泛應用,理解其固有的政治假設和偏見變得至關重要。這些偏見有可能造成傷害,比如醫療聊天機器人拒絕提供關於墮胎或避孕的資訊,或者客服機器人提供冒犯性內容。 OpenAI因ChatGPT被認為存在自由主義偏見而受到批評,但該公司強調正努力釋除疑慮,並避免偏袒任何政治團體。然而,一些研究人員,如卡內基梅隆大學的Chan Park,認為語言模型完全擺脫政治偏見是不可實現的。

“我們認為沒有任何語言模型可以完全擺脫政治偏見。”卡內基梅隆大學的博士研究員Chan Park表示。

人工智能語言模型具有明顯不同的政治傾向。圖表由Shangbin Feng、Chan Young Park、Yuhan Liu和Yulia Tsvetkov繪製。

研究人員進行了一項研究,以了解人工智能語言模型的政治偏見。他們分析了模型發展的三個階段,首先評估了14個模型對政治敏感陳述的立場,並將它們繪製在一個政治羅盤上。令人驚訝的是,他們發現這些模型具有明顯的政治傾向。與OpenAI的GPT模型相比,Google的BERT模型在社會觀念上更加保守,這可能是因為其訓練數據來自保守派的書籍而非自由派的互聯網文本。

該研究還揭示了人工智能模型的偏見可以通過訓練數據得到加強。再者,研究人員觀察到模型的政治傾向影響了它們對仇恨言論和虛假信息的分類。左傾模型對針對少數群體的仇恨言論更為敏感,而右傾模型對針對白人基督教男性的仇恨言論更為敏感。此外,左傾模型更擅長檢測來自右傾源頭的虛假信息,而右傾模型則相反。

研究的局限性

根據參與研究的研究人員Park的說法,由於用於訓練人工智能模型的數據和方法的透明度不足,使得外部觀察者難以理解為何不同模型展現出不同的政治偏見。儘管研究人員試圖通過從數據集中刪除有偏見的內容來減輕偏見,但該研究強調清洗數據是不足夠的。即使在較低的水平,偏見可能仍然存在,而且學術研究人員也難以存取當代的人工智能模型作全面的分析。該研究的局限性包括使用較舊的模型,以及評估人工智能模型的真實內部狀態的挑戰。研究人員承認政治羅盤測試不能完美地測量政治細微差異。為確保公平性,公司需要意識到偏見如何影響其人工智能模型的行為。

大型語言模型的自我批判能力

研究人員提出了一種名為”Recursive Criticism and Improvement”(RCI)的方法,通過自然語言引導增強預訓練的大型語言模型(LLM)在執行推理任務時的表現。 RCI基本上是一種提示方案,當大型語言模型生成初始輸出後,它會識別輸出結果中的問題,然後根據該問題生成改進後的輸出。

在GSM8K數據集上,RCI提示和基準提示方法的說明示例,相關提示文本以紫色顯示。RCI提示有效地解決了基準提示方法中出現的邏輯錯誤。

RCI提示使大型語言模型能夠識別其輸出中的問題,並根據識別出的問題進行改進,從而實現迭代改進。研究人員將RCI與基準提示方法進行比較,使用一個經過清理的數據集,例如GSM8K數據集(小學數學問題),並展示了RCI的兩個步驟:對先前答案進行批判性評估,並基於批判性評估生成改進後的答案。 RCI過程可以持續進行,直到滿足特定條件。

RCI提示方案廣泛改進了大型語言模型的推理能力,為智能應用的發展做出了重要貢獻。

本文是在 AI 的協助下撰寫,並參考以下來源:

https://www.technologyreview.com/2023/08/07/1077324/ai-language-models-are-rife-with-political-biases/

https://arxiv.org/abs/2303.17491

在此感謝 InnoHK、香港特別行政區政府及人工智能金融科技實驗室對本文的支持。
(AIFT 竭力但不能保證內容之準確和可靠,亦不會承擔因任何不準確或遺漏而引起的任何損失或損害。 )

分享此內容

地址

香港沙田香港科學園科技大道西 19 號
11樓 1101-1102 及 1121-1123 室

產品及解決方案

人才

工作機會

關於我們

地址

版權所有 © 2024 人工智能金融科技實驗室有限公司