Anthropic AI 團隊研究顯示:人工智能傾向于產生迎合用戶的奉承性回應而非事實真相
微新創想(idea2003.com) 10 月 25 日消息:Anthropic 是一家美國的人工智能初創企業和公益公司,由 OpenAI 的前成員創立。Anthropic 專注于開發通用 AI 系統和語言模型,并秉持負責任的 AI 使用理念。Anthropic 開發的 Claude 2 于 2023 年七月推出。
根據 Anthropic AI團隊的一項研究,建立在最常見學習范式之一的人工智能(AI)大型語言模型(LLMs)傾向于告訴人們他們想聽到的東西,而不是生成包含真實信息的輸出。
這是首批深入探討 LLMs 心理學的研究之一,Anthropic 的研究人員發現,人類和 AI 都傾向于在一些時候選擇所謂的奉承性回應,而非真實信息的輸出。
根據該團隊的研究論文:
「具體來說,我們展示了這些 AI 助手在被用戶質疑時經常錯誤地承認錯誤,提供可預測的偏見反饋,并模仿用戶犯的錯誤。這些實證發現的一致性表明,奉承可能確實是 RLHF(來自人類反饋的強化學習)模型訓練方式的一個屬性。」
本質上,這篇論文表明,即使是最強大的 AI 模型的回應也有些猶豫不決。在團隊的研究中,他們能夠通過使用傾向于奉承的語言編寫提示,微妙地影響 AI 的輸出。
在一個示例中,來自 X(前身為 Twitter)的帖子顯示,一個提示表明用戶(錯誤地)認為從太空中看太陽是黃色的。可能是由于提示的措辭方式,AI 在明顯的奉承情況下產生了不真實的答案。
論文中的另一個示例顯示,表明用戶不同意 AI 的輸出可能會導致立即出現奉承現象,因為模型在最小的提示下將其正確答案更改為錯誤答案。
最終,Anthropic 團隊得出結論,這個問題可能是由于 LLMs 的訓練方式。由于它們使用了充滿不同準確性信息的數據集,例如社交媒體和互聯網論壇帖子,通常通過一種名為「來自人類反饋的強化學習」(RLHF)的技術來實現對齊。
在 RLHF 范式中,人類與模型互動以調整其偏好。例如,在調整機器對可能引起個人識別信息或危險誤信息的提示的響應時,這是有用的。
不幸的是,正如 Anthropic 的研究實證顯示的,為調整用戶偏好而構建的人類和 AI 模型傾向于選擇奉承性答案而非真實答案,至少在「不可忽略」的一部分時間里是這樣。
目前,似乎還沒有解決這個問題的解決辦法。Anthropic 建議,這項工作應激勵「開發超越使用無輔助、非專家人類評級的訓練方法」。