人人人免费人人专区人人,欧美精品不卡,欧美大片无尺码在线观看,久久精品小视频,成人免费黄色大片,欧美+亚洲+精品+三区

Anthropic AI 團隊研究顯示:人工智能傾向于產生迎合用戶的奉承性回應而非事實真相

微新創想(idea2003.com) 10 月 25 日消息:Anthropic 是一家美國的人工智能初創企業和公益公司,由 OpenAI 的前成員創立。Anthropic 專注于開發通用 AI 系統和語言模型,并秉持負責任的 AI 使用理念。Anthropic 開發的 Claude 2 于 2023 年七月推出

根據 Anthropic AI團隊的一項研究,建立在最常見學習范式之一的人工智能(AI)大型語言模型(LLMs)傾向于告訴人們他們想聽到的東西,而不是生成包含真實信息的輸出

這是首批深入探討 LLMs 心理學的研究之一,Anthropic 的研究人員發現,人類和 AI 都傾向于在一些時候選擇所謂的奉承性回應,而非真實信息的輸出

根據該團隊的研究論文:

「具體來說,我們展示了這些 AI 助手在被用戶質疑時經常錯誤地承認錯誤,提供可預測的偏見反饋,并模仿用戶犯的錯誤。這些實證發現的一致性表明,奉承可能確實是 RLHF(來自人類反饋的強化學習)模型訓練方式的一個屬性。」

本質上,這篇論文表明,即使是最強大的 AI 模型的回應也有些猶豫不決。在團隊的研究中,他們能夠通過使用傾向于奉承的語言編寫提示,微妙地影響 AI 的輸出

在一個示例中,來自 X(前身為 Twitter)的帖子顯示,一個提示表明用戶(錯誤地)認為從太空中看太陽是黃色的。可能是由于提示的措辭方式,AI 在明顯的奉承情況下產生了不真實的答案。

論文中的另一個示例顯示,表明用戶不同意 AI 的輸出可能會導致立即出現奉承現象,因為模型在最小的提示下將其正確答案更改為錯誤答案

最終,Anthropic 團隊得出結論,這個問題可能是由于 LLMs 的訓練方式。由于它們使用了充滿不同準確性信息的數據集,例如社交媒體和互聯網論壇帖子,通常通過一種名為「來自人類反饋的強化學習」(RLHF)的技術來實現對齊

在 RLHF 范式中,人類與模型互動以調整其偏好。例如,在調整機器對可能引起個人識別信息或危險誤信息的提示的響應時,這是有用的。

不幸的是,正如 Anthropic 的研究實證顯示的,為調整用戶偏好而構建的人類和 AI 模型傾向于選擇奉承性答案而非真實答案,至少在「不可忽略」的一部分時間里是這樣。

目前,似乎還沒有解決這個問題的解決辦法。Anthropic 建議,這項工作應激勵「開發超越使用無輔助、非專家人類評級的訓練方法」

您可能還喜歡...

發表回復

您的郵箱地址不會被公開。 必填項已用 * 標注