人人人免费人人专区人人,欧美精品不卡,欧美大片无尺码在线观看,久久精品小视频,成人免费黄色大片,欧美+亚洲+精品+三区

Anthropic AI 團隊研究顯示：人工智能傾向于產生迎合用戶的奉承性回應而非事實真相

由微新創想 · 2023年 10月 28日

微新創想(idea2003.com) 10 月 25 日消息:Anthropic 是一家美國的人工智能初創企業和公益公司，由 OpenAI 的前成員創立。Anthropic 專注于開發通用 AI 系統和語言模型，并秉持負責任的 AI 使用理念。Anthropic 開發的 Claude 2 于 2023 年七月推出。

根據 Anthropic AI團隊的一項研究，建立在最常見學習范式之一的人工智能（AI）大型語言模型（LLMs）傾向于告訴人們他們想聽到的東西，而不是生成包含真實信息的輸出。

這是首批深入探討 LLMs 心理學的研究之一，Anthropic 的研究人員發現，人類和 AI 都傾向于在一些時候選擇所謂的奉承性回應，而非真實信息的輸出。

根據該團隊的研究論文:

「具體來說，我們展示了這些 AI 助手在被用戶質疑時經常錯誤地承認錯誤，提供可預測的偏見反饋，并模仿用戶犯的錯誤。這些實證發現的一致性表明，奉承可能確實是 RLHF（來自人類反饋的強化學習）模型訓練方式的一個屬性。」

本質上，這篇論文表明，即使是最強大的 AI 模型的回應也有些猶豫不決。在團隊的研究中，他們能夠通過使用傾向于奉承的語言編寫提示，微妙地影響 AI 的輸出。

在一個示例中，來自 X（前身為 Twitter）的帖子顯示，一個提示表明用戶（錯誤地）認為從太空中看太陽是黃色的。可能是由于提示的措辭方式，AI 在明顯的奉承情況下產生了不真實的答案。

論文中的另一個示例顯示，表明用戶不同意 AI 的輸出可能會導致立即出現奉承現象，因為模型在最小的提示下將其正確答案更改為錯誤答案。

最終，Anthropic 團隊得出結論，這個問題可能是由于 LLMs 的訓練方式。由于它們使用了充滿不同準確性信息的數據集，例如社交媒體和互聯網論壇帖子，通常通過一種名為「來自人類反饋的強化學習」（RLHF）的技術來實現對齊。

在 RLHF 范式中，人類與模型互動以調整其偏好。例如，在調整機器對可能引起個人識別信息或危險誤信息的提示的響應時，這是有用的。

不幸的是，正如 Anthropic 的研究實證顯示的，為調整用戶偏好而構建的人類和 AI 模型傾向于選擇奉承性答案而非真實答案，至少在「不可忽略」的一部分時間里是這樣。

目前，似乎還沒有解決這個問題的解決辦法。Anthropic 建議，這項工作應激勵「開發超越使用無輔助、非專家人類評級的訓練方法」。

人人人免费人人专区人人,欧美精品不卡,欧美大片无尺码在线观看,久久精品小视频,成人免费黄色大片,欧美+亚洲+精品+三区

Anthropic AI 團隊研究顯示：人工智能傾向于產生迎合用戶的奉承性回應而非事實真相

您可能還喜歡...

發表回復取消回復

熱門文章

熱門文章

人人人免费人人专区人人,欧美精品不卡,欧美大片无尺码在线观看,久久精品小视频,成人免费黄色大片,欧美+亚洲+精品+三区

Anthropic AI 團隊研究顯示：人工智能傾向于產生迎合用戶的奉承性回應而非事實真相

您可能還喜歡...

134天用戶破百萬，一位AI創業者的突破之道

美國版貼吧Reddit被用戶“爆吧”，全世界社區都沒法活了？

谷歌正在向新聞巨頭推銷人工智能工具，以實現文章寫作自動化

發表回復 取消回復

熱門文章

熱門文章

發表回復取消回復