人人人免费人人专区人人,欧美精品不卡,欧美大片无尺码在线观看,久久精品小视频,成人免费黄色大片,欧美+亚洲+精品+三区

Meta、OpenAI、Anthropic 和 Cohere 人工智能模型都在胡編亂造 —— 哪個最糟糕?

微新創想(idea2003.com) 8月18日消息:如果科技行業的頂尖人工智能模型有所區別的話,微軟支持的 OpenAI 的 GPT-4 在數學方面表現最好Meta 的 Llama 2 則在中間位置,Anthropic 的 Claude 2 在了解自己的限制方面表現最好,而 Cohere AI 則被賦予了最多的幻覺和最自信的錯誤答案的稱號。

這份周四來自 Arthur AI 研究人員的報告指出這一切。Arthur AI 是一家機器學習監測平臺。

這項研究是在人工智能系統產生誤導信息的問題愈發引起爭議之際進行的,與此同時,生成式人工智能正迎來了繁榮期。

Arthur AI 的聯合創始人兼首席執行官 Adam Wenchel 表示,這是第一個「全面考察幻覺率」的報告,而非僅僅提供「一個數字來衡量它們在 LLM 排行榜上的位置」。

當大型語言模型(LLMs)完全捏造信息、表現得像在說真實事實時,就會出現 AI 幻覺。例如,在 6 月份的一例中,有人發現 ChatGPT 在紐約聯邦法院的一份文件中引用了「虛假」的案例,涉案的紐約律師可能面臨制裁。

在一個實驗中,Arthur AI 的研究人員在組合數學、美國總統和摩洛哥政治領導人等類別中測試了這些 AI 模型,并提出了一些「設計來使 LLMs 犯錯的關鍵元素,需要多個步驟來推理信息」的問題,研究人員寫道。

總體而言,OpenAI 的 GPT-4 在所有測試的模型中表現最好,研究人員發現它的幻覺現象比之前的版本 GPT-3.5 要少,例如,在數學問題上,它的幻覺現象減少了 33% 至 50%,具體取決于類別。

另一方面,研究人員發現,Meta 的 Llama 2 比 GPT-4 和 Anthropic 的 Claude 2 更容易產生幻覺。

在數學類別中,GPT-4 排名第一,Claude 2 緊隨其后,但在美國總統類別的測試中,Claude 2 以準確率位居第一,擠下了 GPT-4,成為第二名。當被問到摩洛哥政治問題時,GPT-4 再次排名第一,而 Claude 2 和 Llama 2 則幾乎選擇不回答。

在第二個實驗中,研究人員測試了這些 AI 模型在回答問題時是否會使用警示語來避免風險(比如:作為一個 AI 模型,我不能提供意見)。

在使用警示語方面,與 GPT-3.5 相比,GPT-4 有了 50% 的相對增長,研究人員寫道:「這從用戶的個別證據中量化了 GPT-4 的使用更加令人沮喪」,然而,根據報告,Cohere 的 AI 模型在任何回答中都沒有使用警示語。研究顯示,Claude 2 在「自我意識」方面最可靠,即準確評估自身所知與所不知,并且只回答具備支持性數據的問題。

Cohere 的一位發言人對這些結果提出了異議,稱「Cohere 的檢索自動生成技術未被測試,它對于給企業提供可驗證的引用文獻以確認信息來源非常有效」。

Wenchel 表示,用戶和企業最重要的結論是「根據實際工作負載進行測試」,他隨后補充道:「重要的是要了解它在你試圖實現的任務上的性能」

Wenchel 說:「很多基準測試僅僅關注 LLM 本身的某種衡量標準,但實際上在真實世界中并不是這樣使用的。確保你真正了解 LLM 在實際應用中的表現是關鍵。」

閱讀 Arthur AI研究報告https://www.arthur.ai/gap

您可能還喜歡...

發表回復

您的郵箱地址不會被公開。 必填項已用 * 標注