人人人免费人人专区人人,欧美精品不卡,欧美大片无尺码在线观看,久久精品小视频,成人免费黄色大片,欧美+亚洲+精品+三区

研究人員稱,即使是最糟糕Claude AI版本也比GPT 3.5更好

文章概要:

1. 全球排名顯示,Anthropic的Claude AI模型超越了OpenAI的GPT3.5,即使是最差版本也表現出色。

2. Claude模型在性能評估中獲得高分,主要由LMSO組織的Chatbot Arena Leaderboard進行排名。

3. Claude模型在處理大規模上下文輸入和長提示時表現出優勢,引發了對AI聊天機器人在不同領域的實際應用的重要討論。

微新創想(idea2003.com)10月8日 消息:10月6日,一場引人入勝的競爭正在AI行業內悄然展開,OpenAI的ChatGPT與Anthropic的Claude AI模型之間展開了激烈的角逐。負責創建Chatbot Arena和著名的Vicuna模型的大型模型系統組織(LMSO)剛剛更新了他們的Chatbot Arena排行榜,展示了每個AI聊天機器人與競爭對手相比的表現。結果顯示,即使Anthropic的模型仍然免費使用,它也在性能上超越了OpenAI,成為了新的全球排名領頭羊。

GPT-4是ChatGPT Plus和Bing AI背后的強大引擎,以最高分數位居榜首,為大型語言模型(LLM)設定了黃金標準。但隨著排行榜的下滑,一個出人意料的劣勢故事浮出水面。Anthropic的Claude模型——Claude1、Claude2和Claude Instant——都表現出色,超越了驅動ChatGPT免費版本的GPT-3.5引擎。這意味著Anthropic開發的每個大型語言模型都可以勝過ChatGPT的免費版本。

LMSO通過其精細的排名系統為這些模型的性能指標提供了見解。根據排行榜,GPT-4擁有1181的Arena Elo評分,遠遠領先于榜單,而Claude模型緊隨其后,評分從1119到1155不等。另一方面,GPT-3.5的評分為1115。

為了排名這些模型,LMSO讓它們在相似的提示下進行“比賽”。給出最佳答案的模型獲勝,另一個模型失利。用戶根據自己的喜好決定誰獲勝,但他們永遠不會知道哪些模型在競爭。

正如Decrypt之前報道的那樣,雖然這不是LMSO排名的因素,但在ChatGPT Plus和Claude Pro之間的token處理能力差異也是Claude模型勝過GPT的主要優勢。

基于Claude2LLM的Claude Pro可以處理高達100,000個信息token,而由GPT-4LLM提供支持的ChatGPT Plus則處理8,192個令牌,"我們回顧道。這種令牌處理能力的差異突顯了Claude模型在處理廣泛上下文輸入方面的優勢,這對于細致和豐富的用戶體驗至關重要。

此外,在處理長提示時,Claude2在效率上表現出優勢,可以更有效地處理更大規模的提示。然而,在提示可比較的情況下,Claude1和Claude Instant提供了與GPT-3.5相似或略優的結果,展示了這些模型的競爭性質。借助Claude的上下文功能,初始不佳的答案可以通過更精細、更大和更豐富的提示得到顯著改進。

開源模型在這場競賽中也不遑多讓。

WizardLM是一個在Meta的LlaMA-2上訓練的擁有700億參數的最佳開源LLM模型。緊隨其后的是Vicuna33B和由Meta發布的原始LlaMA-2。

開源模型在AI領域的發展中發揮著重要作用,原因各種各樣。它們可以在本地運行,使用戶有機會對其進行微調,并使社區參與到完善模型的集體努力中。由于許可證的原因,它們運行成本更低,這就是為什么這個領域有數十種開源LLM模型,而只有少數專有模型的原因。

但AI聊天機器人的比賽不僅僅關乎數字,還關乎現實世界的影響。

隨著聊天機器人在從客戶服務到個人助手等各個領域的逐漸融入,它們的效能、適應性和準確性變得至關重要。由于Claude模型在排名上超越了GPT-3.5,企業和個人用戶可能會發現自己在評估哪個模型最符合其需求時面臨抉擇。

您可能還喜歡...

發表回復

您的郵箱地址不會被公開。 必填項已用 * 標注