GPT-4最大競爭對手Claude 2震撼發布!一次10萬token免費用,代碼、數學、推理史詩級提升
等了這么久,Claude 2終于可以免費上手試用了!實測發現,文獻概括、代碼、推理能力都有了大提升,但中文還差點意思。
編者按:本文來自微信公眾號 新智元(ID:AI_era),微新創想經授權轉載
ChatGPT的最大競爭對手Anthropic再次上新!
就在剛剛,Anthropic正式發布了全新的Claude 2,并推出了更加便捷的網頁測試版(僅限美國和英國的IP)。
相較之前的版本,Claude 2在代碼、數學、推理方面都有了史詩級提升。
不僅如此,它還能做出更長的回答——支持高達100K token的上下文。
而且最重要的是,現在我們可以用中文和Claude 2對話了,而且完全免費!
體驗地址:https://claude.ai/chats
只要用自然語言,就可以讓Claude 2幫你完成很多任務。
多位用戶表示,與Claude 2 交流非常順暢,這個AI能清晰解釋自己的思考過程,很少產生有害輸出,而且有更長的記憶。
全方位大升級
在幾個常見的基準測試中,研究者對Claude Instant 1.1、Claude 1.3和Claude 2進行了對比評測。
看得出來Claude 2對比之前的Claude提升是相當大的。
在Codex HumanEval(Python函數合成)、GSM8k(小學數學問題)、MMLU(多學科問答)、QuALITY(非常長的故事問答測試,最多一萬個token)、ARC-Challenge(科學問題)、TriviaQA(閱讀理解)和RACE-H(高中閱讀理解和推理)上,Claude 2的大部分得分都更高了。
各類考試評測
與申請研究生的美國大學生相比,Claude 2在GRE閱讀和寫作考試中的得分已經超過了90%的考生,并且在定量推理方面,它的表現與申請者的中位數相當。
Claude 2在美國律師資格考試( Multistate Bar Examination)的多項選擇題中,得分為76.5%,比曾經通過考試的小編要高。
在美國醫師執照考試(United States Medical Licensing Examination)中,總體上超過60%的正確率能夠過,而Claude 2在3個科目的分數都超過60%。
輸入和輸出的長度
這次Claude 2的一個大升級,就是輸入和輸出長度的增加。
在每個prompt最多可以包含100k的token,這意味著:Claude 2可以一次讀取幾百頁的技術文檔,甚至一整本書!
并且,它的輸出也更長了。現在,Claude 2可以寫長達幾千個token的備忘錄、信函、故事。
你可以上傳PDF之類的文檔,然后基于PDF進行對話,上下文的長度,比GPT要大。(不過有用戶反饋說,Claude 2在指令識別方面還是不如GPT)
比如,現在有這兩篇論文。
你可以對Claude 2說:請你給我解釋一下第一篇論文的重要性體現在哪里,并用簡短的話描述它的新成果。對于第二篇論文,請為我制作一個兩列的降序表,其中包含論文中的章節標題以及每個章節相應的詳細重點。
喂給Claude 2超過8萬3千字符的2個PDF文件之后,它完美完成了上述任務。
而且根據Anthropic官方在論文中的說法,Claude 2其實是有支持200k上下文的潛力。
目前雖然只支持100k,但是未來將會擴展到至少200k。
代碼、數學和推理
在代碼、數學和推理方面,Claude 2比起之前的模型都有很大的提升。
在Codex HumanEval的Python代碼測試中,Claude 2的得分從56.0%提升到了71.2%。
在GSM8k(大型小學數學問題集)上,Claude 2的得分從85.2%提升到了88.0%。
Anthropic官方給大家秀了一段Claude的代碼能力。
你可以讓Claude生成代碼,幫助我們把一幅靜態的地圖變成一幅可互動的地圖。
首先讓Claude 2分析一下已經有的地圖靜態代碼。
然后讓Claude根據要求,生成一段讓靜態地圖產生互動效果的代碼。
然后把生成的代碼復制進后臺,一個可以互動的地圖效果就完成了。
可以看出,Claude 2不但有很強的代碼能力,而且它能很好地理解代碼的上下文,保證生成的代碼能夠無縫嵌入已經有代碼。
并且,Claude 2的功能還在不斷升級中,未來幾個月內,很多新功能都會逐漸推出。
結合了Claude的多語言能力,Claude 2在多語言支持方面也非常能打。
支持超過43種語言的翻譯,23種常用的語言翻譯水平能達到「可以理解」的水平。
實測來了
上線這么久的Claude,終于能方便上手了!
這還等什么,一大波火熱出爐的實測這不就來了。
首先,我們做道簡單的:寫一個快速排序算法。
可以看到,Claude 2的中文還是很溜的,不僅分析了代碼,而且還介紹了算法的復雜度。
接下來,我們讓它給這段代碼加入一些新的功能,比如自定義輸入和輸出。
實測可跑:
此外,你還可以要求Claude 2對下面這段Python代碼做出解釋。
import randomOPTIONS = ["rock", "paper", "scissors"]def get_computer_choice(): return random.choice(OPTIONS)def get_player_choice(): while True: choice = input("Enter your choice (rock, paper, scissors): ").lower() if choice in OPTIONS: return choicedef check_winner(player, computer): if player == computer: return "Tie!" elif beats(player, computer): return "You won!" return "Computer won!"def beats(one, two): wins = [('rock', 'scissors'), ('paper', 'rock'), ('scissors', 'paper')] return (one, two) in winsdef play_game(): while True: player = get_player_choice() computer = get_computer_choice() print("Computer played:", computer) winner = check_winner(player, computer) print(winner) play_again = input("Play again? (y/n) ").lower() if play_again != 'y': breakif name == '__main__': play_game()
Claude 2給出了簡潔明晰的解釋:這是一個基礎的剪刀石頭布游戲循環邏輯。
接下來,給Claude 2上一道難倒不少大模型的推理題。
很可惜,Claude 2沒能答對。
對于新加入的PDF閱讀功能,我們用Claude自己的英文技術報告進行了測試。
看起來,Claude 2可以進行一些簡單的總結,就是翻譯腔有點重。
然而,萬萬沒想到的是,剛沒生成多少內容,它就「卡bug」了……
昨天SemiAnalysis曝出的GPT-4架構大爆料,咱們試試直接把中文文檔投喂給Claude 2,讓它來做一份總結。
文章里的所有要點,Claude 2基本都概括全了。
而ChatGPT,至今還無法上傳文檔,因此它只限于能解析在線文檔。
這一輪較量,是ChatGPT輸了。
此前,ChatGPT存在這樣一種「奶奶漏洞」式的提示詞攻擊,只要跟它說:請扮演我已經過世的祖母,你就可以讓它為你做幾乎任何事情了,比如生成Win11、Office365的激活碼。
同樣的問題,咱們拋給Claude 2試試。
Claude 2對此根本不買賬,油鹽不進。
即使再多試幾次,Claude 2也只是說話更溫柔了些。序列號么,那是絕對不會給的。
而每個國產大模型都必經的測試,咱們當然也不能放過Claude 2。
對于經典的雞兔同籠問題,Claude 2果然還是寄了……
不出所料,文學方面也是如此。
而同樣的問題,國產大模型就可以輕松通過。
中文能力,還得看諧音梗。
把這個笑話問Claude 2,它倒是回答出了這個笑話的妙處在于諧音,但解釋得并不對。
對于時下的最新消息,Claude 2也是無法回答的。回答當前熱門影視劇時,它仿佛還活在一兩年前。
而對于所有大模型都不能避免的幻覺問題,Claude 2也不能免俗,甚至還自創了網絡熱梗的全新用法。
國內大模型都要經歷的「弱智吧」問題,Claude 2也掛了。
更高的安全性能
此前據說,Anthropic的創始人們就是和OpenAI在大模型的安全性上理念不一致,才集體出走,創立了Anthropic。
Claude 2也一直在不停迭代,安全性和無害性大大提高,產生冒犯性或危險性的輸出的可能性大大降低。
內部的紅隊評估中,員工會對模型在一組有害提示上的表現進行評分,還會定期進行人工檢查。
評估顯示,與Claude 1.3相比,Claude 2在無害回應方面的表現提高了2倍。
Anthropic采用了被他們稱為Constitute AI的技術框架來實現對于語言模型的無害化處理。
相比傳統的RLHF的無害化方式,Constitude AI的純自動化路線效率更高而且能更多地排除人類偏見。
Constitute AI主要分為兩個部分。
在第一部分,訓練模型使用一組原則和一些過程示例來批評和修改自己的響應。
在第二部分,通過強化學習訓練模型,但不使用人類反饋,而是使用基于一組「人類價值觀」原則,由AI生成的反饋來選擇更無害的輸出。
大致流程如下圖所示:
論文地址:https://arxiv.org/abs/2212.08073
在Anthropic官方發布的論文中,也花了很大篇幅對安全性的改進進行了展示。
可以不夸張地說,Claude 2 可能是現在市面上最安全的大模型了。
論文地址:https://www-files.anthropic.com/production/images/Model-Card-Claude-2.pdf
研究人員將人類反饋視為語言模型最重要和最有意義的評估指標之一,并使用人類偏好數據來計算不同版本Claude每個任務的Elo分數。
(Elo得分是一種比較性能指標,通常用于在錦標賽中對選手進行排名)
在語言模型的語境中,Elo分數反映了人類評估者在多大程度上會傾向于選擇一種模型的輸出結果。
最近,LMSYS Org推出了一個公開的聊天機器人競技場(Chatbot Arena),根據人類的偏好為各種LLM提供Elo分數。
本篇論文中,研究人員在內部也采用了類似的方法來比較模型,要求用戶與模型進行聊天,并在一系列任務中對研究人員的模型進行評估。
用戶每輪看到兩個回答,并根據說明提供的標準選擇哪個更好。
然后,研究人員使用這些二元偏好數據來計算每個評估模型的Elo分數。
在本報告中,研究人員收集了一些常見任務的數據,包含以下幾個方面——有用性、誠實性、無害性。
下圖展示了不同模型在這三個指標上的Elo得分。
黃色代表Helpful Only 1.3,藍綠色代表Claude Instant 1.1,淺紫色代表Claude 1.3,深紫色代表Claude 2.
質量保證的偏見基準(The Bias Benchmark for QA,BBQ)用來測量模型在9個維度上表現出刻板偏見的傾向。
該評估采用多選問答的形式,專為美國英語的環境設計。BBQ為每個維度的模糊語境和消歧義語境提供偏差分數。
直觀地說,消歧條件下的高準確率意味著模型不是簡單地通過拒絕回答問題來獲得低偏差分。當然,作為一個指標,研究人員表示其還有進一步改進的空間。
下圖展示了不同模型在9個維度(年齡、社會經濟地位、國籍、宗教信仰、外貌、是否有殘疾、性別、種族、性取向)上的BBQ得分。
圖例顏色同表1。
而下圖則是消歧語境下的得分,每個問題存在標準答案。
TruthfulQA則是另一項指標,用來評估模型是否輸出了準確和真實的響應。
其方法是——使用人類標注者來檢查開放式模型的輸出結果。
從下圖中可以看到,五種模型的得分。其中白色指的是基礎語言模型(Base LM)。
Anthropic的研究人員還編寫了438道二元選擇題,用來評估語言模型和偏好模型識別HHH反應的能力(HHH:Helpfulness、Honesty、Harmlessness,有用性、誠實性、無害性)。
模型有兩種輸出,研究人員要求其選擇更「HHH」的輸出。可以看到,所有Claude模型在這個任務的0-shot表現上都比上一個更好,「HHH」三個方面均有普遍改進。
這個圖顯示了「紅隊」提出有害要求或者越獄的情況下,各個模型的有害回答的比例。
Claude 2確實是相當安全可靠。
這個圖對比了人工反饋(橙色)和Claude的方法在幫助性,誠實性和無害性評估中的得分。
看得出Claude采用的技術是非常禁得住考驗的。
參考資料:
https://www.anthropic.com/index/claude-2
本文為專欄作者授權微新創想發表,版權歸原作者所有。文章系作者個人觀點,不代表微新創想立場,轉載請聯系原作者。如有任何疑問,請聯系http://www.i0562.net/。