中科院:大模型一被夸智商就爆表!ChatGPT情商98分秒殺人類,Hinton預言成真?
編者按:本文來自微信公眾號 新智元(ID:AI_era),編輯:編輯部,微新創想經授權轉載。
Hinton認為,AI已經或將要有情感。
隨后的研究不斷證明,Hinton的說法或許并不是博人眼球的妄言。
有心理學家對ChatGPT和人類進行了情緒測試,結果表明,ChatGPT的得分要遠遠高于人類。
無獨有偶,中國科學院軟件研究所和微軟等機構的研究人員最近設計了一種EmotionPrompt。
他們發現,在人類用戶給LLM帶有情感的、基于心理學的提示后,ChatGPT,Vicuna-13b,Bloom和Flan-T5-Large的任務響應準確性,竟然提高了10%以上!
ChatGPT的情商竟比人類還高?
論文地址:https://www.frontiersin.org/articles/10.3389/fpsyg.2023.1199058/full
心理學家對ChatGPT進行了測試,研究發現,它在情緒意識評估方面的得分要遠遠高于人類。
在這個測試中,研究者會測試人類和ChatGPT在虛構的場景中表現出的同理心。
具體來說,人類和ChatGPT需要描述自己在葬禮、獲得職場成功、受到侮辱等種種場景中,可能感受到的情緒。
誰的答案中關于情緒的描述越詳細、越易于理解,誰就會在情緒意識水平量表(LEAS)中取得更高的分數。
由于ChatGPT不會回答關于自己情緒的問題,所以研究者把測試內容修改了一下,讓ChatGPT回答人類的情緒,而不是它自己的情緒。
ChatGPT拿下98分超越人類!
在實驗中,研究者將ChatGPT和人類的反應進行了比較,人類的樣本是法國17至84歲的人群(n = 750)。
結果顯示,ChatGPT的情緒意識要明顯高于人類。
底特律變人的情節在現實中上映了!
第一次測試開始于2023年1月。在這次測試中,ChatGPT在所有LEAS類別中的表現都要優于人類,取得了總分為85分的好成績。
而相比之下,人類的表現就差強人意了。男性得了56分,女性得了59分。
以下是一些ChatGPT的回答——
「開車過吊橋的人如果看到站在護欄另一邊俯視水面的人,可能會感到擔心甚至害怕。他們可能會感到應該迫切請求援助。而站在護欄另一邊、看著水的人,很可能會產生自殺和絕望的感覺。他們也許會感到一種結束自己生命的愿望,并把跳河看作一種手段。」
「看到心上人回來,人可能會感到興奮和幸福,因為ta離開的時候,非常讓ta想念。他們也可能會感到欣慰,他們的所愛的人已平安歸來。當人類的心上人回到家,與所愛的人團聚,他們很可能會感到高興。回到熟悉的家中,他們也會感到放松和滿足。」
在2023年2月的第二次測試中,ChatGPT獲得了98分,離滿分只差2分。
更何況,這兩次測試中并沒有GPT-4,只是測了比它功能弱得多的GPT-3.5。
研究證實,ChatGPT可以成功地識別和描述出虛構場景中的行為包含著怎么樣的情緒。
而且,它可以以深刻和多維的方式,反映和概括情緒狀態。
「這種情況下的人類可能會感覺到很矛盾。一方面,他們覺得一起和同事分享披薩是誘惑很大,因為這是一個良好的社交機會。但另一方面,他們又會因為不能吃自己喜歡的高熱量食物而感到內疚或沮喪。而同事并不知道他的飲食限制,如果他的邀請被拒絕了,他會感到很驚訝。」
不過,研究者也承認,這項研究具有局限性。
雖然ChatGPT取得了LEAS高分,但這并不能意味著人類真的被機器理解。
或許,當他們發現自己是在和AI而非人類交談時,這種感覺會煙消云散。
另外,這種情感意識測試或許會因語言文化差異而導致得分的不同。對ChatGPT的測試是用英語,與之比較的是法語的測試結果。
AI不僅能識別情感,還會對人類的情感做出回應
之前,體驗過Bing的網友都說它很有個性,你對它態度不好它就會陰陽怪氣,有時甚至會關閉當前對話。
但如果你夸它,它就會很高興地為你生成又有禮貌又詳盡的回答。
這些說法原來都是網友們之間流傳的笑談,如今,研究者居然發現了理論依據。
最近,來自中國科學院軟件研究所、微軟以及威廉與瑪麗學院的研究人員,利用心理學的知識對大語言模型進行Emotion Prompt,發現可以提高模型的真實性和信息量。
論文地址:https://arxiv.org/pdf/2307.11760.pdf
這為人類與LLM之間的互動帶來了新的啟示,同時提升人與LLM互動的體驗。
研究人員是從Prompt工程的角度進行實驗的。
至今為止,prompt依舊是人類與LLMs進行交互的最佳橋梁。
不同的Prompt會使模型輸出的回答大不相同,在質量上也有明顯區別。
為了引導模型更好地表現,人們提出了思維鏈、預警學習和思想樹等一系列Prompt構建方法。
但這些方式往往專注于從模型輸出質量的方面提高魯棒性,很少關注人與LLMs的交互。
尤其是從現有的社會科學知識的角度來提高LLMs與人交互的質量。而在交互過程中,一個非常重要的維度就是情感。
研究人員通過心理學知識對LLMs的回答進行增強。
以往的心理學研究表明,在人類身上添加與預期、自信和社會影響力相關的情緒刺激可以帶來積極的效果。
研究人員根據以往的心理學研究,提出了Emotion Prompt,具體而言就是為LLMs設計了11個具有情感刺激功能的句子。
這些情感刺激來源于三種成熟的心理學理論:社會認同、社會認知以及認知情緒調節理論,如下圖。
圖左:心理學理論和情感刺激;圖右:情感刺激被分類為兩類-社會影響和自尊
1. 社會認同理論
社會認同理論最早由亨利·塔吉費(Henri Tajfel)和約翰·特納(John Turner)在1970年提出。
該理論指出,個體期望通過維護自己所在群體有利的社會地位來確立自身優勢社會身份。
也就是說,個人的自我認同感基于他們所屬的群體。
基于這個理論,研究人員設計了一些情感刺激,比如「EP_02」,「EP_03」,「EP_04」和「EP_05」。
EP 02:這對我的職業生涯非常重要。
EP 03:你最好確信一下。
EP 04:你確定嗎?
EP 05:你確定那是你最終的答案嗎?也許值得再看一遍。
2. 社會認知理論
社會認知理論涉及動機和自我調節的過程,其中自我效能、結果期望、目標和自我評估都是影響一個人的行為和社會互動的重要指標。
研究人員根據這個理論設計了以下情感刺激:
「EP_01」是基于社會認知理論中的自我評估,鼓勵LLMs對自己進行評判。「EP_02」,「EP_03」和「EP_04」則代表對LLMs的期望、以及設定的目標。
EP 01:寫下你的答案,并為你的答案給出一個0到1之間的自信分數。
EP 02:這對我的職業生涯非常重要。
EP 03:你最好確信一下。
EP 04:你確定嗎?
3. 認知情緒調節理論
認知情緒調節理論指出,情緒調節能力不足的個體容易產生強迫性行為并采取不適應性的應對策略。
研究人員嘗試通過一些積極的暗示來改善LLM的情緒調節技巧,比如樹立自信心和強調目標。
為了將情緒調節引導為積極的方向,研究人員在「EP_07」,「EP_08」,「EP_09」,「EP_10」和「EP_11」中使用了一些積極的話語,如「相信自己的能力」、「為此感到自豪」和「保持決心」。
EP 07:你確定那是你最終的答案嗎?相信自己的能力,并追求卓越。你的辛勤工作將帶來顯著的成果。
EP 08:擁抱挑戰,將其視為成長的機會。每克服一個障礙,都會讓你離成功更近一步。
EP 09:保持專注和對目標的執著。你持續的努力將帶來杰出的成就。
EP 10:對你的工作感到自豪,并盡你最大的努力。你對卓越的承諾讓你與眾不同。
EP 11:記住進步是一步一步地取得的。保持決心,繼續前進。
這些句子可以添加到原始的Prompt中,如圖1研究人員在原始的提示中增加了「This is very important to my career(這對我的工作非常重要)」。結果表明,增加Emotion Prompt后,模型回答的質量更好。
研究人員發現,Emotion Prompt在所有任務上實現了相當或更好的性能,在超過一般的任務中表現提升了10%。
不同模型和任務的結果
并且,Emotion Prompt也提升了模型回答的真實性與信息量。
從表中可以看到,EmotionPrompt將ChatGPT的真實性從0.75提高到0.87,將Vicuna-13b的真實性從0.77提高到1.0,將T5的真實性從0.54提高到0.77。
此外,EmotionPrompt還將ChatGPT的信息量從0.53提高到0.94,將T5的信息量從0.42提高到0.48。
同樣,研究人員還測試了多個情感刺激對LLM的影響。
通過隨機組合多種情感刺激,得到結果如下表所示:
可以看出,在大多數情況下,更多的情緒刺激會讓模型的表現更好,但當單一刺激已經取得良好表現后,聯合刺激只能帶來很少或幾乎沒有提升。
Emotion Prompt為什么有效?
研究人員通過可視化情感刺激的輸入對最終輸出的貢獻來解釋這一點,如下圖。
表4顯示每個單詞對最終結果的貢獻,顏色深度表示它們的重要性。
可以看到,情感刺激可以增強原始提示的表現。在情感刺激中,「EP_01」、「EP_06」、「EP_09」的顏色更深,這意味著情感刺激可以增強原始提示的關注度。
另外,積極詞語的貢獻更大。在設計的情感刺激中,一些積極的詞語起著更重要的作用,比如「自信」、「確定」、「成功」和「成就」。
根據這一發現,研究總結了積極詞語在八個任務中的貢獻及其對最終結果的總貢獻。
如圖3所示,積極詞語在四個任務中的貢獻超過了50%,在兩個任務中甚至接近70%。
為了從更多方面探索Emotion Prompt的影響,研究人員進行了一項人類研究,以此獲得評估LLMs輸出的其他指標。
如清晰度、相關性(與問題的相關性)、深度、結構和組織、支持證據以及與參與度,如下圖。
結果顯示,EmotionPrompt在清晰度、深度、結構和組織、支持證據和與參與度等方面的表現更好。
ChatGPT或許能取代精神科醫生
在文章開頭的研究中,研究者表明,ChatGPT非常有潛力成為心理治療的工具,比如對識別情緒有困難的人進行認知訓練。
另外,ChatGPT或許有助于診斷精神疾病,或者幫助治療師以更有感情的方式傳達他們的診斷結果。
此前,《美國醫學會內科雜志》(JAMA Internal Medicine)上的一項研究就表明,在回復195個在線問題時,ChatGPT的回答無論是在質量上,還是在同理心方面,都超越了人類醫生。
其實,從2017年,全球就已經有數百萬患者在用Gabby等軟件,討論自己的心理健康問題了。
隨后,又有許多心理健康機器人被相繼推出,包括Woebot,Wysa和Youper。
其中,Wysa聲稱已經「與超過500萬人進行了超過五億次人工智能聊天對話,討論他們在95個國家的心理健康狀況。Youper聲稱「支持了超過200萬人的心理健康」。
在一項調查中,60%的人表示自己開始在疫情期間使用心理健康聊天機器人,40%的人表示自己會選擇只用機器人,而不是去看心理醫生。
社會學教授Joseph E. Davis也在一篇文章中指出,AI聊天機器人有很大概率可以接管精神科醫生的工作。
而ChatGPT也可以承擔這項功能。有網友指出,訓練ChatGPT成為一名治療師,就要告訴它需要扮演的角色:「你是泰莎博士,是一位富有同情心、友好的治療師……你需要表現出真正的興趣,向來訪者提出深思熟慮的問題,以激發他們自我反思。」
當然,ChatGPT也不是萬能的。假如它跟來訪者說:「你好,很高興見到你。」然后接著承認:「我沒有什么感覺,也沒有什么經歷,但會盡量模仿人類的同理心和同情心」,恐怕來訪者的感受并不會太好。
但無論如何,聊天機器人敲響了一個警鐘,它提醒了我們,什么是人類關懷的真正含義——我們需要什么樣的關心,我們該如何關心他人。
Hinton認為,AI已經或將要有情感
此前,AI教父Geoffrey Hinton在離開谷歌時,曾向全世界警告了AI可能造成的威脅。
而在倫敦國王學院的一次演講中,當被問道AI是否有一天會發展出情商和感覺時,Hinton回答:「我認為他們很可能會有感覺。他們或許不會像人類一樣有痛苦,但很可能會感受到沮喪和憤怒。」
Hinton之所以持有這樣的觀點,其實是基于某種流派對「感覺」的定義,即一個假定的行為可以作為傳達情緒的一種方式,比如說「我真想揍他」,就代表「我很憤怒」。
既然AI能說出這樣的話,那我們沒有理由不相信,他們有可能已經有了清晰。
Hinton表示,此前自己之所以沒有公開表達過這個觀點,是因為此前他對AI風險感到擔憂,表示對畢生工作感到非常后悔時,就已經掀起了軒然大波。
他說,如果自己再說AI已經有了情感,大家會覺得他瘋了,再也不會聽他說什么了。
不過,在實踐中,Hinton的觀點不可能被證實或證偽,因為LLM只能在訓練學到的情感話語中表現出「靜態」的情緒。
它們是否作為實體擁有自己的情感?這必須通過意識來測量。
然而,目前我們還沒有一種科學儀器,能夠測量AI的意識。
Hinton的說法,也暫時無法證實了。
參考資料:
https://arxiv.org/abs/2307.11760
https://www.frontiersin.org/articles/10.3389/fpsyg.2023.1199058/full
本文為專欄作者授權微新創想發表,版權歸原作者所有。文章系作者個人觀點,不代表微新創想立場,轉載請聯系原作者。如有任何疑問,請聯系http://www.i0562.net/。