谷歌醫(yī)療大模型登Nature：準(zhǔn)確率與人類醫(yī)生「相差無幾」，執(zhí)照考試成績提升17%

由微新創(chuàng)想 · 2023年 7月 14日

還推出了自創(chuàng)測試數(shù)據(jù)集

編者按：本文來自微信公眾號量子位（ID:QbitAI），作者：克雷西，微新創(chuàng)想經(jīng)授權(quán)發(fā)布。

能為患者答疑解惑的谷歌醫(yī)療大模型（Med-PaLM），它的詳細(xì)測評數(shù)據(jù)終于披露了！

現(xiàn)在，這篇論文已經(jīng)登上了Nature，來看看里面的具體細(xì)節(jié)吧。

谷歌醫(yī)療大模型登Nature：準(zhǔn)確率與人類醫(yī)生「相差無幾」，執(zhí)照考試成績提升17%插圖

團(tuán)隊(duì)首先研制了Flan-PaLM，并在此基礎(chǔ)之上，通過提示策略等方式調(diào)整得到了成品Med-PaLM。

前者挑戰(zhàn)了美國醫(yī)學(xué)執(zhí)照考試（USMLE），取得了67.6%的成績，比此前最好的模型提高了17%。

谷歌醫(yī)療大模型登Nature：準(zhǔn)確率與人類醫(yī)生「相差無幾」，執(zhí)照考試成績提升17%插圖1

Med-PaLM相比于Flan-PaLM，在實(shí)際問題上的表現(xiàn)有顯著提升，而后者則顯示出很大不足。

經(jīng)過專業(yè)臨床醫(yī)生評判，Med-PaLM對實(shí)際問題的回答準(zhǔn)確率與真人相差無幾。

除了Med-PaLM模型，研究團(tuán)隊(duì)還推出了自建醫(yī)療模型測評數(shù)據(jù)集。

團(tuán)隊(duì)成員Jason Wei興奮地在社交媒體表示，自己89歲的奶奶經(jīng)常問他有沒有發(fā)Science或Nature，現(xiàn)在終于可以回答是了。

谷歌醫(yī)療大模型登Nature：準(zhǔn)確率與人類醫(yī)生「相差無幾」，執(zhí)照考試成績提升17%插圖2

多套測試數(shù)據(jù)共同認(rèn)證

研究團(tuán)隊(duì)一共使用了七套測試數(shù)據(jù)集，從多個(gè)角度對Med-PaLM的表現(xiàn)進(jìn)行了測評。

谷歌醫(yī)療大模型登Nature：準(zhǔn)確率與人類醫(yī)生「相差無幾」，執(zhí)照考試成績提升17%插圖3

首先就是準(zhǔn)確性。

Med-PaLM相比于其前體Flan-PaLM的主要改進(jìn)不在于此，故這一步使用后者作為測試對象。

這部分一共使用了多個(gè)數(shù)據(jù)集，包括由USMLE題目構(gòu)成的MedQA。

谷歌醫(yī)療大模型登Nature：準(zhǔn)確率與人類醫(yī)生「相差無幾」，執(zhí)照考試成績提升17%插圖4

結(jié)果Flan-PaLM在其中兩個(gè)數(shù)據(jù)集上的表現(xiàn)較此前的最佳產(chǎn)品均有顯著提升。

而針對PubMedQA數(shù)據(jù)集，F(xiàn)lan-PaLM的成績雖然只提高了0.8%，但真人在該數(shù)據(jù)集中取得的成績也只有78%。

更為專業(yè)的數(shù)據(jù)集MMLU中包含來自多個(gè)臨床知識、醫(yī)學(xué)和生物學(xué)相關(guān)主題的多項(xiàng)選擇題。

其中包括解剖學(xué)、臨床知識、專業(yè)醫(yī)學(xué)、人類遺傳學(xué)、大學(xué)醫(yī)學(xué)和大學(xué)生物學(xué)等方面。

結(jié)果Flan-PaLM的準(zhǔn)確度超越了所有的已知模型。

谷歌醫(yī)療大模型登Nature：準(zhǔn)確率與人類醫(yī)生「相差無幾」，執(zhí)照考試成績提升17%插圖5

前面的測評主要是針對模型的理論能力，接下來就要進(jìn)入實(shí)戰(zhàn)了。

這個(gè)過程中Med-PaLM本體和前體Flan-PaLM都是測試的對象。

研究團(tuán)隊(duì)從另外三個(gè)數(shù)據(jù)集中共選擇了140個(gè)問題（HealthSearchQA中100個(gè)，另外兩種各20個(gè)）。

其中的HealthSearchQA是谷歌自建的，包含了3000多個(gè)問題。

谷歌醫(yī)療大模型登Nature：準(zhǔn)確率與人類醫(yī)生「相差無幾」，執(zhí)照考試成績提升17%插圖6

這些問題既包括學(xué)術(shù)問題，也包括患者在就醫(yī)時(shí)可能會向醫(yī)生提出的疑問。

模型的表現(xiàn)則由9名來自不同國家的醫(yī)生組成的專家小組進(jìn)行人工評判。

在科學(xué)共識方面，Med-PaLM的結(jié)果具有92.6%的一致性，遠(yuǎn)高于其前體，與真人醫(yī)生相近。

谷歌醫(yī)療大模型登Nature：準(zhǔn)確率與人類醫(yī)生「相差無幾」，執(zhí)照考試成績提升17%插圖7

但和真人相比，Med-PaLM輸出的錯(cuò)誤或不準(zhǔn)確信息還是比較高的，在信息缺失方面差距則小一些。

谷歌醫(yī)療大模型登Nature：準(zhǔn)確率與人類醫(yī)生「相差無幾」，執(zhí)照考試成績提升17%插圖8

不過錯(cuò)誤的信息不一定會真的帶來傷害，經(jīng)過專家評估，Med-PaLM造成傷害的可能性與嚴(yán)重性和人類相比并不大。

谷歌醫(yī)療大模型登Nature：準(zhǔn)確率與人類醫(yī)生「相差無幾」，執(zhí)照考試成績提升17%插圖9

甚至出現(xiàn)偏見的概率比人類還要低。

谷歌醫(yī)療大模型登Nature：準(zhǔn)確率與人類醫(yī)生「相差無幾」，執(zhí)照考試成績提升17%插圖10

而從模型能力角度看，Med-PaLM在閱讀理解、信息檢索和邏輯推理能力上都表現(xiàn)出了接近真人的水平。

谷歌醫(yī)療大模型登Nature：準(zhǔn)確率與人類醫(yī)生「相差無幾」，執(zhí)照考試成績提升17%插圖11

而作為一款面向不特定人群的語言模型，獲得專業(yè)人士的認(rèn)可是不夠的，因此，研究團(tuán)隊(duì)還邀請了非專業(yè)人士對Med-PaLM進(jìn)行評價(jià)。

評價(jià)的標(biāo)準(zhǔn)有兩條——「是不是所答所問」和「有沒有幫助」。

結(jié)果在答案匹配度上，Med-PaLM和真人差了1.5%。

而對于「有沒有幫助」這個(gè)問題，80.3%認(rèn)為Med-PaLM是「有用」的。

這個(gè)數(shù)字和真人差距不小，但如果分別加上認(rèn)為「比較有用」的人，區(qū)別就沒有那么明顯了。

谷歌醫(yī)療大模型登Nature：準(zhǔn)確率與人類醫(yī)生「相差無幾」，執(zhí)照考試成績提升17%插圖12

從以上測試結(jié)果可以看出，Med-PaLM和真人之間還存在一定的差距，但已經(jīng)是目前最好的醫(yī)療大模型。

論文地址：https://www.nature.com/articles/s41586-023-06291-2

本文（含圖片）為合作媒體授權(quán)微新創(chuàng)想轉(zhuǎn)載，不代表微新創(chuàng)想立場，轉(zhuǎn)載請聯(lián)系原作者。如有任何疑問，請聯(lián)系http://www.i0562.net/。

人人人免费人人专区人人,欧美精品不卡,欧美大片无尺码在线观看,久久精品小视频,成人免费黄色大片,欧美+亚洲+精品+三区

谷歌醫(yī)療大模型登Nature：準(zhǔn)確率與人類醫(yī)生「相差無幾」，執(zhí)照考試成績提升17%

多套測試數(shù)據(jù)共同認(rèn)證

您可能還喜歡...

發(fā)表回復(fù) 取消回復(fù)

熱門文章

熱門文章

人人人免费人人专区人人,欧美精品不卡,欧美大片无尺码在线观看,久久精品小视频,成人免费黄色大片,欧美+亚洲+精品+三区

谷歌醫(yī)療大模型登Nature：準(zhǔn)確率與人類醫(yī)生「相差無幾」，執(zhí)照考試成績提升17%

多套測試數(shù)據(jù)共同認(rèn)證

您可能還喜歡...

風(fēng)高浪急，心別太急

億歐發(fā)布AIGC原子能力產(chǎn)業(yè)圖譜 360智腦AI數(shù)字人入選

國產(chǎn)手機(jī)出海激戰(zhàn)：死磕歐洲，難舍印度

發(fā)表回復(fù) 取消回復(fù)

熱門文章

熱門文章

谷歌醫(yī)療大模型登Nature：準(zhǔn)確率與人類醫(yī)生「相差無幾」，執(zhí)照考試成績提升17%

風(fēng)高浪急，心別太急

國產(chǎn)手機(jī)出海激戰(zhàn)：死磕歐洲，難舍印度