PG新聞
News
斯坦福大學(xué)臨床醫(yī)療AI橫評(píng)中,DeepSeek R1以66%勝率拿下第一,重點(diǎn)聚焦臨床醫(yī)生日常工作場(chǎng)景。
2.研究團(tuán)隊(duì)構(gòu)建了含35個(gè)基準(zhǔn)測(cè)試的綜合評(píng)估框架,覆蓋22個(gè)子類別醫(yī)療任務(wù),經(jīng)過(guò)臨床醫(yī)生驗(yàn)證。
5.此外,研究顯示大語(yǔ)言模型評(píng)審團(tuán)評(píng)估方法比標(biāo)準(zhǔn)詞匯指標(biāo)更能反映臨床醫(yī)生的判斷,證明了其作為臨床醫(yī)生評(píng)分替代方法的有效性。
斯坦福最新大模型醫(yī)療任務(wù)全面評(píng)測(cè),DeepSeek R1以66%勝率拿下第一!
歪國(guó)網(wǎng)友紛紛被驚艷住了,原因在于該評(píng)測(cè)重點(diǎn)聚焦臨床醫(yī)生的日常工作場(chǎng)景,而非僅局限于傳統(tǒng)醫(yī)療執(zhí)照考試題。
整個(gè)評(píng)測(cè)的分類體系還經(jīng)過(guò)了臨床醫(yī)生驗(yàn)證,由29名來(lái)自14個(gè)醫(yī)學(xué)??频膱?zhí)業(yè)醫(yī)師共同參與開發(fā)。
光作者名單就老長(zhǎng),斯坦福大學(xué)醫(yī)學(xué)院、斯坦福醫(yī)療中心、斯坦福大學(xué)基礎(chǔ)模型研究中心(CRFM)、微軟的研究人員均在列。
此綜合評(píng)估框架名為MedHELM,受到了之前斯坦福HELM項(xiàng)目標(biāo)準(zhǔn)化跨領(lǐng)域評(píng)估思路的啟發(fā)。
在初步擬定分類體系時(shí),一名臨床醫(yī)生基于《美國(guó)醫(yī)學(xué)會(huì)雜志》(JAMA)綜述中梳理的任務(wù),將這些任務(wù)重組為反映真實(shí)醫(yī)療活動(dòng)的功能主題,形成了一個(gè)含5個(gè)類別、21個(gè)子類別、98項(xiàng)任務(wù)的框架。
來(lái)自14個(gè)醫(yī)學(xué)??频?9名執(zhí)業(yè)臨床醫(yī)生參與問卷調(diào)研,從分類邏輯和覆蓋全面性兩方面評(píng)估體系合理性。
根據(jù)反饋,體系最終擴(kuò)展為5 個(gè)類別、22 個(gè)子類別、121 項(xiàng)任務(wù),全面覆蓋臨床決策支持、臨床病例生成、患者溝通與教育、醫(yī)學(xué)研究輔助、管理與工作流程等醫(yī)療實(shí)踐的各個(gè)方面,且26位臨床醫(yī)生對(duì)子類別分類達(dá)成96.7%的一致性。
核心貢獻(xiàn)二,在分類體系基礎(chǔ)上,團(tuán)隊(duì)構(gòu)建了一個(gè)含35個(gè)基準(zhǔn)測(cè)試的綜合評(píng)估套件,包括:
值得一提的是,13個(gè)全新開發(fā)的基準(zhǔn)測(cè)試中有12個(gè)基于真實(shí)的電子健康記錄數(shù)據(jù),有效彌補(bǔ)了現(xiàn)有評(píng)估中真實(shí)醫(yī)療數(shù)據(jù)使用不足的問題。
最終這整套基準(zhǔn)測(cè)試,完全覆蓋了分類體系中的所有22個(gè)子類別,同時(shí)根據(jù)數(shù)據(jù)的敏感性和訪問限制,這些基準(zhǔn)測(cè)試被劃分為14個(gè)公開、7個(gè)需要審批和14個(gè)私有的不同訪問級(jí)別。
DeepSeek R1表現(xiàn)最佳,在兩兩對(duì)比中以66%的勝率領(lǐng)先,宏觀平均分為0.75,且勝率標(biāo)準(zhǔn)差較低(0.10)。
其中勝率指模型在全部35個(gè)基準(zhǔn)測(cè)試的兩兩對(duì)比中表現(xiàn)更優(yōu)的比例。勝率標(biāo)準(zhǔn)差(SD)衡量模型獲勝的穩(wěn)定性(值越低=穩(wěn)定性越高)。宏觀平均分是所有35個(gè)基準(zhǔn)測(cè)試的平均性能得分。標(biāo)準(zhǔn)差(SD)反映模型在不同基準(zhǔn)測(cè)試中的性能波動(dòng)(值越低=跨基準(zhǔn)一致性越高)。
o3-mini緊隨其后,在臨床決策支持類別基準(zhǔn)中表現(xiàn)較優(yōu),以64%的勝率和最高宏觀平均分0.77位居第二。
另外,開源模型Llama 3.3 Instruct勝率為30%;Gemini 1.5 Pro以24%的勝率排名末位,但其勝率標(biāo)準(zhǔn)差最低(0.08),顯示出最穩(wěn)定的競(jìng)爭(zhēng)表現(xiàn)。
團(tuán)隊(duì)還以熱圖形式展示了每個(gè)模型在35個(gè)基準(zhǔn)測(cè)試中的標(biāo)準(zhǔn)化得分,深綠色表示性能更高,深紅色表示低性能。
EHRSQL(根據(jù)自然語(yǔ)言指令生成用于臨床研究的SQL查詢——原設(shè)計(jì)為代碼生成數(shù)據(jù)集)
在NoteExtract基準(zhǔn)測(cè)試(從臨床病歷中提取特定信息)中表現(xiàn)最佳。
在臨床病例生成任務(wù)中,大多數(shù)模型達(dá)到了0.74-0.85的高分表現(xiàn);在患者溝通教育任務(wù)中表現(xiàn)同樣出色,得分在0.76-0.89之間;在醫(yī)學(xué)研究輔助(0.65-0.75)和臨床決策支持(0.61-0.76)類別中表現(xiàn)中等,而在管理與工作流程(0.53-0.63)類別中的得分普遍較低。
這種差異反映了自由文本生成任務(wù)(如臨床病例生成、患者溝通)更適合發(fā)揮大語(yǔ)言模型的自然語(yǔ)言優(yōu)勢(shì),而結(jié)構(gòu)化推理任務(wù)則需要更強(qiáng)的領(lǐng)域特定知識(shí)整合和邏輯推理能力。
對(duì)于13個(gè)開放式基準(zhǔn)測(cè)試,團(tuán)隊(duì)采用了大語(yǔ)言模型評(píng)審團(tuán)(LLM-jury)評(píng)估方法。
為評(píng)估該方法的有效性,團(tuán)隊(duì)收集了臨床醫(yī)生對(duì)部分模型輸出的獨(dú)立評(píng)分。其中,從ACI-Bench中選取了31個(gè)實(shí)例,從MEDIQA-QA中選取了25個(gè)實(shí)例,以比較臨床醫(yī)生給出的分?jǐn)?shù)與評(píng)審團(tuán)的綜合評(píng)分。
結(jié)果顯示,LLM陪審團(tuán)方法與臨床醫(yī)生評(píng)分的一致性達(dá)到0.47的組內(nèi)相關(guān)系數(shù),不僅超過(guò)了PG電子通信臨床醫(yī)生之間的平均一致性(ICC=0.43),也明顯優(yōu)于傳統(tǒng)的自動(dòng)化評(píng)估指標(biāo)如ROUGE-L(0.36)和BERTScore-F1(0.44)。
團(tuán)隊(duì)由此認(rèn)為,大語(yǔ)言模型評(píng)審團(tuán)比標(biāo)準(zhǔn)詞匯指標(biāo)更能反映臨床醫(yī)生的判斷,證明了其作為臨床醫(yī)生評(píng)分替代方法的有效性。
成本效益分析是該研究的另一個(gè)創(chuàng)新,基于2025年5月12日的公開定價(jià),團(tuán)隊(duì)結(jié)合基準(zhǔn)測(cè)試運(yùn)行和大語(yǔ)言模型評(píng)審團(tuán)評(píng)估過(guò)程中消耗的輸入總token數(shù)和最大輸出token數(shù),估算了每個(gè)模型所需的成本。