PG新聞
News
斯坦福大學(xué)近期公布了一項(xiàng)關(guān)于臨床醫(yī)療人工智能模型的深度評(píng)估結(jié)果,DeepSeek R1憑借其卓越PG電子官網(wǎng)的表現(xiàn),在這場(chǎng)九強(qiáng)爭(zhēng)霸中脫穎而出,以66%的勝率及0.75的宏觀平均分榮膺桂冠。此次評(píng)估不僅涵蓋了傳統(tǒng)醫(yī)療執(zhí)照考試的內(nèi)容,更深入模擬了臨床醫(yī)生的日常工作環(huán)境,為評(píng)估增添了實(shí)戰(zhàn)色彩。
為了全面而準(zhǔn)確地評(píng)估各模型的性能,斯坦福大學(xué)的評(píng)測(cè)團(tuán)隊(duì)精心打造了一個(gè)名為MedHELM的綜合評(píng)估體系,該體系包含35項(xiàng)基準(zhǔn)測(cè)試,廣泛覆蓋了22個(gè)醫(yī)療任務(wù)子領(lǐng)域。這一體系的科學(xué)性和實(shí)用性得到了29名來自14個(gè)不同醫(yī)學(xué)??频膱?zhí)業(yè)醫(yī)生的驗(yàn)證與認(rèn)可。評(píng)估結(jié)果顯示,DeepSeek R1在各項(xiàng)測(cè)試中均表現(xiàn)出色,穩(wěn)定性極高,勝率標(biāo)準(zhǔn)差僅為0.10。緊隨其后的是o3-mini和Claude3.7Sonnet,它們分別以64%的勝率和0.77的最高宏觀平均分,以及64%的勝率獲得了第二和第三名的佳績(jī)。
值得注意的是,o3-mini在臨床決策支持方面的表現(xiàn)尤為搶眼,展現(xiàn)了其在特定醫(yī)療場(chǎng)景下的強(qiáng)大實(shí)力。而Claude系列模型,如Claude3.5和3.7Sonnet,雖然未能奪冠,但也以不俗的勝率緊隨DeepSeek R1和o3-mini之后,顯示出其在醫(yī)療AI領(lǐng)域的競(jìng)爭(zhēng)力。
此次評(píng)估還采用了創(chuàng)新的大語言模型評(píng)審團(tuán)(LLM-jury)方法,該方法的結(jié)果與臨床醫(yī)生的評(píng)分高度吻合,進(jìn)一步驗(yàn)證了其評(píng)估的有效性和準(zhǔn)確性。同時(shí),研究團(tuán)隊(duì)還進(jìn)行了成本效益分析,發(fā)現(xiàn)推理模型的使用成本相對(duì)較高,更適合對(duì)精度和性能有較高要求的用戶;而非推理模型則成本較低,更易于普及和應(yīng)用。
斯坦福大學(xué)的這項(xiàng)評(píng)估不僅為醫(yī)療AI的發(fā)展提供了重要的數(shù)據(jù)參考,也為未來的臨床實(shí)踐提供了更多的選擇和可能性,推動(dòng)了醫(yī)療AI技術(shù)的不斷前進(jìn)。
蘋果iPadOS 26大改版:新界面、手寫筆升級(jí),AI與應(yīng)用PG電子官網(wǎng)全面進(jìn)化!
Bard初期表現(xiàn)不佳,與ChatGPT存在明顯差距,未能贏得用戶和市場(chǎng)的廣泛認(rèn)可;看似能打的Gemini系列模型,實(shí)際使用卻引發(fā)不小爭(zhēng)議,圖像生成功能因出現(xiàn)種族偏見被迫下線;谷歌內(nèi)部,搜索、Android、…
它們不是悠揚(yáng)的牧歌,而是生命在重壓下迸發(fā)的絕唱,是靈魂在荊棘中綻放的薔薇,讓我們看見:真正的歌唱從不在于聲音的完美,而在于生命最本真的震顫。嫦娥四號(hào)傳回的每一張照片,都是人類向宇宙發(fā)出的詰問與宣言,讓探索的火…
蘋果iPadOS 26大升級(jí):新界面、手寫筆優(yōu)化,AI與應(yīng)用全面增強(qiáng)!
華為nova 14系列震撼登場(chǎng)!鴻蒙5直板機(jī)領(lǐng)銜,nova 14僅售2699元起
華為nova14 Ultra震撼登場(chǎng)!鴻蒙5系統(tǒng)加持,售價(jià)4199元起
蘋果iPadOS 26大改版:新界面、手寫筆升級(jí),AI與應(yīng)用全面進(jìn)化!
本網(wǎng)站LOGO小熊標(biāo)志受版權(quán)保護(hù),版權(quán)登記號(hào):魯作登字-2015-F-025467,未經(jīng)ITBEAR官方許可,嚴(yán)禁使用。