牛津大學(xué)研究發(fā)現(xiàn),盡管大語(yǔ)言模型在醫(yī)學(xué)考試中表現(xiàn)出色,但在實(shí)際應(yīng)用中效果大打折扣。研究顯示,LLM直接測(cè)試時(shí)能94.9%準(zhǔn)確識(shí)別病癥,但人類(lèi)使用LLM診斷時(shí)準(zhǔn)確率僅34.5%,甚至低于不使用AI的對(duì)照組。問(wèn)題源于用戶(hù)提供信息不完整、LLM理解偏差等人機(jī)交互問(wèn)題。專(zhuān)家指出,僅憑非交互式基準(zhǔn)測(cè)試評(píng)估LLM存在誤導(dǎo)性,需要真實(shí)的人機(jī)交互測(cè)試才能準(zhǔn)確評(píng)估AI系統(tǒng)的實(shí)際性能。