9999精品视频,一区二区色,91福利在线免费播放,人妻在线综合综合网,人妻丰满精品一区,九九九精品九九九精品,久久精品店,国产午夜久久,五月天人妻超碰

  • +1

咨詢AI醫(yī)生還不如上網(wǎng)搜索靠譜?《自然-醫(yī)學》:對普通人來說,確實如此

澎湃新聞記者 季敬杰
2026-02-11 08:36
來源:澎湃新聞
? 生命科學 >
聽全文
字號

·AI本身的能力與人類使用這種能力的效率之間存在巨大鴻溝。

AI醫(yī)生是否真的可靠?其性能能否僅靠增加算力來提升?2月10日發(fā)表在《自然-醫(yī)學》上的一項新研究顯示,對于普通人來說,答案是否定的。

在該研究中,來自牛津大學等機構(gòu)的研究人員招募了1298名英國參與者,讓他們在10個醫(yī)學場景中做出判斷——比如突然劇烈頭痛應(yīng)該去哪個醫(yī)療機構(gòu)就診,以及可能患的是什么疾病。參與者被隨機分配到四個實驗組:三個治療組分別使用GPT-4o、Llama 3或Command R+三種不同的大語言模型來輔助決策,而對照組則使用他們平時在家會用的任何方法,主要是互聯(lián)網(wǎng)搜索。

當研究人員直接將醫(yī)學場景的信息輸入給這些大語言模型時,它們的表現(xiàn)非常好。GPT-4o能在94.7%的情況下指出至少一個相關(guān)的醫(yī)學診斷,在64.7%的情況下給出正確的醫(yī)療建議。Llama 3和Command R+的表現(xiàn)也大同小異。說明它們確實掌握了大量的醫(yī)學信息。

然而,當普通人使用這些相同的模型時,情況就不一樣了。使用大語言模型的參與者在識別相關(guān)醫(yī)學條件方面的表現(xiàn)變得更差,只有不到34.5%的準確率。他們在判斷醫(yī)療優(yōu)先級方面的表現(xiàn)也沒有超過對照組,兩者的準確率均為44%左右。

換句話說,讓患者自己咨詢AI醫(yī)生,結(jié)果可能還不如上網(wǎng)搜索。

這一結(jié)果表明AI本身的能力與人類使用這種能力的效率之間存在巨大鴻溝。研究團隊分析了參與者與大語言模型之間的對話記錄,發(fā)現(xiàn)了一系列系統(tǒng)性的問題。首先是信息傳遞的不通暢。大語言模型在對話中提到相關(guān)癥狀的比例大約在65%-73%之間,遠低于它們單獨工作時的表現(xiàn),這說明人類患者往往沒有向AI系統(tǒng)提供足夠的信息。

超過一半的患者在最初描述癥狀時沒有提供完整的信息。他們可能只說“頭很疼”,而沒有提到“突然發(fā)作”或“伴有頸部僵硬”這樣的關(guān)鍵癥狀。有時候,患者會在AI的提問下逐步補充信息,但有時候他們根本不補充。

作者們指出,與之相比,醫(yī)生之所以能診斷患者,不僅是因為他們知識豐富,更因為他們知道要問什么問題。一個非專業(yè)的患者可能不知道哪些癥狀是診斷的關(guān)鍵。

研究者們還發(fā)現(xiàn),即使AI系統(tǒng)給出了正確建議,人類也不一定會采納。參與者平均列出1.33個醫(yī)學診斷作為他們的最終答案,而它們的準確率僅為38.7%。相比之下,大語言模型在整個對話中提及的所有診斷的正確率為34%。這意味著人類沒有成功地從AI生成的多個建議中篩選出最好的那一個。

除了溝通不暢和判斷失誤,研究還發(fā)現(xiàn)了AI本身的一些問題。在一些情況下,大語言模型提供了正確的初始診斷,但當患者添加更多細節(jié)后,它反而改口提出了錯誤的建議。在另一些極端案例中,同樣的AI對相似的癥狀描述給出了完全相反的建議。

比如,兩名患者都描述了蛛網(wǎng)膜下腔出血的癥狀,包括突然的劇烈頭痛、頸部僵硬和畏光。但AI告訴其中一個患者“躺在黑暗的房間里”休息,而另一個則建議“立即呼救護車”。

在人類醫(yī)生的訓練邏輯中,通過資格考試是上崗的第一步。但該研究的作者們指出,對于AI來說,考試中的成績并不與它們在現(xiàn)實中表現(xiàn)直接相關(guān)。研究者們從醫(yī)學執(zhí)照考試題庫中選出了與上述醫(yī)療場景相關(guān)的236道選擇題讓AI做,準確率遠遠高于在真實互動中的表現(xiàn)。在一些場景中,AI做題的正確率高于80%,而在患者實驗中面對相同問題,準確率卻低于20%。

研究團隊還測試了用AI分別模擬患者和醫(yī)生進行對話是否能反映真實情況。這是一種在不少研究中很流行的基準測試,不少人認為其結(jié)果應(yīng)該比單純的選擇題更能反映真實互動。但該研究的結(jié)果顯示,模擬患者的表現(xiàn)不僅總體上優(yōu)于真實用戶,而且這種優(yōu)勢與真實用戶的表現(xiàn)幾乎沒有相關(guān)性。換句話說,模擬互動無法預測真實互動是成功還是失敗。

研究者們認為,兩個大語言模型之間的對話往往更加結(jié)構(gòu)化、信息傳遞更順暢,它們知道要問什么,也知道如何有效地傳達醫(yī)學概念。而人類患者則帶來了真實世界的復雜性:焦慮、知識不足、對癥狀的不同理解,以及無法預測的信息共享模式。

這項研究觸及了AI醫(yī)療中的一個根本問題——對于大語言模型來說,醫(yī)學知識的廣泛性和準確性并不是在真實醫(yī)療場景中成功的充分條件。真實世界的醫(yī)療互動涉及復雜交互,無法通過傳統(tǒng)的醫(yī)學基準測試來捕捉。

這些發(fā)現(xiàn)對那些正在期待AI醫(yī)療“革命”的人來說是一個清醒的提示。大語言模型或許永遠不會取代醫(yī)生的臨床判斷,但它們或許能在更加謹慎、透明的設(shè)計下,成為有用的決策輔助工具——前提是我們首先解決好人與機器之間的溝通問題。

參考文獻:

Bean, A. M., Payne, R. E., Parsons, G., et al. Reliability of LLMs as medical assistants for the general public: a randomized preregistered study. Nature Medicine (2026). https://doi.org/10.1038/s41591-025-04074-y

    責任編輯:宦艷紅
    圖片編輯:李晶昀
    校對:姚易琪
    澎湃新聞報料:021-962866
    澎湃新聞,未經(jīng)授權(quán)不得轉(zhuǎn)載
    +1
    收藏
    我要舉報
            查看更多

            掃碼下載澎湃新聞客戶端

            滬ICP備14003370號

            滬公網(wǎng)安備31010602000299號

            互聯(lián)網(wǎng)新聞信息服務(wù)許可證:31120170006

            增值電信業(yè)務(wù)經(jīng)營許可證:滬B2-2017116

            ? 2014-2026 上海東方報業(yè)有限公司

            灵宝市| 都兰县| 汕头市| 鹤山市| 荔浦县| 肥东县| 阿图什市| 黎平县| 九江市| 馆陶县| 丹寨县| 宁安市| 米脂县| 宜宾县| 依兰县| 民丰县| 饶平县| 大冶市| 浮山县| 南漳县| 祁连县| 鹤岗市| 广元市| 介休市| 恩平市| 阿合奇县| 广平县| 枣庄市| 毕节市| 清徐县| 井冈山市| 石棉县| 苗栗市| 鸡泽县| 嫩江县| 涡阳县| 南丰县| 乐至县| 丹寨县| 尼玛县| 镇雄县|