根據《New York Times》的最新報導,一項去年底發表於《自然醫學》(Nature Medicine)的研究發現,目前市面上常見的AI聊天機器人,在提供醫療建議方面的表現,甚至不比傳統的Google搜尋來得精準可靠,更別提它們帶來的獨特風險,尤其大約六分之一的成年人每月至少會用AI工具查詢健康資訊。這項研究對AI在病患照護中的實際應用潑了一盆冷水,指出目前沒有任何一個模型準備好直接用於病患。
AI 醫療建議:為何「考試滿分」卻「實戰不及格」?
想像一下,你走進一間咖啡廳,點了一杯「心情不好」的飲料。一位有經驗的人類咖啡師,或許會根據你的語氣、表情,甚至之前點過的飲料,推薦一杯暖心的拿鐵或提神的黑咖啡。但對AI來說,「心情不好」可能只是一個模糊的詞,它可能只會根據關鍵字給你推薦「抗憂鬱飲料」清單,而忽略了你真正的情境與需求。這就是目前AI醫療建議面臨的困境。
這件事要從大概三年前說起,當 ChatGPT 這類大型語言模型(LLM,Large Language Model)首次公開亮相時,全世界都為之驚艷。許多人興奮地發現,這些AI不僅能寫詩、寫程式,甚至還能通過醫療執照考試,在某些挑戰性的診斷問題上表現優於人類醫生。這讓大家對AI在醫療領域的潛力充滿期待,甚至有主要AI公司如亞馬遜和OpenAI,推出了專門回答健康問題的產品。
然而,牛津網路研究所的教授亞當·馬赫迪(Adam Mahdi)卻對此抱持懷疑。他認為,那些「清晰、直接」的醫療考試問題,並不能很好地代表真實世界中「混亂、不完整、隨機」的醫學情境。這就像,AI可以在模擬駕駛艙裡完美通過所有路考,但一旦上了真實的、充滿突發狀況的馬路,結果可能就完全不同了。
為了解開這個謎團,馬赫迪教授和他的團隊設計了一項實驗。他們招募了超過1,200名英國參與者,其中大多數沒有醫學背景。這些參與者會拿到一個詳細的案例情境,裡面包含了症狀、生活方式細節和病史——而這些資訊往往是模糊且不完整的,就像現實中病人描述自己的狀況一樣。研究人員要求參與者與市面上可用的AI聊天機器人(例如OpenAI的ChatGPT和Meta的L)對話,找出下一步該怎麼做,比如是叫救護車,還是可以在家自行治療。
結果令人大跌眼鏡。研究發現,這些AI聊天機器人在引導使用者做出正確診斷或幫助他們決定下一步行動方面,並不比Google搜尋來得有效。更糟的是,AI技術還帶來了獨特的風險:它們有時會提供錯誤資訊,或者僅僅因為問題措辭的微小變化,就大幅改變其建議。這項研究明確指出,目前所評估的模型中,沒有一個「準備好直接用於病患照護」。
AI 醫療建議,簡單說就是利用AI演算法來分析病患資料、症狀描述,進而提供診斷、治療方案或健康管理建議的數位工具。這些工具的目標是提高醫療效率、輔助醫生決策,甚至讓一般民眾更容易獲取健康資訊。然而,當這些工具面對真實世界的複雜性時,卻顯露出它的盲點。
「醫學的混沌」:AI在現實世界遇到的挑戰
為什麼AI在考試中表現優異,卻在真實世界中頻頻碰壁呢?關鍵就在於「醫學的混沌」。現實世界的醫學從來不是非黑即白的,它充滿了灰色地帶、主觀感受和個人差異。
想像一下,一位病人說自己「全身不舒服」。這句話對AI來說,可能只是一個籠統的詞彙,它會從資料庫中找出所有與「不舒服」相關的疾病。但對一位經驗豐富的醫生來說,「不舒服」背後可能藏著多種含義:是疼痛?是倦怠?是焦慮?醫生會透過追問細節、觀察表情、感受語氣,甚至結合病人的家庭背景和生活習慣,來拼湊出更完整的圖像。這些「軟性資訊」和「非語言線索」,是目前AI難以捕捉和理解的。
AI的運作基礎是「模式識別」和「數據關聯」。它被訓練在龐大的文本資料上,學習詞語之間的統計關係。當它遇到一個問題時,會根據過去看過的資料,生成一個「最可能」的答案。這在明確的、有標準答案的問題上很有效,但在醫學這種需要高度情境理解、倫理判斷和人際互動的領域,就顯得力不從心。
更令人擔憂的是,AI可能會產生所謂的「幻覺」(Hallucination),也就是自信滿滿地給出錯誤或捏造的資訊。當它沒有足夠的數據來回答一個問題時,它不會說「我不知道」,而是會根據現有知識「編造」一個聽起來合理的答案。在醫療領域,一個錯誤的建議可能導致延誤就醫、誤診甚至生命危險,這是我們無法承受的風險。
對我們這些消費者來說,這提醒我們,AI工具可以作為獲取一般健康資訊的「起點」,但絕不能當作唯一的「終點」。如果你身體不適,應該諮詢專業的醫療人員,而不是單純依賴機器人的建議。你可以用AI來搜尋疾病的常見症狀,但當你需要診斷或決定治療方案時,請務必尋求人類醫生的協助。
對於醫療從業者而言,AI並非洪水猛獸,但它也不是萬能解藥。AI可以在數據分析、文獻檢索、影像識別等輔助性工作上發揮巨大作用,比如幫助醫生快速篩查大量醫學影像、整理病歷資料。然而,在臨床診斷、治療決策、病患溝通和心理支持這些需要高度人性化判斷的領域,人類醫生的經驗、同理心和倫理觀念,仍然是不可或缺的。
對於AI開發者和投資人來說,這項研究敲響了警鐘。過度宣傳AI在醫療領域的「自主診斷」能力,不僅不切實際,更可能帶來嚴重的社會風險和信任危機。未來的方向應該是開發「輔助性」而非「替代性」的AI工具,專注於提升醫療效率、降低行政負擔,並在嚴格的驗證和監管下,謹慎地將AI技術融入醫療流程。
科技與人性的交織:未來的醫療願景
這項研究並不是要否定AI在醫療領域的潛力,而是提醒我們,在追求科技進步的同時,必須保持清醒和謹慎。AI的強大之處在於其處理海量數據、識別複雜模式的能力,但它缺乏人類的常識、情境理解、同理心和倫理判斷。
未來,我們或許會看到AI在醫療領域扮演更重要的角色,但那絕不會是它單槍匹馬地取代人類醫生。相反地,它會成為醫生最得力的助手,處理繁瑣的數據、提供參考資料,讓醫生能將更多時間與心力投入到真正需要「人」的判斷、同理心與溝通上。
例如,AI可以幫助醫生更快速地篩選出潛在的高風險病患,或是根據最新的研究文獻提供多種治療方案供醫生參考。但在最終的診斷和治療決策上,人類醫生的專業判斷、與病患的信任關係,以及對病患個體差異的理解,將永遠是核心。這也提醒我們,在追求科技便利的同時,更要時刻思考,在哪些領域,人類的智慧與溫度,依然是無可取代的。
如果你對AI在各行各業的應用與挑戰感興趣,或許也會想了解 AI 在企業績效考核中可能帶來的潛在風險與智慧運用;而若你關注健康領域的新興趨勢,則可以進一步探索 GLP-1 藥物 在長壽領域的潛力與挑戰,或是 胜肽熱潮:科學共識的缺位與市場數據的迷思 等議題。



編輯觀點
這項研究並不是要否定AI在醫療領域的潛力,而是提醒我們,在追求科技進步的同時,必須保持清醒和謹慎。AI的強大之處在於其處理海量數據、識別複雜模式的能力,但它缺乏人類的常識、情境理解、同理心和倫理判斷。 未來,我們或許會看到AI在醫療領域扮演更重要的角色,但那絕不會是它單槍匹馬地取代人類醫生。相反地,它會成為醫生最得力的助手,處理繁瑣的數據、提供參考資料,讓醫生能將更多時間與心力投入到真正需要「人」的判斷、同理心與溝通上。 例如,AI可以幫助醫生更快速地篩選出潛在的高風險病患,或是根據最新的研究文獻提供多種治療方案供醫生參考。但在最終的診斷和治療決策上,人類醫生的專業判斷、與病患的信任關係,以及對病患個體差異的理解,將永遠是核心。這也提醒我們,在追求科技便利的同時,更要時刻思考,在哪些領域,人類的智慧與溫度,依然是無可取代的。 如果你對AI在各行各業的應用與挑戰感興趣,或許也會想了解 [AI 在企業績效考核中可能帶來的潛在風險與智慧運用](/article/ai-performance-review-check);而若你關注健康領域的新興趨勢,則可以進一步探索 [GLP-1 藥物 在長壽領域的潛力與挑戰](/article/glp1-drugs-longevity),或是 [胜肽熱潮:科學共識的缺位與市場數據的迷思](/article/peptides-body-hacking-science) 等議題。