
商傳媒|康語柔/綜合外電報導
美國醫學會期刊《JAMA Network Open》近期發表一項針對大型語言模型(LLMs)在兒科醫療應用潛力的研究。該研究指出,這類人工智慧技術在輔助兒科照護方面展現潛力可期,然而專家強調,仍需更嚴謹的安全與療效研究,才能確保其安全有效地部署。
這項研究審查了自 2020 年 1 月 1 日至 2025 年 7 月 1 日間,運用現代變換器(transformer-based)大型語言模型,並以兒科臨床文本為輸入的原始研究。最終,共有 40 篇於 2023 年至 2025 年間發表的相關研究被納入分析。其中 23 篇研究來自美國,4 篇來自中國,其餘 13 篇則涵蓋歐、中東、北非及亞洲等地區。
研究發現,相較於成人或一般族群的應用,兒科領域的大型語言模型應用研究相對有限。儘管其中 38 篇研究專注於兒科族群,但有 24 篇並未明確指出兒科次分組的年齡,且僅有 9 篇涵蓋 0 至 5 歲的嬰幼兒。在所使用的模型方面,OpenAI 開發的 GPT 模型是主流,出現在 29 篇研究中,其次是 Meta 的 LLaMA 模型,用於 9 篇研究。多數研究(30 篇)採用預訓練模型,僅有 6 篇對模型進行兒科數據微調。
在兒科臨床應用類別中,臨床決策支援是研究最多的領域,其中診斷決策支援更在 24 篇研究中被提及,治療計畫則出現在 7 篇。其他應用還包括臨床筆記生成、病患溝通與教育、行政工作流程優化以及醫學研究協助。
研究指出,許多報告都提到大型語言模型能提高準確性、時間效率並降低成本。然而,這些模型也存在如「幻覺」(hallucinations,即生成不實資訊)和表現不一致等限制。在評估指標方面,準確度(accuracy)是最常用的指標,出現在 20 篇研究中。
鑑於上述發現,研究作者強調:「未來研究應優先考慮嚴謹的研究設計、兒科專屬模型、未被充分研究的專科與年齡層,並納入利害關係人意見,同時遵守實施、評估與報告標準,以支持大型語言模型在兒科領域安全、有效且公平的部署。」


