非临床信息影响大型语言模型医疗建议,性别差异显著:警惕LLM在医疗领域的误判风险
根据麻省理工学院(MIT)研究人员的一项研究,大型语言模型(LLM)在推荐医疗治疗方案时会受到非临床信息的影响。这些非临床信息包括患者信息中的拼写错误、多余的空格、缺失的性别标记或不确信的、戏剧性的、口语化的语言。研究发现,对输入数据作这些修改后,LLMs更倾向于建议患者自我管理和报告健康状况,而不是来医院就诊,即使后者实际上是必要的。此外,这些变化导致LLMs对女性患者的诊疗建议出错率更高,比其他性别多出约7%,这表明女性患者更容易被错误地建议在家自我管理而非寻求医疗帮助。 这项研究由MIT电气工程与计算机科学系(EECS)副教授、医学工程科学研究所及信息与决策系统实验室成员Marzyeh Ghassemi领导,EECS研究生Abinitha Gourabathina为主要作者,研究生Eileen Pan和博士后Walter Gerych也参与了该研究。 研究团队通过模拟现实生活中患者与医生沟通时可能产生的文本变化来测试LLMs的反应。具体方法包括交换或删除性别标记、添加夸张或不确定的语言、以及插入额外的空格和拼写错误。这些变化旨在模仿弱势患者群体的真实沟通方式。例如,多余的空格和拼写错误可以代表英语水平有限或不太熟悉技术的患者,而添加不确定的语言则可以代表有健康焦虑的患者。 研究人员利用一个先进的LLM生成数千份患者笔记的扰动版本,同时确保这些改变最小化且保留所有临床数据。然后,他们评估了包括商业级模型GPT-4在内的四种LLM。每个模型都根据患者笔记回答三个问题:是否需要自我管理、是否需要来医院就诊以及是否需要分配医疗资源。研究结果显示,无论哪种非临床信息变化,LLMs的自我管理建议比例增加了7%到9%。特别是夸张语言的变化对模型影响最大,导致其建议更多患者自我管理。 人类医生的响应则显示这些变化并不影响他们的判断准确性。这项研究表明,在实际应用中,LLMs对患者信息的理解和处理可能存在严重缺陷,尤其是在涉及重大医疗决策时。这种不一致性在LLM与患者互动的过程中尤为明显,这种情况下LLM的误判可能导致患者错过必要的医疗救治。 业内专家表示,这一研究结果强烈表明,在将LLMs应用于临床前,必须对其进行严格审计。虽然这些模型在一些基本的临床问题上表现良好,但在涉及具体患者的复杂情况时仍存在诸多未知数。Ghassemi教授指出,这些研究揭示了LLMs在处理非标准语言方面的脆弱性,而这些正是人类医生能够从容应对的挑战。 MIT的这项研究将在ACM公平性、问责制和透明度会议上发表。麻省理工学院在人工智能和医疗技术领域一直走在前列,此次研究进一步强调了在高风险应用中审慎使用AI技术的重要性。