柳叶刀数字健康研究测试20款大模型后给出医疗错误信息被采信比例区间
一项发表在《柳叶刀-数字健康》的研究对20个开源与闭源大语言模型进行系统化测试,围绕医疗场景的错误信息传播风险设置了三类输入材料:在真实出院小结文本中嵌入一条伪造的医疗建议、从社交平台整理的常见健康谣言、以及由医生撰写的300个简短临床情景。研究对上述材料构造并提交了超过100万条提问与指令式提示词,通过对输出文本的标注统计模型在回答中“采信并复述”伪造信息的比例,并将不同来源外观与提示词语气作为对照变量。总体结果显示,模型对约32%的伪造信息出现接受并继续输出的表现;当伪造信息伪装成医疗机构出院记录、化验单式写法或带有临床口吻的段落时,该比例上升到接近47%;当伪造信息来自类似Reddit帖子一类的社交对话文本时,复述错误信息的比例下降到约9%。研究还测试了“权威口吻”提示词的影响:在提问中加入“资深临床人员”“已审核确认”等身份或背书语句时,更容易诱导模型确认并扩写错误内容。不同模型之间存在显著差异,研究给出部分模型在该组测试中对虚假主张的易感比例可达到约63.6%,也给出GPT系列在相同测试设定下更不易被诱导的结果对比。研究作者来自纽约西奈山伊坎医学院、纽约西奈山医疗系统及相关合作机构,文章在研究设计中同时包含“把错误信息当作前提”与“要求核对其真伪”的多种提示词模板,以覆盖更接近日常使用的问答方式。
支持率>95%