医联：医疗版ChatGPT直播评测，与真人医生几乎一致

• 2023-08-07 13:45:58 • 动漫资讯 • 阅读 2

国内首个医疗大模型，已经在“接诊”患者了。最近，一组AI医生医院真实站岗数据曝光：共接诊120多名患者，从问诊、检查到诊疗方案全流程覆盖；涉及心内科、消化内科、呼吸内科、内分泌科、肾脏内科、骨科、泌尿外科七大疾病科室，患者疾病类别多元，复杂程度不一；医学水平不输国内三甲医院主治医生，与真人医生诊疗方案一致性达到96%；来自北大人民医院、中日友好医院、阜外医院和友谊医院等国内顶尖医院的7位专家教授围观点赞。这样公开化、规模化的AI医生评测，在国内是首次，放眼全球也是第一次见到。更想不到的是，背后的主角MedGPT——基于Transformer的1000亿参数大模型，才刚问世一个月。

目前在实际诊疗中，它已经具备多轮连续对话和多模态能力。而在未来规划中，MedGPT还会上线医疗版的Plugin Store，预计将搭载1000+医疗应用，极大丰富AI医生的诊疗工具，提升诊疗效率。

从上述这些数据与表现来看，96%的一致性，想不到。这样的迭代速度，更想不到。MedGPT直播首秀：接待百名患者这场直播首秀其实是一场实打实的人机医学一致性评测。除了AI医生MedGPT外，还有10位来自四川大学华西医院的主治医师共同参与。为了保证评测的权威性和科学性，一方面由国内顶尖医院的专家教授组成评审团，进行审核和多维度打分。另一方面，整个流程也进行了特别的设计。简单来说，患者进屋问诊，但是是和有医师执业资格的“翻译员”对话。翻译员把患者主诉在电脑上分别传递给真人医生和AI医生，如此多轮往复，最终根据检查结果，给出诊断。就像当初AlphaGo大战围棋界，中间帮助Alpha执行“落子”动作的执棋手，就是这个“翻译员”的角色了。

这样一来AI医生与真人医生之间互不干涉，且条件基本一致，双方就能给出独立的判断。

最终，经过一天的鏖战，真人医生综合得分为 7.5分，AI 医生综合得分为 7.2分，比分结果上一致性达到了96%。

在评审过程中，专家们也发现了一些意想不到的“惊喜”：

比如，出现漏诊误诊的概率比较小。北大人民医院薛峰主任就发现，MedGPT通过多轮询问，根据患者脚底板疼痛症状，竟然在最后可以推断诊断出「有可能出现压迫颈神经」这样的结果。这也就是说，从知识储备上，AI医生其实可能高于一个经验不太丰富的医生。另外，MedGPT就诊时的“沉稳”表现也得到了点赞。中日友好医院心内科主任医师任景怡就表示：我觉得最好的一点是当诊断尚不明确时，MedGPT并不会轻易给出结论，而是要坚持通过继续问诊或检查收集更多信息。于是即便MedGPT还存在一定问题，她还是给了比真人医生还高的分数，并直言：这是里程碑的结果。