萍乡塑料管材生产线 AI vs 医生“各赢一局”:筛查快准狠,问诊常“露怯”


塑料挤出机

先进AI模型在业医学考试中表现优异,那么,真实场景下的AI医生究竟靠谱吗?

新研究表明,AI模型在辅助疾病筛查等方面能够发挥重要作用,但在与患者交流、收集病史并作出准确诊断等医生关键的任务上,仍然表现不佳。

AI加速癌症筛查

在由德国吕贝克大学教授亚历山大·卡塔利尼奇团队牵头的一项迄今为止规模大的相关研究中,AI有助于放射科医生在每1000例筛查中额外发现1例乳腺癌患者。

研究人员与近200位具备业资质的放射科医生作,评估了这款可识别乳腺癌征兆的AI模型。研究覆盖了2021年7月至2023年2月在德国12个乳腺癌筛查中心进行的共计46万余名女的筛查记录。

实际操作中,放射科医生可自主选择是否使用AI辅助诊断。终,约26万名女的筛查结果由AI与医生共同评估,其余20万余人则由医生单判断。结果显示,使用AI辅助诊断的医生检测出乳腺癌的比率为每千人6.7例,较未使用AI辅助的检出率提高了约17.6%。

此外萍乡塑料管材生产线,在疑似患癌的女接受活检的案例中,AI辅助诊断的准确率也更高——其中64.5%的活检结果证实为恶肿瘤,而未使用AI的活检确诊率为59.2%。“AI在提升乳腺癌检出率方面的表现出预期。”卡塔利尼奇表示。

该研究得到了人工智能公司Vara的技术支持。公司席技术官斯特凡·邦克表示,原本的研究目标是验证AI在癌症诊断上的表现“不劣于”放射科医生,由此证明AI在减轻医生工作负担上具备应用潜力。但终结果证明,AI在某些方面的表现甚至“优于人类”。

陈勇院士从事飞机总体气动和航电系统设计研究,是C909飞机系列总设计师,推动国产喷气支线客机次迈入商业化运营和产业化发展阶段,为国产喷气支线客机技术进步作出重大贡献。他带团队攻克了喷气支线客机安全设计和验证关键技术,主持建立了喷气支线客机适航验证技术体系,确保我国喷气支线客机安全顺畅运营;主持C909持续改进和系列化发展,探索了喷气支线客机全生命周期的技术体系,让我国支线客机具备与国际同类飞机竞争能力。他以一完成人身份获国家科技进步奖一等奖,并获得届国家卓越工程师称号。

张万斌院士在催化剂创制、反应设计、工艺开发等研究域取得一系列创新成果,实现了抗疟药物青蒿素、抗病毒药物瑞德西韦、抗癫痫药物布立西坦、抗肺结核药物贝达喹啉、大品种香料薄荷醇等多种手化物产业化成的关键技术突破,并完成技术转让。其中,薄荷醇和布立西坦的高不对称催化氢化成工艺分别被万华化学和奥锐特药业采用,已建成工业化生产线。

上海有4位科技家当选,他们是中国商用飞机有限责任公司工程总师陈勇、上海交通大学教授张文军、上海交通大学教授孙宝德、同济大学教授李国强。

文安县建仓机械厂

院士制度是党和国家为树立尊重知识、尊重人才导向,凝聚优秀人才服务国家设立的一项重要制度。院士增选每两年进行一次,塑料挤出机2025年两院院士增选工作于4月25日启动,选举产生中国科学院院士73人,中国工程院院士71人。

中国工程院院士是国家设立的工程科学技术方面的高学术称号。此次当选中国工程院院士的上海科学家共4位,他们分别是:中国商用飞机有限责任公司研究员陈勇、上海交通大学教授张文军、上海交通大学教授孙宝德、同济大学教授李国强。

11月21日,中国科学院公布了2025年院士增选当选院士名单、当选外籍院士名单。

尽管AI在医疗域应用前景广阔,但也引发了部分担忧。一些家指出,过度依赖AI可能导致漏诊,或造成医疗资源分布不均——经济条件好的患者才能享有医生的亲自诊疗。

此外,研究还发现,当AI先行判断某张医疗影像为“正常”(即不太可能存在癌症风险)时,放射科医生在审阅这类影像时平均仅花16秒;而对于AI无法明确判断的影像,医生平均花费30秒审阅。这提示我们,AI的判断可能会潜移默化地影响医生的注意力分配。

不过,英国帝国理工学院教授本·格洛克认为,研究结果印证了在使用策略得当的情况下,AI是安全且有的。格洛克肯定了该项研究允许医生自主决定是否使用AI的做法,并呼吁进行更多类似的“真实世界”研究。

他指出,单靠实验室模拟无法评估AI的临床价值,应更多地从实际应用中积累经验。“这项研究进一步证明了AI在乳腺癌筛查中的优势,也再次提醒政策制定者应加快相关技术的推广步伐。”

AI看病输在交流

哈佛大学生物医学信息学系助理教授普拉纳夫·拉杰普尔卡与同事一起开发了一种名为CRAFT-MD的AI评估工具,该工具基于2000个来自美国医学执照考试的病例构建,用于测试临床AI模型在模拟医患对话场景中的推理能力。

实验表明,四种主流大型语言模型——OpenAI的GPT-3.5和GPT-4、Meta的Llama-2-7b以及法国开源AI公司Mistral的Mistral-v2-7b——在医患对话场景中的诊断表现,明显不如它们根据书面病例的诊断表现。

例如,当GPT-4被提供结构化的病例摘要,并可从多个选项中选择诊断结果时,其诊断准确率高达82%。但当它根据模拟患者对话进行诊断时,准确率骤降至26%。“大语言模型善于做选择题,一旦进入动态对话场景,诊断准确率则大幅下降。”拉杰普尔卡说。

此外,这些AI模型在相当大比例的对话中未能完整获取患者病史。即使是表现好的GPT-4萍乡塑料管材生产线,也只在71%的模拟对话中成功获取了患者的完整病史。即便成功收集到相关病史,这些AI模型也无法总是给出正确的诊断结果。