
4月30日沈阳股票配资公司,杭州德适生物科技股份有限公司(2526.HK,简称“德适”)在香港正式发布医疗AI评测平台DoctorBench,并同步揭晓首期全球医疗大模型排行榜。杭州智诊科技的WiseDiag-v2、谷歌的Gemini-3.1-Pro-Preview以及OpenAI的GPT-5.4分列前三名。德适表示,该平台首次将“临床实战能力”确立为核心标尺,为全球医疗大模型构建起一套贴近真实诊疗场景的多维评测体系。

当前,医疗大模型加速从实验室走向临床应用,但行业长期缺少能真正衡量模型“看病能力”的评测标准。现有评测多聚焦于医学知识问答,难以反映模型在复杂临床情境中的综合表现,评测与临床实践之间的鸿沟正成为医疗AI落地的重要障碍。
此前,OpenAI发布HealthBench,标志着领先企业开始重视这一挑战。然而,医疗具有强烈的本土化特征——不同国家和地区的诊疗指南、语言习惯、患者群体存在显著差异,任何单一评测体系都难以实现全球普适。
基于此,德适汇聚基础医学、临床医学、人工智能和医疗产业等多领域专家,历时近十年打造DoctorBench平台。其核心理念是考核大模型“像医生一样思考”的临床沟通与决策能力,而非单纯检验“知识储备”。平台设立三大榜单体系——医学主榜单(LLM)、多模态榜单(VLM)与智能体榜单(Agent),分别评测模型的文本诊疗能力、多模态理解能力,以及模拟诊疗环境中的多轮决策与工具调用能力。

在评测机制上,DoctorBench首创了“2大核心维度+3项通用维度+5项专项模块”的多维架构,涵盖安全性与准确性两大核心,辅以交互质量、信息优先级、主动询问三项通用维度,并细分为证据与引用、可解释推理、可执行性、个体化适配、情感支持等专项模块。同时,平台搭载“场景自适应权重”,根据不同临床场景的风险等级动态调整各维度权重,使评分逻辑更加贴合真实诊疗决策。
尤为关键的是,平台将医学事实准确与安全风险控制设为具有“一票否决权”的核心红线:一旦模型在涉及患者安全的关键问题上出现严重偏差,无论其他维度表现如何突出,都无法获得高分。

德适创始人宋宁博士表示,医疗AI的发展是一场关乎人类共同健康福祉的长跑,既需要颠覆式的技术创新与跨学科、跨地域的深度协作,更需要对生命健康的绝对敬畏与坚守。他期待与全球更多科研机构、临床中心和行业伙伴携手,让真正有实力的技术被看见、被信赖,最终惠及每一位患者。
公开资料显示,德适生物于2016年9月由宋宁在杭州创立,2026年3月30日在港交所主板上市,是一家专注于医学影像AI与智能医疗器械研发的医疗器械企业。杭州智诊科技有限公司由宋宁在2023年成立,专注医疗AI语言大模型技术研发与应用。
南方+记者 严慧芳
【作者】 严慧芳
【来源】 南方报业传媒集团南方+客户端沈阳股票配资公司
航心配资提示:文章来自网络,不代表本站观点。