DT News - China - AI 评审系统不足以可靠评估牙科诊疗建议

Dental Tribune International

三. 20 五月 2026

保存

中国西安：随着越来越多患者开始借助人工智能（AI）工具获取口腔健康建议，人们不仅对 AI 所提供信息的可靠性产生质疑，也开始思考：能否用一套人工智能系统，去评判另一套人工智能给出答复的专业度与安全性。一项对比多款大语言模型与人类牙科临床医师的最新研究指出，聊天机器人在输出口腔健康科普信息方面具备应用潜力，但仍离不开专业医师的监督审核。

研究人员参照世界牙科联盟（FDI）的专业资料，设计了 9 道口腔健康咨询问题，对六大主流大语言模型开展测评。测评主题涵盖婴幼儿口腔护理、孕期口腔健康、老年人口干症、口腔疾病预防及牙外伤处理。由两名资深牙科临床医师对大语言模型的回答进行打分评价，同时另外三款大语言模型作为 AI 评审员独立完成同款评分。

深度求索 DeepSeek-V3 与豆包 1.8-Pro 综合表现最优，二者在科学准确性、逻辑严谨性、临床实用性、专业术语规范性及内容完整性等评分维度均斩获高分。研究发现，各模型之间表现差异显著，说明牙科咨询能力高度依赖模型自身架构与训练数据集。GPT-5、Gemini 3、通义千问 3-Max、Kimi K2 整体表现同样不俗，但评分波动更大、稳定性欠佳。

值得强调的是，该研究并未否定 AI 系统提供通用口腔健康科普信息的安全性。研究核心关注点在于AI 评审体系本身的可靠性：两名人类医师的评分一致性极高，体现了专业临床评估的稳定度；反观 AI 评审员之间评分一致性偏低，且 AI 评审结果与人类专业医师的评分契合度极差。

此外，AI 评审还存在系统性评分偏严的特点，打分标准普遍严苛于人类专家。即便评分尺度更严格，AI 评审仍无法精准识别大语言模型答复中部分具有临床关键意义的内容缺失，尤其是高风险人群的预防建议与健康指导环节。

研究人员认为，这一现象暴露了当前大语言模型在临床信息评估上的短板：模型过度看重文本流畅度与内容完整度，却忽视了医疗风险的临床价值及针对特定人群的诊疗注意事项。究其根源，在于大语言模型仍依托文本模式进行生成判断，尚不具备独立的临床诊疗逻辑推理能力。

研究结果证实，现有大语言模型具备成为标准化口腔健康科普、患者宣教辅助工具的潜力，尤其适用于难以即时获得牙科医师面诊指导的场景。但该研究郑重警示：不可单纯依赖人工智能系统评判牙科临床建议的质量与安全。

研究团队总结，目前牙科领域的 “AI 评审” 机制，尚无法替代人类专业医师的人工审核。研究作者提出，未来相关模型研发应弱化对语言流畅度的追求，重点强化临床逻辑推理、患者安全考量及循证医疗决策能力。本次研究结论与近期多项相关研究观点一致：AI 聊天机器人可作为牙体牙髓病学领域受监管的教学辅助工具，助力临床学习及执业资格备考，但只能作为补充，绝不能替代临床医师的专业判断，专业监督不可或缺。

该研究论文题为《大语言模型在口腔健康咨询中的表现及 “AI 评审” 框架的一致性研究》，已于 2026 年 8 月刊发于《国际牙科杂志》网络版。