Search Dental Tribune

人工智能通过英国牙科考试:对牙科学士(BDS)教育及评估的启示

一项新研究表明,大型语言模型在牙科教育中具有重要价值,但同时也指出了它们存在的重大局限性。(图片来源:irissca/Adobe Stock)

英国曼彻斯特讯:在普通人的生活中,人工智能(AI)最有用且最普及的应用或许就是大型语言模型(LLM)了 —— 这是一种机器学习模型,我们依靠它来对各种问题进行对话式回应,从生活建议到简单的事实核查都能涵盖。英国一项新研究对三种热门的大型语言模型(Gemini、ChatGPT 和 Grok)在牙科学士(BDS)以及牙科卫生与治疗(DHT)课程的评估中的表现进行了测评。该研究既强调了大型语言模型在支持牙科教育方面的作用,也揭示了它们的主要局限性,尤其是在为学生评估生成内容方面。


研究表明,大型语言模型能够通过医学领域的考试,但关于它们在牙科教育中作用的清晰分析,以及对各类平台的比较却一直有所欠缺。这项新研究试图填补这一空白,结果显示,这三种大型语言模型均能通过从 BDS 和 DHT 课程中选取的所有评估,包括 260 道选择题、80 份简答题试卷和 3 场结构化口试。在选择题部分,各模型的表现不相上下,未发现显著差异。然而,在 DHT 组的简答题试卷中,ChatGPT 和 Grok 的表现明显优于 Gemini。


这一结果具有重要的临床和教育意义。大型语言模型能够回答 BDS 和 DHT 各学年的书面问题,这表明学生可以利用这些工具辅助复习,教育工作者也可以用它们来衡量学习者的进步情况。研究结果还进一步印证了先前的研究结论,即尽管大型语言模型可能存在网络安全风险,但它们仍是牙科教育中极具价值的工具。


不过,当被要求生成原创的考题和评分标准时,所有大型语言模型都暴露出明显的不足。存在的问题包括:评分标准过于复杂或模糊、临床术语使用不当、题干中出现双重否定,以及问题与预期的学习成果不匹配等。关键的是,大多数生成的问题仅停留在布鲁姆分类法和米勒金字塔的较低层级,侧重于事实回忆,而非临床应用或推理。


这对于牙科教育而言意味着,虽然大型语言模型可能在形成性学习和低风险评估中提供帮助,但在设计高质量的终结性评估工具时,它们尚不能可靠地替代人类的投入。这一点在 BDS 课程中尤为重要,因为该课程的评估必须支持学生在结构化课程体系中从新手逐步成长为合格的临床医生。


研究得出结论:像 ChatGPT 和 Grok 这样的大型语言模型在支持 BDS 教育方面具有价值,特别是在回答问题和生成草稿内容方面。然而,为确保临床准确性、与英国牙科总会标准的一致性以及对应用知识的有效评估,人类的监督仍然至关重要。随着人工智能工具的不断发展,将它们融入牙科教育的过程必须审慎、有证据支持且由教育工作者主导。


这项题为《大型语言模型(ChatGPT4‑0、Grok2 和 Gemini)在英国牙科学及牙科卫生与治疗评估中的表现》的研究于 2025 年 6 月 20 日在线发表在《英国牙科杂志》上,随后将被收录至期刊正刊。
更多全球牙科新闻,请关注微信公众号:世界牙科论坛

编者注:

主题:数字牙科学


标签:人工智能 牙科教育 牙科创新 牙科研究 大型语言模型
To post a reply please login or register
advertisement