研究表明,大型语言模型能够通过医学领域的考试,但关于它们在牙科教育中作用的清晰分析,以及对各类平台的比较却一直有所欠缺。这项新研究试图填补这一空白,结果显示,这三种大型语言模型均能通过从 BDS 和 DHT 课程中选取的所有评估,包括 260 道选择题、80 份简答题试卷和 3 场结构化口试。在选择题部分,各模型的表现不相上下,未发现显著差异。然而,在 DHT 组的简答题试卷中,ChatGPT 和 Grok 的表现明显优于 Gemini。
这一结果具有重要的临床和教育意义。大型语言模型能够回答 BDS 和 DHT 各学年的书面问题,这表明学生可以利用这些工具辅助复习,教育工作者也可以用它们来衡量学习者的进步情况。研究结果还进一步印证了先前的研究结论,即尽管大型语言模型可能存在网络安全风险,但它们仍是牙科教育中极具价值的工具。
不过,当被要求生成原创的考题和评分标准时,所有大型语言模型都暴露出明显的不足。存在的问题包括:评分标准过于复杂或模糊、临床术语使用不当、题干中出现双重否定,以及问题与预期的学习成果不匹配等。关键的是,大多数生成的问题仅停留在布鲁姆分类法和米勒金字塔的较低层级,侧重于事实回忆,而非临床应用或推理。
这对于牙科教育而言意味着,虽然大型语言模型可能在形成性学习和低风险评估中提供帮助,但在设计高质量的终结性评估工具时,它们尚不能可靠地替代人类的投入。这一点在 BDS 课程中尤为重要,因为该课程的评估必须支持学生在结构化课程体系中从新手逐步成长为合格的临床医生。
研究得出结论:像 ChatGPT 和 Grok 这样的大型语言模型在支持 BDS 教育方面具有价值,特别是在回答问题和生成草稿内容方面。然而,为确保临床准确性、与英国牙科总会标准的一致性以及对应用知识的有效评估,人类的监督仍然至关重要。随着人工智能工具的不断发展,将它们融入牙科教育的过程必须审慎、有证据支持且由教育工作者主导。
这项题为《大型语言模型(ChatGPT4‑0、Grok2 和 Gemini)在英国牙科学及牙科卫生与治疗评估中的表现》的研究于 2025 年 6 月 20 日在线发表在《英国牙科杂志》上,随后将被收录至期刊正刊。
To post a reply please login or register