How well does GPT-4 perform on an emergency medicine board exam? A comparative assessment

被引：0

作者：

Almehairi, Naser ^{[1
]}

Clark, Gregory ^{[2
]}

Davis, Seth ^{[3
]}

机构：

[1] McGill Univ, Montreal, PQ H3A 0G4, Canada

[2] McGill Univ, Hlth Ctr, Montreal, PQ, Canada

[3] McGill Univ, Hlth Ctr, Dept Emergency Med, Montreal, PQ, Canada

来源：

CANADIAN JOURNAL OF EMERGENCY MEDICINE | 2025年

关键词：

Artificial intelligence; GPT-4; Emergency medicine; M & eacute; decine d'urgence; Intelligence artificielle;

D O I：

10.1007/s43678-025-00951-0

中图分类号：

R4 [临床医学];

学科分类号：

1002 ; 100602 ;

摘要：

BackgroundRecent advancements in artificial intelligence have shown promise in enhancing diagnostic precision within healthcare sectors. In emergency departments, artificial intelligence has demonstrated potential for improving triage, guiding the choice of radiologic imaging and crafting individualized medical notes and discharge summaries, including tailored care plans. Advances in generative artificial intelligence have led to the development of sophisticated models such as OpenAI's GPT-4. This study assessed the ability of generative artificial intelligence in diagnosis and management in emergency medicine. Specifically, we compared GPT-4 with the performance of emergency medicine trainees in Canada, as gauged by the Canadian In-Training Examination.MethodsWe compared the performance of emergency medicine residents to GPT-4 on the Canadian in-training exams for the years 2021 and 2022. Each question was entered into a fresh GPT-4 chat and the first response was recorded without any prompting. GPT-4's responses were then assessed using the same marking grid that is employed for evaluating medical trainees. We then compared GPT-4'sscores to the average scores of each post-graduate year (PGY) level of residents across all FRCPC training programs. Ethical approval was obtained, then Canadian In-Training Examination committee provided exam questions and anonymized national results.ResultsThe participants in this study included 389 residents in 2021 and 333 residents in the 2022 exams. In 2021, mean trainee scores increased progressively across the levels, with PGY1 trainees scoring 48.0% (SD 15.6), PGY2 at 56.2% (SD 14.7), PGY3 at 59.8% (SD 16.7), PGY4 at 67.2% (12.3), and PGY5 at 70.1% (SD 12.5), whereas GPT-4 scored 88.7%. In 2022, a similar pattern, with PGY1 scoring 46.3% (SD 14.7), PGY2 at 51.8% (SD 14.7), PGY3 at 58.2% (SD 14.3), PGY4 at 66.2% (SD 15.3), and PGY5 at 64.3% (SD 8.5), while GPT-4 scored 82.0%.ConclusionsGPT-4 has shown impressive capabilities, surpassing the performance of medical trainees at different postgraduate levels in the clinical written exam. These findings highlight the potential of artificial intelligence to serve as a valuable support tool in medical practice. However, it should be used with caution and must not substitute for established, evidence-based medical resources. ContexteLes progr & egrave;s r & eacute;cents en mati & egrave;re d'intelligence artificielle se sont r & eacute;v & eacute;l & eacute;s prometteurs pour am & eacute;liorer la pr & eacute;cision du diagnostic dans le secteur des soins de sant & eacute;. Dans les services d'urgence, l'intelligence artificielle a d & eacute;montr & eacute; son potentiel pour am & eacute;liorer le triage, guider le choix de l'imagerie radiologique et r & eacute;diger des notes m & eacute;dicales individualis & eacute;es et des r & eacute;sum & eacute;s de sortie, y compris des plans de soins adapt & eacute;s. Les progr & egrave;s de l'intelligence artificielle g & eacute;n & eacute;rative ont conduit au d & eacute;veloppement de mod & egrave;les sophistiqu & eacute;s tels que le GPT-4 d'OpenAI. Cette & eacute;tude a & eacute;valu & eacute; la capacit & eacute; de l'intelligence artificielle g & eacute;n & eacute;rative dans le diagnostic et la gestion en m & eacute;decine d'urgence. Plus pr & eacute;cis & eacute;ment, nous avons compar & eacute; le GPT-4 avec le rendement des stagiaires en m & eacute;decine d'urgence au Canada, tel que mesur & eacute; par l'examen canadien de formation.M & eacute;thodesNous avons compar & eacute; le rendement des r & eacute;sidents en m & eacute;decine d'urgence & agrave; celui du GPT-4 pour les examens canadiens en formation de 2021 et 2022. Chaque question a & eacute;t & eacute; saisie dans une nouvelle conversation GPT-4 et la premi & egrave;re r & eacute;ponse a & eacute;t & eacute; enregistr & eacute;e sans aucune indication. Les r & eacute;ponses du GPT-4 ont ensuite & eacute;t & eacute; & eacute;valu & eacute;es & agrave; l'aide de la m & ecirc;me grille de notation que celle utilis & eacute;e pour & eacute;valuer les stagiaires en m & eacute;decine. Nous avons ensuite compar & eacute; les scores GPT-4 & agrave; la moyenne des scores de chaque niveau d'ann & eacute;e postdoctorale (PGY) des r & eacute;sidents dans tous les programmes de formation du FRCPC. L'approbation & eacute;thique a & eacute;t & eacute; obtenue, puis le comit & eacute; d'examen canadien en formation a fourni les questions d'examen et les r & eacute;sultats nationaux anonymis & eacute;s.R & eacute;sultatsLes participants & agrave; cette & eacute;tude comprenaient 389 r & eacute;sidents en 2021 et 333 r & eacute;sidents dans les examens de 2022. En 2021, les notes moyennes des stagiaires ont augment & eacute; progressivement & agrave; tous les niveaux : PGY1 a obtenu une note de 48,0 % (DS 15,6), PGY2 une note de 56,2 % (DS 14,7), PGY3 une note de 59,8 % (DS 16,7), PGY4 une note de 67,2 % (12,3) et PGY5 une note de 70,1 % (DS 12,5), tandis que GPT-4 a obtenu une note de 88,7 %. En 2022, une tendance semblable a & eacute;t & eacute; observ & eacute;e : PGY1 a obtenu une note de 46,3 % (SD 14,7), PGY2 de 51,8 % (SD 14,7), PGY3 de 58,2 % (SD 14,3), PGY4 de 66,2 % (SD 15,3) et PGY5 de 64,3 % (SD 8,5), tandis que GPT-4 a obtenu une note de 82,0 %.ConclusionsLe GPT-4 a d & eacute;montr & eacute; des capacit & eacute;s impressionnantes, surpassant les performances des stagiaires en m & eacute;decine & agrave; diff & eacute;rents niveaux de troisi & egrave;me cycle dans l'examen clinique & eacute;crit. Ces r & eacute;sultats mettent en & eacute;vidence le potentiel de l'intelligence artificielle pour servir d'outil de soutien pr & eacute;cieux dans la pratique m & eacute;dicale. Toutefois, il doit & eci

引用

页数：5

共 9 条

[1] ChatGPT-4 Assistance in Optimizing Emergency Department Radiology Referrals and Imaging Selection [J].