ChatGPT performance on radiation technologist and therapist entry to practice exams

The aim of this study was to describe the proficiency of ChatGPT (GPT-4) on certification style exams from the Canadian Association of Medical Radiation Technologists (CAMRT), and describe its performance across multiple exam attempts. ChatGPT was prompted with questions from CAMRT practice exams in...

Full description

Saved in:
Bibliographic Details
Published in:Journal of medical imaging and radiation sciences Vol. 55; no. 4; p. 101426
Main Authors: Duggan, Ryan, Tsuruda, Kaitlyn M.
Format: Journal Article
Language:English
Published: United States Elsevier Inc 01-12-2024
Subjects:
Online Access:Get full text
Tags: Add Tag
No Tags, Be the first to tag this record!
Description
Summary:The aim of this study was to describe the proficiency of ChatGPT (GPT-4) on certification style exams from the Canadian Association of Medical Radiation Technologists (CAMRT), and describe its performance across multiple exam attempts. ChatGPT was prompted with questions from CAMRT practice exams in the disciplines of radiological technology, magnetic resonance (MRI), nuclear medicine and radiation therapy (87-98 questions each). ChatGPT attempted each exam five times. Exam performance was evaluated using descriptive statistics, stratified by discipline and question type (knowledge, application, critical thinking). Light's Kappa was used to assess agreement in answers across attempts. Using a passing grade of 65 %, ChatGPT passed the radiological technology exam only once (20 %), MRI all five times (100 %), nuclear medicine three times (60 %), and radiation therapy all five times (100 %). ChatGPT's performance was best on knowledge questions across all disciplines except radiation therapy. It performed worst on critical thinking questions. Agreement in ChatGPT's responses across attempts was substantial within the disciplines of radiological technology, MRI, and nuclear medicine, and almost perfect for radiation therapy. ChatGPT (GPT-4) was able to pass certification style exams for radiation technologists and therapists, but its performance varied between disciplines. The algorithm demonstrated substantial to almost perfect agreement in the responses it provided across multiple exam attempts. Future research evaluating ChatGPT's performance on standardized tests should consider using repeated measures. L'objectif de cette étude était de décrire la compétence du ChatGPT (GPT-4) dans les examens d'agrément de l'Association canadienne des technologues en radiation médicale (ACTRM), et de décrire sa performance à travers plusieurs tentatives d'examen. ChatGPT a été invité à répondre à des questions provenant des examens pratiques de l'ACTRM dans les disciplines de la technologie de radiologie, de la résonance magnétique (IRM), de la médecine nucléaire et de la radiothérapie (87-98 questions pour chaque discipline). ChatGPT a tenté chaque examen cinq fois. La performance à l'examen a été évaluée à l'aide de statistiques descriptives, stratifiées par discipline et par type de question (connaissances, application, réflexion critique). Le Kappa de Light a été utilisé pour évaluer la concordance des réponses entre les tentatives. En utilisant une note de passage de 65 %, ChatGPT a réussi l'examen de technologie de radiologie une seule fois (20 %), l'IRM les cinq fois (100 %), la médecine nucléaire trois fois (60 %), et la radiothérapie les cinq fois (100 %). Les performances de ChatGPT ont été les meilleures pour les questions de connaissances dans toutes les disciplines, à l'exception de la radiothérapie. Il a été le moins performant pour les questions de réflexion critique. La concordance des réponses du ChatGPT entre les tentatives était substantielle dans les disciplines de la technologie de radiologie, de l'IRM et de la médecine nucléaire, et presque parfaite pour la radiothérapie. ChatGPT (GPT-4) a été capable de réussir les examens d'agrément pour les technologues en radiation médicale et les radiothérapeutes, mais ses performances ont varié selon les disciplines. L'algorithme a démontré une concordance substantielle à presque parfaite dans les réponses qu'il a fournies à travers de multiples tentatives d'examen. Les futures recherches évaluant les performances de ChatGPT sur des tests standardisés devraient envisager l'utilisation de mesures répétées.
Bibliography:ObjectType-Article-1
SourceType-Scholarly Journals-1
ObjectType-Feature-2
content type line 23
ISSN:1939-8654
1876-7982
1876-7982
DOI:10.1016/j.jmir.2024.04.019