Sample-Size Determination Methodologies for Machine Learning in Medical Imaging Research: A Systematic Review
The required training sample size for a particular machine learning (ML) model applied to medical imaging data is often unknown. The purpose of this study was to provide a descriptive review of current sample-size determination methodologies in ML applied to medical imaging and to propose recommenda...
Saved in:
Published in: | Canadian Association of Radiologists journal Vol. 70; no. 4; pp. 344 - 353 |
---|---|
Main Authors: | , , , , , , , , , , |
Format: | Journal Article |
Language: | English |
Published: |
Los Angeles, CA
Elsevier Inc
01-11-2019
SAGE Publications SAGE PUBLICATIONS, INC |
Subjects: | |
Online Access: | Get full text |
Tags: |
Add Tag
No Tags, Be the first to tag this record!
|
Summary: | The required training sample size for a particular machine learning (ML) model applied to medical imaging data is often unknown. The purpose of this study was to provide a descriptive review of current sample-size determination methodologies in ML applied to medical imaging and to propose recommendations for future work in the field.
We conducted a systematic literature search of articles using Medline and Embase with keywords including “machine learning,” “image,” and “sample size.” The search included articles published between 1946 and 2018. Data regarding the ML task, sample size, and train-test pipeline were collected.
A total of 167 articles were identified, of which 22 were included for qualitative analysis. There were only 4 studies that discussed sample-size determination methodologies, and 18 that tested the effect of sample size on model performance as part of an exploratory analysis. The observed methods could be categorized as pre hoc model-based approaches, which relied on features of the algorithm, or post hoc curve-fitting approaches requiring empirical testing to model and extrapolate algorithm performance as a function of sample size. Between studies, we observed great variability in performance testing procedures used for curve-fitting, model assessment methods, and reporting of confidence in sample sizes.
Our study highlights the scarcity of research in training set size determination methodologies applied to ML in medical imaging, emphasizes the need to standardize current reporting practices, and guides future work in development and streamlining of pre hoc and post hoc sample size approaches.
On ignore souvent la taille de l’échantillon d'apprentissage nécessaire pour un modèle d'apprentissage artificiel en particulier, appliqué à des données d'imagerie médicale. L'objectif de cette étude était d’établir une synthèse descriptive des méthodologies actuelles visant à déterminer les tailles d’échantillon en apprentissage artificiel appliqué à l'imagerie médicale et de proposer des recommandations pour la réalisation des futurs travaux dans ce domaine.
Nous avons effectué une recherche systématique de documentation scientifique des articles disponibles dans les bases de données Medline et Embase, en utilisant notamment les mots clés suivants : « apprentissage artificiel », « image » et « taille d’échantillon ». Cette recherche portait sur des articles publiés entre 1946 et 2018. Les données associées aux activités d'apprentissage artificiel, aux tailles d’échantillon et aux systèmes de test-apprentissage ont été recueillies.
Au total, 167 articles ont été identifiés, dont 22 ont été sélectionnés pour faire l'objet d'une analyse qualitative. Seulement 4 études abordaient les méthodologies de détermination de taille d’échantillon et 18 évaluaient l'impact de la taille d’échantillon sur l'efficacité du modèle, au sein d'une analyse exploratoire. Les méthodes observées pouvaient être classées en deux catégories: les méthodes basées sur un modèle a priori (pre hoc) fondées sur les propriétés de l'algorithme et les méthodes d'ajustement de courbe a posteriori (post hoc) nécessitant des analyses empiriques du modèle et l'extrapolation des performances de l'algorithme en tant que fonction de la taille d’échantillon. Nous avons observé une forte variabilité entre les études au niveau de l'efficacité des procédures d'analyse utilisées pour les méthodes d’évaluation des modèles d'ajustement de courbe et de la confiance relative à la taille de l’échantillon.
Notre étude met en évidence la rareté des études comportant des méthodologies de détermination de taille d’échantillon pour l'apprentissage artificiel appliqué à l'imagerie médicale. Elle souligne le besoin de standardiser les pratiques actuelles de communication de données et préconise les travaux ultérieurs à réaliser au niveau de la mise au point et de la simplification des démarches a priori et a posteriori de détermination de la taille d’échantillon. |
---|---|
Bibliography: | ObjectType-Article-2 SourceType-Scholarly Journals-1 ObjectType-Undefined-1 ObjectType-Feature-3 content type line 23 |
ISSN: | 0846-5371 1488-2361 |
DOI: | 10.1016/j.carj.2019.06.002 |