Assessment of left-censored data treatment methods using stochastic simulation

ABSTRACT The paper evaluates the influence of size series, percentage of censored data, and coefficients of variation used to generate synthetic series on the estimation of means, standard deviations, coefficients of variation, and medians in series with censored data. Seven techniques were applied...

Full description

Saved in:
Bibliographic Details
Published in:Revista brasileira de recursos hídricos Vol. 28
Main Authors: Silva, Fábio Henrique Rodrigues da, Pinto, Éber José de Andrade
Format: Journal Article
Language:English
Published: Associação Brasileira de Recursos Hídricos 01-01-2023
Subjects:
Online Access:Get full text
Tags: Add Tag
No Tags, Be the first to tag this record!
Description
Summary:ABSTRACT The paper evaluates the influence of size series, percentage of censored data, and coefficients of variation used to generate synthetic series on the estimation of means, standard deviations, coefficients of variation, and medians in series with censored data. Seven techniques were applied to treat censored data in synthetic series with 180 scenarios (four size series, nine censoring percentages and five coefficients of variation): values proportional to the DL: zero, DL/2, DL/20.5 and DL - and parametric (MLE), robust (ROS) and Kaplan-Meier methods. Predictions were analyzed with four performance metrics (MPE, MAPE, KGE, and RMSE). It is found that the percentage of censored data and the coefficient of variation significantly alter forecast quality. It is also found that substitution by DL/2, by DL/20.5 and ROS are the most appropriate techniques for estimating the variables described, emphasizing ROS when estimating parametric variables and substitution by DL/20.5 for medians. RESUMO O artigo avalia a influência do tamanho das séries, do percentual de dados censurados e dos coeficientes de variação utilizados para gerar séries sintéticas na estimativa de médias, desvios-padrão, coeficientes de variação e medianas em séries com dados censurados. Foram aplicadas sete técnicas de tratamento de dados censurados em séries sintéticas em 180 cenários (quatro tamanhos de séries, nove percentuais de censura e cinco coeficientes de variação): valores proporcionais ao DL: zero, DL/2, DL/20.5 e DL - e métodos paramétrico (MLE), robustos (ROS) e Kaplan-Meier. As previsões foram analisadas com quatro métricas de desempenho (MPE, MAPE, KGE e RMSE). Verificou-se que o percentual de dados censurados e o coeficiente de variação alteram significativamente a qualidade das previsões. Verificou-se também que a substituição por DL/2, por DL/20.5 e ROS são as técnicas mais adequadas para estimar as variáveis descritas, destacando-se a ROS para estimar variáveis paramétricas e a substituição por DL/20.5 para medianas.
ISSN:1414-381X
2318-0331
2318-0331
DOI:10.1590/2318-0331.282320230087