Uso de estratégias de reamostragem para correção de desbalanceamento entre classes em modelos de classificação

Grams, Demian Bitencorte Oliveira

Visualizar/abrir

Texto completo (3.297Mb)

Data

2024

Autor

Grams, Demian Bitencorte Oliveira

Orientador

Flores, João Henrique Ferreira

Nível acadêmico

Graduação

Resumo

A estatística tem como objeto central de estudo dados provenientes de eventos estocásticos, ou seja, de situações que envolvem incerteza ou aleatoriedade. Um tópico importante na área são os dados categóricos, onde, na prática, não é raro depararmonos com casos nos quais os eventos de interesse ocorrem com pouca frequência. Como exemplo, fraudes em cartão de crédito, diagnóstico de doenças raras e detecção de spam. Nestas situações ocorre o chamado problema de dados desbalanceados, que culminou no compo de imbalanced learning. O presente trabalho investiga o uso dos modelos de regressão logística e Support Vector Machines (SVMs) para fins de classificação em dados com classes desbalanceadas, em especial, no que diz respeito aos métodos de reamostragem quando utilizados no treinamento dos modelos, como forma de correção do desbalanceamento entre classes, e seu impacto na qualidade do ajuste, performance preditiva e calibração. Em particular, abordaremos estratégias de sobreamostragem, sendo elas a Synthetic Minority Oversampling Technique (SMOTE), Borderline-SMOTE1, a estratégia Adaptive Synthetic (ADASYN) e o próprio método de Random Oversampling (ROS), bem como as estratégias de subamostragem como Random Undersampling (RUS), Cluster Centroids e Edited Nearest Neighbours (ENN). Para avaliar o desempenho preditivo dos modelos optamos por utilizar como métricas a área sob a curva característica de operação do receptor (ROC AUC), score de Brier, precisão, recall e o F1 score. Parte do trabalho preocupa-se com a calibração dos modelos, que será avaliada por meio de gráficos de calibração e o score de Brier. ...

Abstract

Statistics has as its main subject of study data derived from stochastic events, meaning situations involving uncertainty or randomness. An important topic in the field is categorical data, where it is not uncommon to encounter cases in which the events of interest occur infrequently. Examples include credit card fraud, the diagnosis of rare diseases, and spam detection. In these situations, the so-called problem of imbalanced data arises, which has led to the development of the field known as imbalanced learning. This study investigates the use of logistic regression models and Support Vector Machines (SVMs) for classification in datasets with imbalanced classes, particularly regarding the use of resampling methods as a data-level solution for class imbalance correction, and their impact on model fit, predictive performance, and calibration. Specifically, we will discuss oversampling strategies such as the Synthetic Minority Oversampling Technique (SMOTE), Borderline-SMOTE, the Adaptive Synthetic (ADASYN) sampling strategy, and Random Oversampling (ROS), as well as undersampling strategies such as Random Undersampling (RUS), Cluster Centroids, and Edited Nearest Neighbours (ENN). To evaluate the predictive performance of the models, we chose as metrics the area under the Receiver Operating Characteristic Curve (ROC AUC), Brier score, precision, recall, and the F1 score. Part of the study focuses on model calibration, which will be assessed through calibration plots and the Brier score. ...

Instituição

Universidade Federal do Rio Grande do Sul. Instituto de Matemática e Estatística. Curso de Estatística: Bacharelado.

Coleções

Trabalhos de Conclusão de Curso de Graduação (38551)

TCC Estatística (296)

Outras opções

Mostrar todos os metadados

Estatísticas

Este item está licenciado na Creative Commons License