Uso de estratégias de reamostragem para correção de desbalanceamento entre classes em modelos de classificação

Grams, Demian Bitencorte Oliveira

dc.contributor.advisor	Flores, João Henrique Ferreira	pt_BR
dc.contributor.author	Grams, Demian Bitencorte Oliveira	pt_BR
dc.date.accessioned	2024-10-26T06:56:32Z	pt_BR
dc.date.issued	2024	pt_BR
dc.identifier.uri	http://hdl.handle.net/10183/280568	pt_BR
dc.description.abstract	A estatística tem como objeto central de estudo dados provenientes de eventos estocásticos, ou seja, de situações que envolvem incerteza ou aleatoriedade. Um tópico importante na área são os dados categóricos, onde, na prática, não é raro depararmonos com casos nos quais os eventos de interesse ocorrem com pouca frequência. Como exemplo, fraudes em cartão de crédito, diagnóstico de doenças raras e detecção de spam. Nestas situações ocorre o chamado problema de dados desbalanceados, que culminou no compo de imbalanced learning. O presente trabalho investiga o uso dos modelos de regressão logística e Support Vector Machines (SVMs) para fins de classificação em dados com classes desbalanceadas, em especial, no que diz respeito aos métodos de reamostragem quando utilizados no treinamento dos modelos, como forma de correção do desbalanceamento entre classes, e seu impacto na qualidade do ajuste, performance preditiva e calibração. Em particular, abordaremos estratégias de sobreamostragem, sendo elas a Synthetic Minority Oversampling Technique (SMOTE), Borderline-SMOTE1, a estratégia Adaptive Synthetic (ADASYN) e o próprio método de Random Oversampling (ROS), bem como as estratégias de subamostragem como Random Undersampling (RUS), Cluster Centroids e Edited Nearest Neighbours (ENN). Para avaliar o desempenho preditivo dos modelos optamos por utilizar como métricas a área sob a curva característica de operação do receptor (ROC AUC), score de Brier, precisão, recall e o F1 score. Parte do trabalho preocupa-se com a calibração dos modelos, que será avaliada por meio de gráficos de calibração e o score de Brier.	pt_BR
dc.description.abstract	Statistics has as its main subject of study data derived from stochastic events, meaning situations involving uncertainty or randomness. An important topic in the field is categorical data, where it is not uncommon to encounter cases in which the events of interest occur infrequently. Examples include credit card fraud, the diagnosis of rare diseases, and spam detection. In these situations, the so-called problem of imbalanced data arises, which has led to the development of the field known as imbalanced learning. This study investigates the use of logistic regression models and Support Vector Machines (SVMs) for classification in datasets with imbalanced classes, particularly regarding the use of resampling methods as a data-level solution for class imbalance correction, and their impact on model fit, predictive performance, and calibration. Specifically, we will discuss oversampling strategies such as the Synthetic Minority Oversampling Technique (SMOTE), Borderline-SMOTE, the Adaptive Synthetic (ADASYN) sampling strategy, and Random Oversampling (ROS), as well as undersampling strategies such as Random Undersampling (RUS), Cluster Centroids, and Edited Nearest Neighbours (ENN). To evaluate the predictive performance of the models, we chose as metrics the area under the Receiver Operating Characteristic Curve (ROC AUC), Brier score, precision, recall, and the F1 score. Part of the study focuses on model calibration, which will be assessed through calibration plots and the Brier score.	en
dc.format.mimetype	application/pdf	pt_BR
dc.language.iso	por	pt_BR
dc.rights	Open Access	en
dc.subject	Aprendizagem supervisionada	pt_BR
dc.subject	Calibration	en
dc.subject	Calibração	pt_BR
dc.subject	Classification	en
dc.subject	Classificação	pt_BR
dc.subject	Imbalanced data	en
dc.subject	Resampling	en
dc.subject	Supervised learning	en
dc.title	Uso de estratégias de reamostragem para correção de desbalanceamento entre classes em modelos de classificação	pt_BR
dc.type	Trabalho de conclusão de graduação	pt_BR
dc.identifier.nrb	001212600	pt_BR
dc.degree.grantor	Universidade Federal do Rio Grande do Sul	pt_BR
dc.degree.department	Instituto de Matemática e Estatística	pt_BR
dc.degree.local	Porto Alegre, BR-RS	pt_BR
dc.degree.date	2024	pt_BR
dc.degree.graduation	Estatística: Bacharelado	pt_BR
dc.degree.level	graduação	pt_BR

Nome:: 001212600.pdf
Tamanho:: 3.297Mb
Formato:: PDF
Descrição:: Texto completo

Visualizar/abrir

Este item está licenciado na Creative Commons License

Trabalhos de Conclusão de Curso de Graduação (38551)

TCC Estatística (296)

Mostrar registro simples