Mostrar registro simples

dc.contributor.advisorFlores, João Henrique Ferreirapt_BR
dc.contributor.authorGrams, Demian Bitencorte Oliveirapt_BR
dc.date.accessioned2024-10-26T06:56:32Zpt_BR
dc.date.issued2024pt_BR
dc.identifier.urihttp://hdl.handle.net/10183/280568pt_BR
dc.description.abstractA estatística tem como objeto central de estudo dados provenientes de eventos estocásticos, ou seja, de situações que envolvem incerteza ou aleatoriedade. Um tópico importante na área são os dados categóricos, onde, na prática, não é raro depararmonos com casos nos quais os eventos de interesse ocorrem com pouca frequência. Como exemplo, fraudes em cartão de crédito, diagnóstico de doenças raras e detecção de spam. Nestas situações ocorre o chamado problema de dados desbalanceados, que culminou no compo de imbalanced learning. O presente trabalho investiga o uso dos modelos de regressão logística e Support Vector Machines (SVMs) para fins de classificação em dados com classes desbalanceadas, em especial, no que diz respeito aos métodos de reamostragem quando utilizados no treinamento dos modelos, como forma de correção do desbalanceamento entre classes, e seu impacto na qualidade do ajuste, performance preditiva e calibração. Em particular, abordaremos estratégias de sobreamostragem, sendo elas a Synthetic Minority Oversampling Technique (SMOTE), Borderline-SMOTE1, a estratégia Adaptive Synthetic (ADASYN) e o próprio método de Random Oversampling (ROS), bem como as estratégias de subamostragem como Random Undersampling (RUS), Cluster Centroids e Edited Nearest Neighbours (ENN). Para avaliar o desempenho preditivo dos modelos optamos por utilizar como métricas a área sob a curva característica de operação do receptor (ROC AUC), score de Brier, precisão, recall e o F1 score. Parte do trabalho preocupa-se com a calibração dos modelos, que será avaliada por meio de gráficos de calibração e o score de Brier.pt_BR
dc.description.abstractStatistics has as its main subject of study data derived from stochastic events, meaning situations involving uncertainty or randomness. An important topic in the field is categorical data, where it is not uncommon to encounter cases in which the events of interest occur infrequently. Examples include credit card fraud, the diagnosis of rare diseases, and spam detection. In these situations, the so-called problem of imbalanced data arises, which has led to the development of the field known as imbalanced learning. This study investigates the use of logistic regression models and Support Vector Machines (SVMs) for classification in datasets with imbalanced classes, particularly regarding the use of resampling methods as a data-level solution for class imbalance correction, and their impact on model fit, predictive performance, and calibration. Specifically, we will discuss oversampling strategies such as the Synthetic Minority Oversampling Technique (SMOTE), Borderline-SMOTE, the Adaptive Synthetic (ADASYN) sampling strategy, and Random Oversampling (ROS), as well as undersampling strategies such as Random Undersampling (RUS), Cluster Centroids, and Edited Nearest Neighbours (ENN). To evaluate the predictive performance of the models, we chose as metrics the area under the Receiver Operating Characteristic Curve (ROC AUC), Brier score, precision, recall, and the F1 score. Part of the study focuses on model calibration, which will be assessed through calibration plots and the Brier score.en
dc.format.mimetypeapplication/pdfpt_BR
dc.language.isoporpt_BR
dc.rightsOpen Accessen
dc.subjectAprendizagem supervisionadapt_BR
dc.subjectCalibrationen
dc.subjectCalibraçãopt_BR
dc.subjectClassificationen
dc.subjectClassificaçãopt_BR
dc.subjectImbalanced dataen
dc.subjectResamplingen
dc.subjectSupervised learningen
dc.titleUso de estratégias de reamostragem para correção de desbalanceamento entre classes em modelos de classificaçãopt_BR
dc.typeTrabalho de conclusão de graduaçãopt_BR
dc.identifier.nrb001212600pt_BR
dc.degree.grantorUniversidade Federal do Rio Grande do Sulpt_BR
dc.degree.departmentInstituto de Matemática e Estatísticapt_BR
dc.degree.localPorto Alegre, BR-RSpt_BR
dc.degree.date2024pt_BR
dc.degree.graduationEstatística: Bachareladopt_BR
dc.degree.levelgraduaçãopt_BR


Thumbnail
   

Este item está licenciado na Creative Commons License

Mostrar registro simples