Uma versão aprimorada do algoritmo de projeções sucessivas para seleção de variáveis em regressão linear múltipla
dc.contributor.advisor | Gomes, Adriano de Araújo | pt_BR |
dc.contributor.author | Canova, Luciana dos Santos | pt_BR |
dc.date.accessioned | 2024-03-22T05:07:05Z | pt_BR |
dc.date.issued | 2023 | pt_BR |
dc.identifier.uri | http://hdl.handle.net/10183/274079 | pt_BR |
dc.description.abstract | O algoritmo de Projeções Sucessivas (APS), também conhecido em inglês como SPA, foi desenvolvido com o propósito de selecionar um subconjunto de variáveis informativas e minimamente redundantes para a construção de modelos de regressões lineares múltiplas (MLR). Esse método visa minimizar o impacto da multicolinearidade, que é comumente presente em dados instrumentais, ao mesmo tempo em que alcança uma melhor acurácia na previsão. A combinação do APS com o MLR, como uma abordagem de seleção variável/calibração multivariada, resultou no método APS-MLR, o qual tem sido relatado na literatura como capaz de produzir modelos com boa capacidade de previsão em comparação com os modelos convencionais de "espectro completo" via mínimos quadrados parciais (PLS), em alguns casos. Neste trabalho, é proposta a adição de uma etapa de filtro (f) à versão atual do algoritmo APS, a fim de reduzir o número de variáveis não informativas antes da fase de projeção. Essa adição auxilia o algoritmo na seleção das melhores variáveis nas etapas subsequentes. O algoritmo resultante, denominado de fAPS-MLR, é avaliado em dois estudos de caso que envolvem dados de espectroscopia no infravermelho próximo: (i) quantificação do ingrediente farmacêutico ativo (IFA) em comprimidos e (ii) quantificação de biodiesel em misturas diesel/biodiesel. Comparados com o método PLS, os modelos fAPS-MLR demonstram desempenho semelhante ou superior. Além disso, os modelos fAPS-MLR superam o APS-MLR original tanto na validação cruzada quanto na previsão externa. Independentemente do algoritmo de pré-processamento testado, incluindo primeira derivada Savitzky-Golay (SG) e Standard Normal Variate (SNV), ou mesmo em dados de espectros brutos, os modelos fAPS-MLR oferecem resultados superiores. | pt_BR |
dc.description.abstract | The Successive Projection Algorithm (APS), also known in English as SPA, was developed with the purpose of selecting a subset of informative and minimally redundant variables for the construction of multiple linear regression models (MLR). This method aims to minimize the impact of multicollinearity, which is commonly present in instrumental data, while achieving better forecast accuracy. The combination of APS with MLR, as a variable selection/multivariate calibration approach, resulted in APS-MLR method, which has been reported in literature as capable of producing models with good predictive ability compared to conventional models of "full spectrum" via Partial Least Squares (PLS) in some cases. In this work, it is proposed to add a filter step (f) to the current version of APS algorithm, to reduce the number of non-informative variables before projection phase. This addition assists the algorithm in selecting the best variables in subsequent steps. The resulting algorithm, called fAPSMLR, is evaluated in two case studies involving near-infrared spectroscopy data: (i) quantification of the active pharmaceutical ingredient (IFA), also known in English as API, in tablets and (ii) quantification of biodiesel in diesel/biodiesel blends. Compared with the PLS method, fAPS-MLR models demonstrate similar or superior performance. Furthermore, fAPS-MLR models outperform the original APS-MLR in both crossvalidation and external prediction. Regardless of the tested pre-processing algorithm, including Savitzky-Golay (SG) First Derivative and Standard Normal Variate (SNV), or even on raw spectral data, fAPS-MLR models deliver superior results. | en |
dc.format.mimetype | application/pdf | pt_BR |
dc.language.iso | por | pt_BR |
dc.rights | Open Access | en |
dc.subject | Variable selection | en |
dc.subject | Seleção de variáveis | pt_BR |
dc.subject | Regressão linear múltipla | pt_BR |
dc.subject | Successive projections algorithm | en |
dc.subject | Regressão por mínimos quadrados parciais (PLS) | pt_BR |
dc.subject | Multilinear regression | en |
dc.subject | Espectrometria no infravermelho | pt_BR |
dc.subject | Partial least squares, NIR spectrometry | en |
dc.title | Uma versão aprimorada do algoritmo de projeções sucessivas para seleção de variáveis em regressão linear múltipla | pt_BR |
dc.type | Dissertação | pt_BR |
dc.identifier.nrb | 001195497 | pt_BR |
dc.degree.grantor | Universidade Federal do Rio Grande do Sul | pt_BR |
dc.degree.department | Instituto de Química | pt_BR |
dc.degree.program | Programa de Pós-Graduação em Química | pt_BR |
dc.degree.local | Porto Alegre, BR-RS | pt_BR |
dc.degree.date | 2023 | pt_BR |
dc.degree.level | mestrado | pt_BR |
Este item está licenciado na Creative Commons License
-
Ciências Exatas e da Terra (5141)Química (898)