Viés de amostragem em análises filogeográficas
Visualizar/abrir
Data
2024Autor
Orientador
Nível acadêmico
Graduação
Assunto
Resumo
Análises filogeográficas combinam dados de sequências genéticas, locais geográficos e datas de amostragem. Por meio dessas análises, é possível estimar a migração do vírus entre diferentes locais geográficos e reconstruir o processo espacial de dispersão do vírus. Com a filogeografia bayesiana, é possível realizar estudos sobre a dispersão viral e, através de um modelo estocástico, mapear a propagação dos vírus analisados. É importante destacar que esses modelos filogeográficos bayesianos são m ...
Análises filogeográficas combinam dados de sequências genéticas, locais geográficos e datas de amostragem. Por meio dessas análises, é possível estimar a migração do vírus entre diferentes locais geográficos e reconstruir o processo espacial de dispersão do vírus. Com a filogeografia bayesiana, é possível realizar estudos sobre a dispersão viral e, através de um modelo estocástico, mapear a propagação dos vírus analisados. É importante destacar que esses modelos filogeográficos bayesianos são muito afetados por vieses de amostragem decorrentes de fatores que não estão relacionados ao processo de dispersão, como heterogeneidades espaciais e temporais devido à escassez de recursos nas localidades para o sequenciamento do vírus. Um exemplo de viés amostral está relacionado a amostras não coletadas de maneira fiel à verdadeira prevalência das localizações. Esta pesquisa visa estudar as análises filogeográficas, o que ocorre com a estimação dos parâmetros quando a amostra aleatória possui um viés amostral e a mensuração dos efeitos desse viés amostral. Para isso, utilizaremos um modelo de cadeias de Markov na árvore filogenética, simulando cenários com e sem viés amostral. Utilizaremos o método Bias-correcting Subsampling Trait Model (BSTM) com o objetivo de corrigir o viés amostral, ponderando as subamostras com base em informações externas relacionadas às verdadeiras frequências populacionais e sem o descarte de dados. Compararemos os métodos de estimação por máxima verossimilhança, inferência bayesiana através do algoritmo MCMC, considerando o modelo simples de cadeia de Markov e inferência bayesiana através do método com Bayesian Stochastic Search Variable Selection (BSSVS). Observou-se para os diferentes cenários simulados indícios que o método BSTM é vantajoso para corrigir vieses amostrais na estimação dos parâmetros da matriz de taxas para muitos dos cenários de simulação considerados, principalmente nos métodos Bayesianos. ...
Abstract
Phylogeographic analyses combine data from genetic sequences, geographical locations, and sampling dates. Through these analyses, it is possible to estimate the migration of the virus between different geographical locations and reconstruct the spatial process of virus dispersal. With Bayesian phylogeography, it is possible to conduct studies on viral dispersions and, through a stochastic model, map the propagation of the viruses. It is important to highlight that these Bayesian phylogeographic ...
Phylogeographic analyses combine data from genetic sequences, geographical locations, and sampling dates. Through these analyses, it is possible to estimate the migration of the virus between different geographical locations and reconstruct the spatial process of virus dispersal. With Bayesian phylogeography, it is possible to conduct studies on viral dispersions and, through a stochastic model, map the propagation of the viruses. It is important to highlight that these Bayesian phylogeographic models are significantly affected by sampling biases arising from factors unrelated to the dispersal process, such as spatial and temporal heterogeneities due to the scarcity of resources in localities for virus sequencing. An example of sampling bias is related to samples not being collected in a manner faithful to the true prevalence of the locations. This research aims to study phylogeographic analyses, what happens to parameter estimation when the random sample has sampling bias, and measure of the effects of this sampling bias. For this purpose, we use a Markov chain model on the phylogenetic tree, simulating scenarios with and without sampling bias. We use the Bias-correcting Subsampling Trait Model (BSTM) to correct the sampling bias by subsampling and weighting samples based on external information related to true population frequencies, without discarding any data. We compare the methods of maximum likelihood estimation, Bayesian inference through the MCMC algorithm, considering the simple Markov chain model and the model with Bayesian Stochastic Search Variable Selection (BSSVS). Showd evidence of being advantageous for correcting sampling biases in the estimation of the rate matrix parameters for many of the simulation scenarios considered, especially for the Bayesian methods. ...
Instituição
Universidade Federal do Rio Grande do Sul. Instituto de Matemática e Estatística. Curso de Estatística: Bacharelado.
Coleções
-
TCC Estatística (295)
Este item está licenciado na Creative Commons License