Abordagens de machine learning para análise de dados multiômicos de câncer de pulmão

Desde o Projeto Genoma Humano até hoje, a tecnologia e a capacidade computacional de processamento de dados biológicos se desenvolveu, possibilitando o processamento e facilitando o compartilhamento de uma grande quantidade de dados. Além do citado, as tecnologias de sequenciamento de DNA evoluíram e melhoram sua eficiência, e, como consequência, os custos foram reduzidos. Tendo isso em vista, ocorreu a necessidade de novos métodos cada vez mais eficientes para obtenção de dados biológicos e ferramentas para analisar as informações, agora abundantes. Deste modo, diversos conjuntos de dados biológicos estão disponíveis publicamente, podendo ser analisados por por múltiplos pesquisadores e diferentes abordagens. O câncer de pulmão é o tipo de câncer que mais incorre em morte, sendo que seu diagnóstico ocorre nos estágios mais avançados da doença em 75% dos casos, prejudicando o prognóstico. Os métodos de diagnóstico mais utilizados também não garantem acurácia para a identificação precoce, e, por vezes, levam pacientes a exposição a radiação e métodos invasivos desnecessariamente, além de terem altos custos. O câncer é uma doença complexa, envolvendo a desregulação de moléculas a níveis genômicos, transcriptômicos, proteicos e metabolômicos. Assim, há vantagem em analisar essa patologia de forma multiômica, ou seja, integrando as ômicas a fim de obter biomarcadores que consideram a complexidade do câncer de pulmão. Os biomarcadores são moléculas ou processos biológicos que são utilizados com propósito de diagnóstico, predição de risco, estadiamento, prognóstico, predição de resposta ao tratamento, seleção de tratamento, entre outros. Assim, a finalidade da análise realizada no presente trabalho, são os biomarcadores, ou seja, as características biológicas dentre o conjunto de dados que permite a predição da classificação de uma amostra entre a condição de amostra de câncer de pulmão ou tecido normal. Nesse sentido, um conjunto de dados RNA-seq proveniente de tecidos de câncer pulmão e de tecidos saudáveis adjacentes (dados pareados do mesmo indivíduo) foi submetido ao treinamento e teste com abordagens de machine learning. Usando abordagens de machine learning (Random forest e Support Vector Machine), os dados de transcritômica (expressão gênica) e genômica (SNPs) foram analisados independentemente e ambos os resultados foram considerados, buscando identificar processos, genes e mutações - biomarcadores - para propósito de diagnóstico do câncer de pulmão. Os genes selecionados e os processos bioquímicos associados a eles, na análise realizada com os dados de expressão gênica, mostraram-se em sua maioria associados ao câncer na literatura. De outra forma, as mutações selecionadas foram identificadas como ainda bastante desconhecidas no meio científico. Apesar disso, possíveis biomarcadores destacaram-se por estarem presentes na intersecção dos resultados para ambas as análises realizadas. ...

Abstract

From the Human Genome Project until today, the technology and computational capacity for processing biological data have developed, enabling the processing and facilitating the sharing of a large amount of data. In addition to the aforementioned, DNA sequencing technologies have evolved and improved their efficiency, leading to a reduction in costs. With this in mind, there arose the need for increasingly efficient methods to obtain biological data and tools to analyze the now abundant information. In this way, various sets of biological data are publicly available, capable of being analyzed by multiple researchers using different approaches. Lung cancer is the most deadly type of cancer, with 75% of cases being diagnosed in the advanced stages of the disease, impacting prognosis. The most commonly used diagnostic methods also do not ensure accuracy for early identification and, at times, subject patients to unnecessary radiation exposure and invasive procedures, in addition to having high costs. Cancer is a complex disease involving the dysregulation of molecules at genomic, transcriptomic, proteomic, and metabolomic levels. Therefore, there is an advantage in analyzing this pathology in a multiomic way, integrating omics to obtain biomarkers that consider the complexity of lung cancer. Biomarkers are molecules or biological processes used for purposes such as diagnosis, risk prediction, staging, prognosis, prediction of treatment response, treatment selection, among others. The purpose of the analysis in this study is biomarkers, i.e., the biological characteristics within the dataset that enable the prediction of the classification of a sample as either lung cancer or normal tissue. In this regard, an RNA-seq dataset from lung cancer tissues and adjacent healthy tissues (paired data from the same individual) was subjected to training and testing using machine learning approaches. Using machine learning techniques (Random Forest and Support Vector Machine), transcriptomic (gene expression) and genomic (SNPs) data were independently analyzed, and both results were considered to identify processes, genes, and mutations - biomarkers - for lung cancer diagnosis. The selected genes and the associated biochemical processes, in the analysis using gene expression data, were mostly found to be associated with cancer in the literature. On the other hand, the selected mutations were identified as largely unknown in the scientific community. Nevertheless, potential biomarkers stood out for being present at the intersection of the results for both analyses conducted. ...

Instituição

Universidade Federal do Rio Grande do Sul. Instituto de Biociências. Curso de Biotecnologia.

Coleções

Trabalhos de Conclusão de Curso de Graduação (37607)

TCC Biotecnologia (171)

Outras opções

Mostrar todos os metadados

Estatísticas

Este item está licenciado na Creative Commons License