Mostrar registro simples

dc.contributor.advisorBarbian, Márcia Helenapt_BR
dc.contributor.authorUtpott, Gustavo Machadopt_BR
dc.date.accessioned2023-05-24T03:27:36Zpt_BR
dc.date.issued2022pt_BR
dc.identifier.urihttp://hdl.handle.net/10183/258439pt_BR
dc.description.abstractCom a evolução da tecnologia na área da comunicação, quantidades enormes de textos têm sido escritas e compartilhadas em diversas plataformas ao longo da internet, levando a uma demanda crescente de algoritmos de Processamento de Linguagem Natural (NLP). Os objetivos das análises são diversos e buscam desde a identificação de spams, tradução ou classificação de textos a análise de sentimentos. Dentre esses temas, descobrir tópicos de documentos de textos que não possuem uma classificação prévia tornam-se cada dia mais comuns, tais métodos, denominados Modelos de Tópicos são definidos como uma classe de algoritmos de Aprendizado não Supervisionado. Especificamente, documentos que possuem uma quantidade limitada de caracteres, os textos curtos, necessitam de metodologias diferentes daquelas comumente aplicadas, como o conhecido algoritmo Latent Dirichlet Allocation (LDA). O presente trabalho visa aplicar uma dessas técnicas, o Biterm Topic Modeling (BTM), em uma base de dados composta por descrições de diferentes mercadorias para que, após o agrupamento, seja possível selecionar os tópicos com mais semelhança a um dado produto de interessse. Além da aplicação do BTM à base, será proposto um algoritmo para substuição de abreviações contidas nos documentos a serem analisados.pt_BR
dc.description.abstractWith the evolution of technology in the field of communication, huge quantities of text are being written and shared in a lot of platforms across the internet, leading to an increasing demand for Natural Language Processing (NLP) techniques. The goals of the analysis are plenty and go from spam identification, text translation and classification to sentiment analysis. Among those themes, uncovering topics in text that doesn’t have any kind of previous classification has become more common. Those methods are named Topic Modeling and are defined as an Unsupervised Learning class of algorithms. Specifically, documents that have a limited amount of characters, short texts, need different methods to those commonly applied, such as the famous Latent Dirichlet Allocation (LDA). This work aims to apply one of these techniques which is called Biterm Topic Modeling (BTM), in a database made of different merchandise to, after the clustering, be able to select the most similar topics to a given product of interest. Besides the application of BTM to the data, an algorithm will be proposed to replace the abbreviations contained on the document being analysed.en
dc.format.mimetypeapplication/pdfpt_BR
dc.language.isoporpt_BR
dc.rightsOpen Accessen
dc.subjectUnsupervised learningen
dc.subjectAprendizado não supervisionadopt_BR
dc.subjectTopic modelingen
dc.subjectProcessamento de linguagem naturalpt_BR
dc.subjectNatural language processingen
dc.subjectShort textsen
dc.subjectBiterm topic modelingen
dc.titleAprendizado não-supervisionado para textos curtospt_BR
dc.typeTrabalho de conclusão de graduaçãopt_BR
dc.identifier.nrb001143691pt_BR
dc.degree.grantorUniversidade Federal do Rio Grande do Sulpt_BR
dc.degree.departmentInstituto de Matemática e Estatísticapt_BR
dc.degree.localPorto Alegre, BR-RSpt_BR
dc.degree.date2022pt_BR
dc.degree.graduationEstatística: Bachareladopt_BR
dc.degree.levelgraduaçãopt_BR


Thumbnail
   

Este item está licenciado na Creative Commons License

Mostrar registro simples