Comparação de arquiteturas de Word2Vec na análise de textos curtos

Cabalheiro, Tainá Ferreira

dc.contributor.advisor	Barbian, Márcia Helena	pt_BR
dc.contributor.author	Cabalheiro, Tainá Ferreira	pt_BR
dc.date.accessioned	2023-07-11T03:30:32Z	pt_BR
dc.date.issued	2023	pt_BR
dc.identifier.uri	http://hdl.handle.net/10183/261982	pt_BR
dc.description.abstract	Em função do avanço na produção e armazenamento de dados de texto, houve uma grande procura pela área de Processamento de Linguagem Natural (NLP), o que acarretou o desenvolvimento de métodos cada vez mais complexos para lidar com tarefas relativas a diversas finalidades. Entre esses métodos encontra-se o Word2Vec, um algoritmo que utiliza redes neurais para aprender representações de palavras. Ele possui duas arquiteturas de rede: o CBoW, que tem como objetivo prever a palavra central de uma sentença através das palavras ao redor, o chamado contexto, e o Skip-gram, que faz o contrário, busca prever o contexto com base na palavra central. O presente trabalho visa aplicar as duas arquiteturas associadas ao Word2Vec a fim de obter representações word embeddings de palavras contidas em descrições de produtos de notas fiscais eletrônicas. Este dado é não estruturado, com tamanho máximo de 120 caracteres, possuindo vários desafios associados à análise de textos curtos além do vocabulário bastante específico das descrições. Foram ajustados alguns modelos para bancos de dados vinculados a dois produtos: leite e carne. Foram comparados ajustes considerando a repetição ou não dos documentos, o mínimo de vezes que as palavras aparecem no corpus e diferentes tamanhos de janela de contexto.	pt_BR
dc.description.abstract	Due to the advances in the production and storage of text data, there was a great demand for the area of Natural Language Processing (NLP), which led to the development of increasingly complex methods to deal with tasks related to different purposes. Among these methods is Word2Vec, an algorithm that uses neural networks to learn word representations. It has two network architectures: CBoW, which aims to predict the central word of a sentence through the surrounding words, the socalled context, and Skip-gram, which does the opposite, and seeks to predict the context based on the central word. The present work aims to apply the two architectures associated withWord2Vec to obtain word embeddings representations of words contained in product descriptions of electronic invoices. This data is unstructured, with a maximum size of 120 characters, with several challenges associated with the analysis of short texts in addition to the very specific vocabulary of the descriptions. Some models were adjusted for databases linked to two products: milk and meat. Adjustments were compared considering the repetition or not of the documents, the minimum number of times the words appear in the corpus, and different sizes of the context window.	en
dc.format.mimetype	application/pdf	pt_BR
dc.language.iso	por	pt_BR
dc.rights	Open Access	en
dc.subject	Redes neurais	pt_BR
dc.subject	Natural language processing	en
dc.subject	Neural network	en
dc.subject	Arquitetura de redes neurais	pt_BR
dc.subject	Processamento de linguagem natural	pt_BR
dc.subject	Continuous bag of words	en
dc.subject	Skip-gram	en
dc.subject	Invoices	en
dc.subject	Product descriptions	en
dc.title	Comparação de arquiteturas de Word2Vec na análise de textos curtos	pt_BR
dc.type	Trabalho de conclusão de graduação	pt_BR
dc.identifier.nrb	001172503	pt_BR
dc.degree.grantor	Universidade Federal do Rio Grande do Sul	pt_BR
dc.degree.department	Instituto de Matemática e Estatística	pt_BR
dc.degree.local	Porto Alegre, BR-RS	pt_BR
dc.degree.date	2023	pt_BR
dc.degree.graduation	Estatística: Bacharelado	pt_BR
dc.degree.level	graduação	pt_BR

Nome:: 001172503.pdf
Tamanho:: 7.979Mb
Formato:: PDF
Descrição:: Texto completo

Visualizar/abrir

Este item está licenciado na Creative Commons License

Trabalhos de Conclusão de Curso de Graduação (37239)

TCC Estatística (295)

Mostrar registro simples