Mostrar registro simples

dc.contributor.advisorMoreira, Viviane Pereirapt_BR
dc.contributor.authorBencke, Luciana Reginapt_BR
dc.date.accessioned2025-02-22T06:46:33Zpt_BR
dc.date.issued2024pt_BR
dc.identifier.urihttp://hdl.handle.net/10183/287546pt_BR
dc.description.abstractNatural Language Inference (NLI) is a special type of text classification focused on deduction – a model is presented to a pair of sentences (premise and hypothesis) and classifies the relationship between their meanings. Training models with NLI datasets is key for semantic systems. NLI datasets are also used to train sentence-transformer (ST) models, which use Siamese networks to learn the relationship between the pair of sentences, generating good representations in an embedding space where similar sentences are placed close together. The sentence embeddings can be used as features to train other models for tasks such as clustering and classification. Existing NLI resources in Portuguese are limited. Creating or extending datasets manually is expensive and requires specialized knowledge. Data augmentation (DA) offers alternatives to overcome this issue. DA is the first step towards developing synthetic instances, and text generation can be used as a DA method, especially when utilizing the power of recent large language models (LLM). This work focuses on producing a synthetic NLI dataset and using it to train ST models for Portuguese embeddings, employing DA as the first step to evaluate the behavior of text generation. Aiming to cover the lack of resources in Portuguese, this thesis introduces InferBR, a synthetic NLI dataset produced using a mostly automatic process. InferBR was used to train ST models specialized in generating Portuguese embeddings, which presented better performance than the existing multilingual models in clustering, classification, and semantic similarity.en
dc.description.abstractA tarefa de Inferência de Linguagem Natural (NLI) é um tipo especial de classificação de textos focada na dedução – um modelo é apresentado a um par de sentenças (premissa e hipótese) e classifica a relação entre os seus significados. Treinar modelos com conjuntos de dados para NLI é fundamental para sistemas semânticos. Além disso, conjuntos de dados de NLI são usados para treinar modelos de sentence-transformers (ST), que usam redes Siamesas para aprender a relação entre o par de sentenças, gerando boas representações (embeddings) em um espaço onde sentenças semelhantes ficam próximas. As embeddings de sentenças podem ser usadas como recursos para treinar outros modelos em tarefas como clustering e classificação. Os recursos existentes para NLI em português são limitados. Criar ou ampliar conjuntos de dados manualmente é custoso e requer conhecimento especializado. O aumento de dados (DA) oferece alternativas para superar essa limitação. DA é o primeiro passo para o desenvolvimento de instâncias sintéticas, e a geração de texto pode ser usada como um método de DA, especialmente ao utilizar o poder dos recentes grandes modelos de linguagens (LLM). Este trabalho se concentra na produção de um conjunto sintético de dados para NLI e na sua utilização para treinar modelos ST para gerar embeddings em português, empregando DA como primeiro passo para avaliar o comportamento da geração de texto. Com o objetivo de suprir a falta de recursos em português, esta tese apresenta o InferBR, um conjunto de dados sintéticos para NLI produzido empregando um processo majoritariamente automático. O InferBR foi utilizado para treinar modelos ST especializados em gerar embeddings em português, que apresentaram melhor desempenho que os modelos multilíngues existentes nas tarefas de clustering, classificação e similaridade semântica.pt_BR
dc.format.mimetypeapplication/pdfpt_BR
dc.language.isoengpt_BR
dc.rightsOpen Accessen
dc.subjectEntailment recognitionen
dc.subjectInferência de linguagem naturalpt_BR
dc.subjectDados sintéticospt_BR
dc.subjectText generationen
dc.subjectProcessamento de linguagem naturalpt_BR
dc.subjectData augmentationen
dc.subjectText classificationen
dc.subjectSemântica computacionalpt_BR
dc.subjectLinguística computacionalpt_BR
dc.titleProducing synthetic instances for textual classification and natural language inferencept_BR
dc.title.alternativeProduzindo instâncias sintéticas para classificação textual e inferência de linguagem natural pt
dc.typeTesept_BR
dc.identifier.nrb001200976pt_BR
dc.degree.grantorUniversidade Federal do Rio Grande do Sulpt_BR
dc.degree.departmentInstituto de Informáticapt_BR
dc.degree.programPrograma de Pós-Graduação em Computaçãopt_BR
dc.degree.localPorto Alegre, BR-RSpt_BR
dc.degree.date2024pt_BR
dc.degree.leveldoutoradopt_BR


Thumbnail
   

Este item está licenciado na Creative Commons License

Mostrar registro simples