Uma abordagem agnóstica para geração de texto legal e aplicação em tarefas da área de LegalTech

A área de LegalTech é referida como a relação entre áreas da Ciência da Computação que operam em linguagem natural e áreas jurídicas. A proximidade entre as áreas da Linguagem e Direito possibilita que a LegalTech seja aplicada em diversas tarefas como geração de texto legal, predição de sentenças, recuperação de texto legal. Porém, apesar da flexibilidade em aplicações, muitas soluções apresentam lacunas em sua metodologia de implementação e/ou disponibilização das bases de dados extraídas e pré-processadas. Neste trabalho, é proposta uma Abordagem Agnóstica com o objetivo de providenciar recomendações para o desenvolvimento de soluções na área de LegalTech de forma coesa, estruturada, extensível, e robusta. Inicialmente, foi realizada a revisão sistemática da literatura para identificar e apresentar um panorama sobre diferentes soluções propostas na geração de texto legal. A partir da revisão sistemática, uma taxonomia para classificar os estudos em cinco categorias de acordo com o escopo principal de cada trabalho foi proposta a fim de embasar a Abordagem Agnóstica, que é composta por 4 etapas responsáveis pela coleta, processamento, modelagem e exibição de resultados a partir da utilização de técnicas de Inteligência Artificial e Processamento de Linguagem Natural em documentos legais. A abordagem é testada em três tarefas diferentes. A primeira tarefa testa a capacidade de construção de uma base de dados com documentos legais a partir da extração de informações dos acórdãos em páginas Web do Supremo Tribunal Brasileiro. Além da organização e disponibilização da base de dados, uma análise com visualização de informações sobre os dados é apresentada. A segunda tarefa realiza a classificação de palavras em documentos legais para geração de texto anotado, resultando no primeiro passo para a construção de uma solução capaz de facilitar a leitura de texto legal para pessoas leigas na área jurídica. Por fim, a terceira tarefa utiliza a base de dados construída para experimentos em classificação de documentos legais utilizando algoritmos de aprendizado de máquina supervisionado em modelos classificadores. Na realização dos experimentos, o uso dos modelos apresentou resultados promissores para predição das classes dos acórdãos. Em especial, o uso do classificador SVM resultou em um F1-score médio de 0,96. ...

Abstract

The area of LegalTech is referred as the relationship between fields of Computer Science that operate in natural language and fields of law. The proximity between the fields of Language and Law allows LegalTech to be applied in various tasks such as legal text generation, sentence prediction, legal text recovery. However, despite the flexibility in the range of applications, many solutions have gaps in their implementation methodology and/or availability of extracted and preprocessed databases. In this work, an Agnostic Approach is proposed with the objective of providing guidelines for the development of solutions in the area of LegalTech in a cohesive, structured, extensible, and robust way. Initially, a systematic literature review is performed to identify and present an overview of different solutions proposed in the generation of legal text. From the systematic review, a taxonomy to classify the studies into five categories according to the main scope of each work is proposed in order to support the Agnostic Approach, which is composed of 4 steps responsible for collecting, processing, modeling and displaying results from the use of Artificial Intelligence and Natural Language Processing techniques in legal documents. The approach is tested on three different tasks. The first task tests the ability to build a database with legal documents by extracting information from judgments on Web pages of the Brazilian Supreme Court. In addition to the organization and availability of the database, an analysis with visualization of information about the data is presented. The second task performs the classification of words in legal documents to generate annotated text, resulting in the first step towards the construction of a solution capable of facilitat ing the reading of legal texts for non practitioner people in the legal area. Finally, the third task uses the database built for experiments in legal document classification using supervised machine learning algorithms in classifier models. During the execution of the experiments, the use of models showed promising results for predicting the classes of judgments. In particular, the use of the SVM classifier resulted in an average F1-score of 0.96. ...

Instituição

Universidade Federal do Rio Grande do Sul. Instituto de Informática. Programa de Pós-Graduação em Computação.

Coleções

Ciências Exatas e da Terra (5231)

Computação (1796)

Outras opções

Mostrar todos os metadados

Estatísticas

Este item está licenciado na Creative Commons License