Avaliação experimental de métodos de desambiguação de autores em bibliotecas digitais

Devido a grande diversidade de fontes de dados utilizadas pela maioria das bibliotecas digitais (DLs), podem existir problemas de ambigüidade em suas bases de dados. Pensando em melhorar esse quadro, esse trabalho propõe uma heurística que busca amenizar um problema de ambigüidade de nomes de autores bastante comum em DLs chamado split citation. Esse problema ocorre quando um autor possui seu nome representado de maneiras distintas nas diferentes publicações de sua autoria. Dessa forma, cada uma dessas variações de nome, podem ser consideradas como pessoas diferentes, dividindo a produção de um determinado autor. O split citation é um problema bastante corriqueiro, pois é muito comum, por exemplo, a abreviação ou até mesmo a supressão de sobrenomes muito extensos, além de outras práticas que geram variações de um nome. Para corrigir esse inconveniente, é feita uma análise em cima das diferentes informações contidas em uma publicação para decidir a sua autoria. Com as informações extraídas dos registros das bases de dados, são feitas medidas de similaridade que, ao final do processo, servem para ordenar uma lista de publicações onde as primeiras posições devem representar as publicações relevantes do autor em questão. Essas medidas de similaridade são calculadas utilizando evidências presentes nas publicações em forma de metadados, como por exemplo, os nomes dos autores, nomes dos co-autores, títulos, veículos de publicação, etc. A heurística foi avaliada em termos de precisão e revocação com a ajuda do software chamado trec_eval, disponibilizado pela conferência TREC (Text REtrieval Conference) que apóia pesquisas na área de recuperação de informação. Esse software permite a análise da precisão do método para diferentes níveis de revocação, e com isso facilita também a comparação entre as variantes do método proposto. ...

Abstract

Due to the wide variety of data sources used by most digital libraries, there may be problems of ambiguity in their databases. Thinking of improving this situation, this paper proposes a heuristic method that seeks to alleviate a authors name ambiguity problem that is very common in digital libraries called split citation. This problem occurs when an author has its name represented in different ways in his different publications. Thus, each of these name's variations can be considered as different authors, dividing the production of a particular author. The split citation is a fairly common problem. It is very common, for example, shortening or even elimination of long last names, and other practices that generate name variations. To correct this drawback, an analysis is made on different information contained in a publication to decide on his own. With the information obtained from the records of the databases, are made similarity measures that, at the end of the process, are used to sort a list of publications where the top positions must represent the relevant publications of the author in question. These similarity measures are calculated using evidence from the publications in the form of metadata such as authors' names, co-authors' names, titles, publication venue, etc. The heuristic method was evaluated in terms of recall/precision with the help of software called trec_eval, made available by the conference TREC (Text REtrieval Conference) which supports research in information retrieval. This software allows the analysis of the accuracy for different levels of recall, and it also facilitates the comparison between the proposed method variants. ...

Instituição

Universidade Federal do Rio Grande do Sul. Instituto de Informática. Curso de Ciência da Computação: Ênfase em Ciência da Computação: Bacharelado.

Coleções

Trabalhos de Conclusão de Curso de Graduação (38551)

TCC Ciência da Computação (1082)

Outras opções

Mostrar todos os metadados

Estatísticas

Este item está licenciado na Creative Commons License