Recursos linguísticos para o PLN específico de domínio: o Petrolês

Muitas organizações têm dificuldade em recuperar e extrair informações dos seus repositórios de documentos técnicos, em especial operadoras de óleo e gás que há várias décadas acumulam relatórios e documentos geocientíficos. No entanto, a maior parte dos recursos linguísticos para o processamento de...

Full description

Saved in:
Bibliographic Details
Published in:Linguamática (Braga, Portugal) Vol. 15; no. 2; pp. 51 - 68
Main Authors: Freitas, Cláudia, Souza, Elvis, Castro, Maria Clara, Cavalcanti, Tatiana, Ferreira da Silva, Patricia, Corrêa Cordeiro, Fábio
Format: Journal Article
Language:Catalan
English
Portuguese
Published: Universidade do Minho & Universidade de Vigo 30-12-2023
Subjects:
Online Access:Get full text
Tags: Add Tag
No Tags, Be the first to tag this record!
Description
Summary:Muitas organizações têm dificuldade em recuperar e extrair informações dos seus repositórios de documentos técnicos, em especial operadoras de óleo e gás que há várias décadas acumulam relatórios e documentos geocientíficos. No entanto, a maior parte dos recursos linguísticos para o processamento de linguagem natural é extraída de páginas da internet em inglês. Neste artigo, apresentamos os recursos linguísticos desenvolvidos ao longo do projeto Petrolês, com ênfase no PetroNer, corpus padrão ouro anotado com entidades do domínio, dependências sintáticas, e alinhado a uma ontologia de conceitos geológicos. Relatamos o processo de construção do PetroGold, treebank padrão ouro usado na geração de um modelo customizado para anotação de dependências sintáticas, e detalhamos o processo de anotação de entidades no PetroNer, realizado por meio de regras. Também realizamos um estudo sobre a aplicação das regras no corpus e, por fim, descrevemos características linguísticas do material que compõe o Petrolês, comparando-o com um corpus de textos jornalísticos.
ISSN:1647-0818
1647-0818
DOI:10.21814/lm.15.2.412