Grupo de Gramática del Español

Gari-Coter: Creación e integración multilingüe de recursos lingüísticos en gallego para RI mediante estrategias de control terminológico y discursivo en ámbitos comunicativos especializados (2004-2008).

Extractor de términos

GaleXtract toma como entrada un texto en formato plain text, selecciona candidatos a término a partir de 5 patrones de etiquetas morfosintácticas y un filtro por frecuencias, y finalmente ordena los candidatos seleccionados usando una medida de asociación (entre 4 disponibles). La salida del extractor es una lista ordenada de términos multi-palabra.

GaleXtract genera la lista de términos en cuatro procesos: (1) etiquetación morfosintáctica, (2) pre-selección de candidatos por medio de patrones de etiquetas, (3) filtrado por frecuencias y (4) ordenación por valores de asociación.

(1) Etiquetación morfosintáctica

El extractor parte de texto en plain text, codificado en ISO latin. El texto de entrada es etiquetado morfosintácticamente mediante Freeling o Treetagger. Se puede usar texto escrito en 5 lenguas:

  • gallego (Treetagger, Freeling)

  • castellano (Treetagger, Freeling)

  • inglés (Treetagger, Freeling)

  • portugués (Treetager)

  • francés (Treetagger)

(2) Patrones de etiquetas

Una vez etiquetado el texto, se seleccionan las expresiones que aparecen en 5 patrones de etiquetas (N=nombre, A=adjetivo, P=preposición, V=verbo, PCLE=partícula):

  • N-A

  • A-N

  • N-N

  • N-P-N

  • V-PCLE

En el formulario de consulta, puede escoger 5 lenguas y 2 etiquetadores, teniendo en cuenta que el francés y el portugués sólo permiten texto etiquetado con Treetagger.

(3) Filtrado

El sistema selecciona aquellas expresiones que ocurren en el corpus con una frecuencia superior a un determinado umbral (freq=1, por defecto). El formulario de muestra permite escoger un umbral (frecuencia mínima) entre 1 y 5.

(4) Ordenación

Una vez seleccionada la lista de los candidatos a término, el sistema la ordena de mayor a menor utilizando una medida de asociación estadística. Se puede escoger entre 4 medidas: loglike (log), ji-cuadrado (chi), información mutua (mi) o SCP (scp).