Grupo de Gramática do Español

Gari-Coter: Creación e integración multilingüe de recursos lingüísticos en galego para RI mediante estratexias de control terminolóxico e discursivo en ámbitos comunicativos especializados (2004-2008).

Extractor de termos

GaleXtract toma como entrada un texto en formato plain text, selecciona candidatos a termo a partir de 5 patróns de etiquetas morfosintácticas e un filtro por frecuencias, e finalmente ordena os candidatos seleccionados usando unha medida de asociación (entre 4 dispoñibles). A saída do extractor é unha lista ordenada de termos multipalabra.

GaleXtract xera a lista de termos en catro procesos: (1) etiquetación morfosintáctica, (2) preselección de candidatos a través de patróns de etiquetas, (3) filtrado por frecuencias e (4) ordenación por valores de asociación.

(1) Etiquetación morfosintáctica

O extractor parte de texto en plain text, codificado en ISO latin. O texto de entrada etiquétase morfosintacticamente mediante Freeling ou Treetagger. Pódese empregar texto escrito en 5 linguas:

  • galego (Treetagger, Freeling)

  • castelán (Treetagger, Freeling)

  • inglés (Treetagger, Freeling)

  • portugués (Treetager)

  • francés (Treetagger)

(2) Patróns de etiquetas

Unha vez etiquetado o texto, selecciónanse as expresións que aparecen en 5 patróns de etiquetas (N=nome, A=adxectivo, P=preposición, V=verbo, PCLE=partícula):

  • N-A

  • A-N

  • N-N

  • N-P-N

  • V-PCLE

No formulario de consulta, pode escoller 5 linguas e 2 etiquetadores, tendo en conta que o francés e o portugués só permiten texto etiquetado con Treetagger.

(3) Filtrado

O sistema selecciona aquelas expresións que aparecen no corpus cunha frecuencia superior a un determinado limiar (freq=1, por defecto). O formulario de mostra permite escoller un limiar (frecuencia mínima) entre 1 e 5.

(4) Ordenación

Unha vez seleccionada a lista dos candidatos a termo, o sistema ordénaa de maior a menor utilizando unha medida de asociación estatística. Pódese escoller entre 4 medidas: loglike (log), ji-cuadrado (chi), información mutua (mi) ou SCP (scp).