Gari-Coter: Creación e integración multilingüe de recursos lingüísticos en galego para RI mediante estratexias de control terminolóxico e discursivo en ámbitos comunicativos especializados (2004-2008).
Extractor de termos
GaleXtract toma como entrada un texto en formato plain text, selecciona candidatos a termo a partir de 5 patróns de etiquetas morfosintácticas e un filtro por frecuencias, e finalmente ordena os candidatos seleccionados usando unha medida de asociación (entre 4 dispoñibles). A saída do extractor é unha lista ordenada de termos multipalabra.
GaleXtract xera a lista de termos en catro procesos: (1) etiquetación morfosintáctica, (2) preselección de candidatos a través de patróns de etiquetas, (3) filtrado por frecuencias e (4) ordenación por valores de asociación.
(1) Etiquetación morfosintáctica
O extractor parte de texto en plain text, codificado en ISO latin. O texto de entrada etiquétase morfosintacticamente mediante Freeling ou Treetagger. Pódese empregar texto escrito en 5 linguas:
galego (Treetagger, Freeling)
castelán (Treetagger, Freeling)
inglés (Treetagger, Freeling)
portugués (Treetager)
francés (Treetagger)
(2) Patróns de etiquetas
Unha vez etiquetado o texto, selecciónanse as expresións que aparecen en 5 patróns de etiquetas (N=nome, A=adxectivo, P=preposición, V=verbo, PCLE=partícula):
N-A
A-N
N-N
N-P-N
V-PCLE
No formulario de consulta, pode escoller 5 linguas e 2 etiquetadores, tendo en conta que o francés e o portugués só permiten texto etiquetado con Treetagger.
(3) Filtrado
O sistema selecciona aquelas expresións que aparecen no corpus cunha frecuencia superior a un determinado limiar (freq=1, por defecto). O formulario de mostra permite escoller un limiar (frecuencia mínima) entre 1 e 5.
(4) Ordenación
Unha vez seleccionada a lista dos candidatos a termo, o sistema ordénaa de maior a menor utilizando unha medida de asociación estatística. Pódese escoller entre 4 medidas: loglike (log), ji-cuadrado (chi), información mutua (mi) ou SCP (scp).