Formulario de consulta on-line
Descarga del software

Descargue aquí el código fuente (scripts) del extractor, implementado con el lenguaje interpretado PERL, y lea las instrucciones para su correcta instalación. Requisitos:

Descripción de la entrada y salida del extractor:
Formato de entrada

Un fichero con texto bruto, en formato plano ("plain text"), codificado en ISO-8859-1.

Formato de salida

Texto en formato plano codificado en ISO-8859-1. Cada línea contiene tres columnas: (1) el término multi-palabra extraído, (2) el patrón de etiquetas morfosintácticas y (3) el grado de cohesión entre los lemas que constituyen el término multi-palabra. Ejemplo:

1 2 3
tasa de crecimiento N-P-N 0.023
tasa interanual N-A 0.056
Descripción

GaleXtract toma como entrada un texto en formato "plain text" y selecciona candidatos a término a partir de 5 patrones de etiquetas morfosintácticas y 2 filtros: un filtro estadístico y un filtro por frecuencias. La salida del extractor es una lista de términos multi-palabra.

GaleXtract genera la lista de términos en tres procesos: (1) etiquetación morfosintáctica, (2) pre-selección de candidatos por medio de patrones de etiquetas y (3) filtrado.

(1) Etiquetación morfosintáctica

El extractor parte de texto en "plain text", codificado en ISO latin. El texto de entrada es etiquetado morfosintácticamente mediante Freeling o Treetagger (links...). Se puede usar texto escrito en 5 lenguas:

(2) Patrones de etiquetas

Una vez etiquetado el texto, se seleccionan las expresiones que aparecen en 5 patrones de etiquetas (N=nombre, A=adjetivo, P=preposición, V=verbo, PCLE=partícula):

En el formulario de consulta, puede escoger 5 lenguas y 2 etiquetadores, teniendo en cuenta que el francés y el portugués sólo permiten texto etiquetado con Treetagger.

(3) Filtrado

El sistema selecciona aquellas expresiones que ocurren en el corpus con una frecuencia superior a un determinado umbral (threshold1=1, por defecto) y también aquéllas con una medida de cohesión (SCP) superior a un determinado umbral (threshold2=0.001, por defecto). Los umbrales de estos dos filtros pueden modificarse manualmente en el formulario de consulta. Para un texto mayor de 50k, se recomienda asignar un valor mayor o igual a "2" para Threshold1.

Última modificación: Viernes, 9 de mayo de 2008
© Universidade de Santiago de Compostela