Gari-Coter: Creación e integración multilingüe de recursos lingüísticos en gallego para RI mediante estrategias de control terminológico y discursivo en ámbitos comunicativos especializados (2004-2008).
Proceso de extracción de términos multipalabra
El vocabulario gallego del ámbito de la economía fue, en el marco del proyecto Gari-Coter, ampliado, por lo que respecta a unidades multipalabra, mediante la explotación de los corpus y del propio recurso léxico, con técnicas de extracción de términos basadas en similitud de distribución contextual. Con estas técnicas setecientas cuarenta nuevas unidades multilexicales pudieron ser añadidas al diccionario. El párrafo siguiente describe el proceso de obtención de estos términos, que se llevó a cabo integrando una adaptación del extractor GaleXtra, en el proyecto Gari-Coter.
Para obtener los términos referidos, la estrategia utilizada fue la siguiente:
Primero se obtuvo, a partir de los corpus etiquetados y del recurso léxico mencionado, una lista de términos semilla (lista A): para ello, primero localizamos a partir de patrones sintácticos y de medidas de cohesión (e.g., SCP con umbral mínimo 0.001), combinaciones de palabras lematizadas (lista B) que consideramos que pueden constituir términos multipalabra. Después, revisamos esta lista manualmente contrastándola con los recursos terminológicos contenidos en el vocabulario.
Después, la lista de términos semilla (lista A) se utiliza para, mediante el cálculo del grado de similaridad de los contextos léxico-sintácticos en los que aparece cada uno de sus miembros con los contextos léxico-sintácticos en los que aparece cada uno de los miembros de la lista de candidatos a unidades multipalabra (lista B), obtener una nueva lista de candidatos a términos de economía (lista C).
Muestra de los 740 términos así obtenidos
Para cuya integración en el vocabulario, fue necesaria una revisión manual.