Grupo de Gramática del Español

Gari-Coter: Multilingual creation and integration of Galician linguistic resources for RI through terminological and discoursive control strategies in specialised communicative fields (2004-2008).

Proceso de extracción de termos multipalabra

O vocabulario galego do ámbito da economía foi, no marco do proxecto Gari-Coter, ampliado, polo que respecta a unidades multipalabra, mediante a explotación dos corpus e do propio recurso léxico, con técnicas de extracción de termos baseadas en similitude de distribución contextual. Con estas técnicas puidéronse engadir setecentas corenta novas unidades multilexicais ao dicionario. O parágrafo seguinte describe o proceso de obtención destes termos, que se levou a cabo integrando unha adaptación do extractor GaleXtra, no proxecto Gari-Coter.

Para obtermos os termos referidos, a estratexia utilizada foi a seguinte:

  • Primeiro obtívose, a partir dos corpus etiquetados e do recurso léxico mencionado, unha lista de termos nucleares (lista A): para iso, primeiro localizamos a partir de patróns sintácticos e de medidas de cohesión (e.g., SCP con limiar mínimo 0.001), combinacións de palabras lematizadas (lista B) que consideramos que poden constituír termos multipalabra. Despois, revisamos esta lista manualmente contrastándoa cos recursos terminolóxicos contidos no vocabulario.

  • Despois, a lista de termos nucleares (lista A) utilízase para, mediante o cálculo do grao de semellanza dos contextos léxico-sintácticos nos que aparece cada un dos seus membros cos contextos léxico-sintácticos nos que aparece cada un dos membros da lista de candidatos a unidades multipalabra (lista B), obter unha nova lista de candidatos a termos de economía (lista C).

Mostra dos 740 termos así obtidos

Para cuxa integración no vocabulario, foi necesaria unha revisión manual.