Gari-Coter: Creación e integración multilingüe de recursos lingüísticos en gallego para RI mediante estrategias de control terminológico y discursivo en ámbitos comunicativos especializados (2004-2008).
Corpus especializado de economía
Un corpus textual de economía especializado. Constituido por treinta y dos artículos especializados tomados de la Revista Galega de economía (vol. 9, nº 1 y vol. 10, nº 2), que suman 204.800 formas (tokens) palabras. Codificados estructuralmente en XML. Hay disponible más material textual: aproximadamente 600.000 palabras, recogidas en ensayos sobre diversos temas de economía, con diferentes niveles de especialización, también codificados en XML y clasificados de acuerdo con las subáreas anteriormente referidas. No se han integrado en el corpus de consulta en línea, ni procesado, porque el volumen y carácter de los textos fue acordado, por razones de homogeneidad, con los desarrolladores de los corpus del vasco, del catalán y del español.
Todos los textos del corpus especializado están clasificados en subáreas de acuerdo con dos clasificaciones distintas: la misma utilizada por la Universidad Pompeu Fabra, IULA, para el Corpus Técnic, y la utilizada por el Servicio de Normalización Lingüística de la Universidad de Santiago de Compostela en la base de datos terminológica a la que pudimos acceder, estas clasificaciones no se asociaron por ahora, dado el tamaño del corpus, a la herramienta de búsqueda desarrollada. Codificados estructuralmente en XML. Etiquetados, lematizados y desambiguados.
De nuevo queremos expresar aquí nuestro agradecimiento al Centro Ramón Piñeiro para a Investigación en Humanidades que, mediante un convenio de colaboración, cedió los textos que constituyen este corpus, así como permitió la utilización de las herramientas para su procesamiento lingüístico.
Vocabulario del corpus