Grupo de Gramática do Español

Gari-Coter: Creación e integración multilingüe de recursos lingüísticos en galego para RI mediante estratexias de control terminolóxico e discursivo en ámbitos comunicativos especializados (2004-2008).

Corpus de prensa económica

Un corpus textual de prensa económica y de suplementos de economía en prensa diaria: constituido por seiscientas una noticias de prensa que suman, aproximadamente, 235.175 formas (tokens) de las cuales 200.785 son palabras o expresiones multipalabra. Las fuentes concretas para ellas son los periódicos y revistas siguientes:

  • O Correo Galego

  • Galicia Internacional

  • Tempos Novos

  • Petroglifo. Revista da Asociación de Empresarios de Artes Gráficas de Galicia

  • Teima. Revista Galega de Información Xeral

  • Feiraco

Los textos están codificados estructuralmente en XML. Etiquetados (en dos versiones), lematizados y desambiguados, con corrección manual de la desambiguación en una de las versiones (que, por razones de incompatibilidad con la herramienta de consulta, no es la que se puede consultar en línea, se puede obtener en esa misma página de consulta, y es ligeramente mayor).

Queremos expresar aquí nuestro agradecimiento al Centro Ramón Piñeiro para a Investigación en Humanidades que, mediante un convenio de colaboración, cedió los textos que constituyen este corpus, así como permitió la utilización de las herramientas para su procesamiento lingüístico.

Vocabulario del corpus