Grupo de Gramática del Español

Gari-Coter: Creación e integración multilingüe de recursos lingüísticos en gallego para RI mediante estrategias de control terminológico y discursivo en ámbitos comunicativos especializados (2004-2008).

Corpus de prensa económica

Un corpus textual de prensa económica e de suplementos de economía na prensa diaria: constituído por seiscentas unha noticias de prensa que suman, aproximadamente, 235.175 formas (tokens) das cales 200.785 son palabras ou expresións multipalabra. As fontes concretas para elas son os xornais e revistas seguintes:

  • O Correo Galego

  • Galicia Internacional

  • Tempos Novos

  • Petroglifo. Revista da Asociación de Empresarios de Artes Gráficas de Galicia

  • Teima. Revista Galega de Información Xeral

  • Feiraco

Os textos están codificados estruturalmente en XML. Etiquetados (en dúas versións), lematizados e desambiguados, con corrección manual da desambiguación nunha das versións (que, por razóns de incompatibilidade coa ferramenta de consulta, non é a que se pode consultar en liña, pódese obter nesa mesma páxina de consulta, e é lixeiramente maior).

Queremos expresar aquí o noso agradecemento ao Centro Ramón Piñeiro para a Investigación en Humanidades que, mediante un convenio de colaboración, cedeu os textos que constitúen este corpus, así como permitiu a utilización das ferramentas para o seu procesamento lingüístico.

Vocabulario do corpus