Gari-Coter: Creación e integración multilingüe de recursos lingüísticos en gallego para RI mediante estrategias de control terminológico y discursivo en ámbitos comunicativos especializados (2004-2008).
Corpus de prensa económica
Un corpus textual de prensa económica e de suplementos de economía na prensa diaria: constituído por seiscentas unha noticias de prensa que suman, aproximadamente, 235.175 formas (tokens) das cales 200.785 son palabras ou expresións multipalabra. As fontes concretas para elas son os xornais e revistas seguintes:
O Correo Galego
Galicia Internacional
Tempos Novos
Petroglifo. Revista da Asociación de Empresarios de Artes Gráficas de Galicia
Teima. Revista Galega de Información Xeral
Feiraco
Os textos están codificados estruturalmente en XML. Etiquetados (en dúas versións), lematizados e desambiguados, con corrección manual da desambiguación nunha das versións (que, por razóns de incompatibilidade coa ferramenta de consulta, non é a que se pode consultar en liña, pódese obter nesa mesma páxina de consulta, e é lixeiramente maior).
Queremos expresar aquí o noso agradecemento ao Centro Ramón Piñeiro para a Investigación en Humanidades que, mediante un convenio de colaboración, cedeu os textos que constitúen este corpus, así como permitiu a utilización das ferramentas para o seu procesamento lingüístico.
Vocabulario do corpus