Logo da USCProjecto Extralex

CorpusPedia

Este programa descarga automaticamente a base dados da Wikipedia (xml) en cinco linguas: galego, português, español, inglés e francés. Para despois crear un corpus en XMl mais elaborado, cos seguintes campos: titulo, texto plano, texto en formato wiki (o orixinal no xml), categoria, ligazóns saintes a outros artigos, artigos relacionados e ligazóns ao mesmo artigo en outras linguas (interlanguage link).

Abaixo podes descargar a versión alfa, para instalala segue as instruccións no README. Se atopas problemas ou erros, contacta con nós por e-mail. Se prefires podes descargar os corpus xerados con CorpusPedia directamente na sección de recursos.

Descargar CorpusPedia (versión alfa)

Valid HTML 4.01 Strict Valid CSS!