CorpusPedia é un corpus xerado coa ferramenta do memsmo nome, a CorpusPedia software. Disponibilizamos tanto a ferramenta para xerar corpus como os corpus xa creados, por tanto és libre de crealos ti mesmo ou descargalos corpus directamente. A licenza dos corpus é a mesma que a da Wikipedia: Creative Commons Attribution-ShareAlike 3.0 License (CC-BY-SA).
Os corpus conteñen un número moi elevado de items, cada item está composto por un artigo e contén información dese artigo nos campos: title, plain_text, text in wiki format, category, links a outros artigos, related acticles e links ao mesmo artigo en outra lingua (interlanguage link). O formato da CorpusPedia é un ficheiro XML.
Baixa os ficheiros da CorpusPedia nas ligazóns de embaixo. Os ficheiros son moi grandes, ten paciencia na descarga e non por favor non fagas descargas innecesarias.