TREE-TAGGER
PARA PORTUGUÊS consulta ON-LINE

PARA GALEGO consulta ON-LINE

home-page de Pablo Gamallo

Se queres um analisador morfossintático em Linux para o português e o galego RAG-ILG, podes descarregar aqui (versão do 27-12-2005) os ficheiros de parámetros gerados pelo programa de treino do Tree-Tagger. Os parámetros para o galego foram obtidos a partir do português transliterado.

Requisitos:
Deves instalar previamente o Tree-Tagger no directório raiz do usuário.

Instalação dos ficheiros de parámetros
Uma vez instalado o tree-tagger na tua máquina, segue estas duas indicações:
(1) descarrega este ficheiro comprimido e coloca-o no directório raiz do tree-tagger (que tem o nome "tree-tagger") ,
(2) descompacta o ficheiro comprimido usando este script:
tar   xzvf   tree-taggerPT-GZ.tar.gz

Como usar o tagger?
Se queres analisar um ficheiro de texto em português, vai ao directório "cmd" e executa:
~/tree-tagger/cmd>   cat  <portuguese_file.txt>  | ./ tree-tagger-portuguese"
Se o ficheiro é em galego:
~/tree-tagger/cmd>   cat  <galicien_file.txt>  | ./ tree-tagger-galicien"

Formato de saída:
Na saída, cada linha contem um word token, o tag correspondente e o lema. Todos separados por uma tabulação. Por exemplo, a frase "o meu tio é português" é analisada da seguinte maneira:
token                 tag                    lemma
o                   DET           o
meu              ADJ            meu
tio                NOM          tio
é                   V                ser
português    ADJ            português


Podes descarregar aqui a lista de tags utilizados.
Se tiveres problemas com a instalação ou uso do tagger, escreve-me: pablogamATusc.es

Outra via de instalação rápida e fácil:
Graças a Alberto Simões, Universidade do Minho, é possível fazer uma instalação completa, incluindo todas as línguas disponíveis para Tree-Tagger, mesmo pt e gz, usando um módulo Perl chamado Lingua::TreeTagger::Installer. Está disponível através de CPAN, "Comprehensive Perl Archive Network", en:
http://search.cpan.org/~ambs/Lingua-TreeTagger-Installer/

Para fazer a instalação escreve no shell, como superusuário:

cpan Lingua::TreeTagger:Installer



AJUDA PARA GERAR TU MESMO O FICHEIRO DE PARAMETROS

Se não trabalhas em linux, tens de gerar tu mesmo o ficheiro de parámetros do português e/ou do galego. Podes seguir as seguintes instruções:

1. Descarrega aqui os recursos do português e galego (corpus de treino do My MsC Project, léxico DELAF e tags), e coloca o ficheiro na pasta ~/tree-tagger/lib
2. Descompacta o ficheiro dos recursos usando este script:
tar   xzvf   recursos-pt-gz.tgz

3. Para gerar o ficheiro de parámetros do português, chamado pt.par, executa o script de treino com os recursos requeridos:

~/tree-tagger/bin/train-tree-tagger  LEXICON-TREETAGGER-PT  TAGSET  CORPUS-TREINADO-PT   pt.par

4. Se queres gerar o ficheiro de parámetros do galego, chamado gz.par, executa o script de treino com os recursos requeridos:

~/tree-tagger/bin/train-tree-tagger  LEXICON-TREETAGGER-GZ  TAGSET  CORPUS-TREINADO-GZ   gz.par

Já está! Já podes utilizar os analizadores do português e galego. Se faz melhoras no dicionário e/ou no corpus de treino, escreve-me, por favor. Obrigado!
email: pablo.gamalloATusc.es