home-page de Pablo Gamallo
Se queres um analisador morfossintático em Linux para o
português e o galego RAG-ILG, podes descarregar aqui (versão do
27-12-2005) os ficheiros de parámetros gerados pelo programa de
treino do Tree-Tagger. Os parámetros para o galego foram obtidos
a partir do português transliterado.
Requisitos:
Deves instalar previamente o Tree-Tagger
no directório raiz do usuário.
Instalação
dos ficheiros de parámetros:
Uma vez instalado o tree-tagger na tua máquina, segue estas duas
indicações:
(1) descarrega este ficheiro
comprimido e coloca-o no directório raiz do tree-tagger (que tem
o nome "tree-tagger") ,
(2) descompacta o ficheiro comprimido usando este script:
tar xzvf tree-taggerPT-GZ.tar.gz
Como usar o tagger?
Se queres analisar um ficheiro de texto em português, vai
ao directório "cmd" e executa:
~/tree-tagger/cmd>
cat
<portuguese_file.txt> | ./ tree-tagger-portuguese"
Se o ficheiro é em galego:
~/tree-tagger/cmd>
cat
<galicien_file.txt> | ./ tree-tagger-galicien"
Formato de saída:
Na saída, cada linha contem um word
token, o tag
correspondente e o lema. Todos separados por uma
tabulação. Por exemplo, a frase "o meu tio é
português" é analisada da seguinte maneira:
token
tag
lemma
o
DET o
meu
ADJ meu
tio
NOM
tio
é
V
ser
português ADJ
português
Podes descarregar aqui a
lista de tags utilizados.
Se tiveres problemas com a instalação ou uso do tagger,
escreve-me: pablogamATusc.es
Outra
via de instalação rápida e fácil:
Graças a Alberto Simões, Universidade do Minho, é
possível fazer uma instalação completa, incluindo
todas as línguas disponíveis para Tree-Tagger, mesmo pt e
gz, usando um módulo Perl chamado Lingua::TreeTagger::Installer.
Está disponível através de CPAN, "Comprehensive Perl
Archive Network", en:
http://search.cpan.org/~ambs/Lingua-TreeTagger-Installer/
Para fazer a instalação escreve no shell, como
superusuário:
cpan Lingua::TreeTagger:Installer
AJUDA PARA GERAR TU MESMO O
FICHEIRO DE PARAMETROS
Se não trabalhas em linux, tens de gerar tu mesmo o
ficheiro de parámetros do português e/ou do galego. Podes
seguir as seguintes instruções:
1. Descarrega aqui os
recursos do português e galego (corpus de treino do My
MsC Project, léxico DELAF e
tags), e coloca o ficheiro na pasta ~/tree-tagger/lib
2. Descompacta o ficheiro dos recursos usando este script:
tar xzvf recursos-pt-gz.tgz
3. Para gerar o ficheiro de parámetros do português,
chamado pt.par, executa o script de treino com os recursos requeridos:
~/tree-tagger/bin/train-tree-tagger LEXICON-TREETAGGER-PT
TAGSET CORPUS-TREINADO-PT pt.par
4. Se queres gerar o ficheiro de parámetros do galego, chamado
gz.par, executa o script de treino com os recursos requeridos:
~/tree-tagger/bin/train-tree-tagger LEXICON-TREETAGGER-GZ
TAGSET CORPUS-TREINADO-GZ gz.par
Já está! Já podes utilizar os analizadores do
português e galego. Se faz melhoras no dicionário e/ou no
corpus de treino, escreve-me, por favor. Obrigado!
email: pablo.gamalloATusc.es