Desarrollo de Recursos para el Análisis Sintáctico Automático del Español (2010-2013).
Obxectivos
No proxecto proposto propoñémonos a mellora e o desenvolvemento de dous recursos lingüísticos preexistentes, unha gramática formal do español (AVALON) e unha base de datos sintácticos (BDS), así como a creación do ámbito necesario e, simultaneamente, a súa xeración efectiva, para a produción dun novo, un corpus sintacticamente analizado.
Desenvolvemento de AVALON
AVALON é unha gramática formal no formalismo AGFL, a partir da cal pode xerarse un analizador sintáctico automático, para a análise sintáctica exhaustiva do español. Na actualidade o seu módulo de análise frasal está completado, así como deseñado e integrado, pero oco, o seu módulo de análise clausal. O proxecto proponse encher os que sexa posible (como mínimo os das interrogativas e as relativas) dos submódulos de análise clausal, recorrendo para iso aos datos extraídos da Base de datos sintácticos BDS, así como completar o necesario para dar conta de todo o que supera os niveis de análise frasal e clausal: o relativo ao ámbito oracional e textual.
Con máis detalle:
En canto ao desenvolvemento de AVALON polo que respecta á súa extensión, á luz tanto da clase de recursos lingüísticos que constitúen AVALON e BDS coma da estreita relación entre un e outro, o sentido no que debe progresar AVALON resulta claro: por un lado, de acordo cun procedemento xa perfectamente establecido, cada un dos módulos clausais debe ser desenvolvido ao xeito en que o foi o módulo clausal das interrogativas parciais (a partir de datos reais obtidos de BDS). Por outro, todo o que aparece nas secuencias de análises procedentes de texto real e que sae fóra do ámbito de análise que chamamos clausal, isto é, do que podemos dar conta a partir de series de funcións sintácticas tales que suxeito, complemento directo, etc., debe ser identificado, e debe decidirse como vai todo iso (sintaxe oracional [entendidas as oracións como estruturas bipolares que poñen en relación cláusulas] e textual) ser analizado e descrito formalmente.
En canto ás fontes ou bases descritivas a partir das cales debe desenvolverse AVALON: se, por agora, as descricións formais de feitos lingüísticos codificadas en AVALON se basearon, as do módulo frasal, nas descricións (non tan atendidas pola tradición de estudos en lingua española como, por exemplo, os grupos clausais) dos grupos de palabras desta clase recollidas nas gramáticas, e as do módulo clausal predominantemente en datos reais extraídos da BDS, dado que cremos que a confluencia de ambas as dúas fontes de información, con predilección pola derivada de datos reais, é a mellor circunstancia posible en calquera nivel de análise, pretendemos (e iso relaciónase co noso segundo obxectivo neste proxecto) progresar tamén cara a tal situación tanto en nivel de análise frasal coma no oracional e o textual.
Desenvolvemento dun Corpus sintacticamente analizado
Entendendo, de acordo co dito no parágrafo anterior, que, para o desenvolvemento de gramáticas formais e analizadores acordes, é necesario, ademais de recorrer á tradición descritiva de estudos lingüísticos, obter datos reais extraídos de corpus ou bases de datos lingüísticas, pretendemos, para poder acceder a datos deste tipo para as estruturas frasais e, sobre todo, para o que se refire ás textuais, desenvolver un corpus sintacticamente analizado (CSA) coa mesma exhaustividade, en termos de segmentación, xerarquización e etiquetaxe de funcións e unidades, da que dá conta AVALON: dado tal nivel de exhaustividade, o obxectivo prioritario no marco deste proxecto é, a este respecto, por enriba da produción dun determinado número de secuencias analizadas, o deseño e a creación da estrutura e os protocolos de traballo, así como o sistema de etiquetaxe, necesarios para iso.
Con máis detalle: No marco deste proxecto, a meta prioritaria non é a produción do corpus sintacticamente analizado en si mesmo (dun número determinado de secuencias de texto real sintacticamente analizadas), senón o deseño e a creación da estrutura e os protocolos de traballo (ensaios con usuarios non limitados ou limitados e adestrados, con usuarios que fan toda a análise de cada secuencia ou especializados en niveis de análises determinados, etc.), así como o sistema de etiquetaxe (previsiblemente extenso, de acordo co nivel de exhaustividade perseguido) necesarios para iso. Isto, obviamente, non quere dicir que non se vaia xerar un corpus analizado, posto que é inevitable ensaiar a estrutura e os protocolos de traballo para xeralo, así como o sistema de etiquetaxe, sen facelo ao tempo que se traballa e produce o corpus: o que significa o anterior é unicamente que, dado o detalle da análise que se persegue plasmar no corpus, o acento ponse, en principio, no deseño de como facelo e como codificalo, máis que no empeño en chegar a ter, no prazo deste proxecto, un número determinado de secuencias analizadas.
Métodos para obter eses obxectivos
Para desenvolver AVALON propoñémonos recorrer a datos reais (os extraídos de BDS, tal como xa se está facendo coas cláusulas interrogativas, para o módulo clausal, e de CSA, cando sexa posible, para completar o nivel de análise frasal e textual). Para desenvolver CSA pretendemos ensaiar de diversos modos o modelo de desenvolvemento de recursos asociado á tecnoloxía wiki, introducindo manualmente as análises.