Grupo de Gramática del Español

Disponibilidad léxica en Galicia (DISPOGAL) (2008-2011).

Objetivos

El proyecto propuesto se propone la mejora y el desarrollo de dos recursos lingüísticos preexistentes, una gramática formal del español (AVALON) y una base de datos sintácticos (BDS), así como la creación del entorno necesario y, simultáneamente, su generación efectiva, para la producción de uno nuevo, un corpus sintácticamente analizado.

Desarrollo de AVALON

AVALON es una gramática formal en el formalismo AGFL, a partir de la cual puede generarse un analizador sintáctico automático, para el análisis sintáctico exhaustivo del español. En la actualidad su módulo de análisis frasal está completado, así como diseñado e integrado, pero hueco, su módulo de análisis clausal. El proyecto se propone rellenar los que sea posible (como mínimo los de las interrogativas y las relativas) de los submódulos de análisis clausal, recurriendo para ello a los datos extraídos de la Base de datos sintácticos BDS, así como, completar lo necesario para dar cuenta de todo lo que rebasa los niveles de análisis frasal y clausal: lo relativo al ámbito oracional y textual.

Con más detalle:

  • En cuanto al desarrollo de AVALON por lo que respecta a su extensión, a la luz tanto de la clase de recursos lingüísticos que constituyen AVALON y BDS como de la estrecha relación entre uno y otro, el sentido en el que debe progresar AVALON resulta claro: por un lado, de acuerdo con un procedimiento ya perfectamente establecido, cada uno de los módulos clausales debe ser desarrollado a la manera en que lo ha sido el módulo clausal de las interrogativas parciales (a partir de datos reales obtenidos de BDS). Por otro, todo lo que aparece en las secuencias de análisis procedentes de texto real y que sale fuera del ámbito de análisis que llamamos clausal, esto es, del que podemos dar cuenta a partir de series de funciones sintácticas tales que sujeto, complemento directo, etc., debe ser identificado, y debe decidirse cómo va todo eso (sintaxis oracional [entendidas las oraciones como estructuras bipolares que ponen en relación cláusulas] y textual) a ser analizado y descrito formalmente.

  • En cuanto a las fuentes o bases descriptivas a partir de las cuales debe desarrollarse AVALON: si, por ahora, las descripciones formales de hechos lingüísticos codificadas en AVALON se han basado, las del módulo frasal, en las descripciones (no tan atendidas por la tradición de estudios en lengua española como, por ejemplo, los grupos clausales) de los grupos de palabras de esta clase recogidas en las gramáticas, y las del módulo clausal predominantemente en datos reales extraídos de la BDS, dado que creemos que la confluencia de ambas fuentes de información, con predilección por la derivada de datos reales, es la mejor circunstancia posible en cualquier nivel de análisis, pretendemos (y ello se relaciona con nuestro segundo objetivo en este proyecto) progresar también hacia tal situación tanto en nivel de análisis frasal como en el oracional y el textual.

Desarrollo de un Corpus sintácticamente analizado

Entendiendo, de acuerdo con lo dicho en el párrafo anterior, que, para el desarrollo de gramáticas formales y analizadores acordes, es necesario, además de recurrir a la tradición descriptiva de estudios lingüísticos, obtener datos reales extraídos de corpus o bases de datos lingüísticas, pretendemos, para poder acceder a datos de este tipo para las estructuras frasales y, sobre todo, para lo que se refiere a las textuales, desarrollar un corpus sintácticamente analizado (CSA) con la misma exhaustividad, en términos de segmentación, jerarquización y etiquetación de funciones y unidades, de la que da cuenta AVALON: dado tal nivel de exhaustividad, el objetivo prioritario en el marco de este proyecto es, a este respecto, por encima de la producción de un determinado número de secuencias analizadas, el diseño y la creación de la estructura y los protocolos de trabajo, así como el sistema de etiquetación, necesarios para ello.

Con más detalle: En el marco de este proyecto, la meta prioritaria no es la producción del corpus sintácticamente analizado en sí mismo (de un número determinado de secuencias de texto real sintácticamente analizadas), sino el diseño y la creación de la estructura y los protocolos de trabajo (ensayos con usuarios no limitados o limitados y entrenados, con usuarios que hacen todo el análisis de cada secuencia o especializados en niveles de análisis determinados, etc.), así como el sistema de etiquetación (previsiblemente extenso, de acuerdo con el nivel de exhaustividad perseguido) necesarios para ello. Ello, obviamente, no quiere decir que no se vaya a generar un corpus analizado, puesto que es inevitable ensayar la estructura y los protocolos de trabajo para generarlo, así como el sistema de etiquetación, sin hacerlo al tiempo que se trabaja y produce el corpus: lo que significa lo anterior es únicamente que, dado el detalle del análisis que se persigue plasmar en el corpus, el acento se pone, en principio, en el diseño de cómo hacerlo y cómo codificarlo, más que en el empeño en llegar a tener, en el plazo de este proyecto, un número determinado de secuencias analizadas.

Métodos para obtener esos objetivos

Para desarrollar AVALON nos proponemos recurrir a datos reales (los extraídos de BDS, tal como ya se está haciendo con las cláusulas interrogativas, para el módulo clausal, y de CSA, cuando sea posible, para completar el nivel de análisis frasal y textual). Para desarrollar CSA pretendemos ensayar de diversos modos el modelo de desarrollo de recursos asociado a la tecnología wiki, introduciendo manualmente los análisis.