Eventos

Xornada de estudos. Anotación e explotación de corpus orais

 

Facultade de Filoloxía, aula B13 e B10
Santiago de Compostela, 3 e 4 de outubro de 2019

Programa

 

Xoves, 3 de outubro
16:00 -17:00

 

Conferencia de Nelleke Oostdijk (Radboud Universiteit)
The Spoken Dutch Corpus revisited

 

The Spoken Dutch corpus was compiled between 1998 and 2003. At the time it was one of the first corpora of this size and composition. The corpus is well reputed for its rich, high quality annotations. The corpus has set an example for various other corpora both nationally and internationally, while it has been influential as regards standardization efforts and the development of tools and other resources, more specifically for the Dutch language. In this presentation, I will first give a brief introduction to the corpus and then I will focus on the various annotations that are available, how they came about and what lessons we learned along the way.
17:00 -17:15

 

Pausa

 

17:15 -20:00

 

Taller sobre anotación morfosintáctica [AULA B10]
Mario Barcala, Eva Domínguez e Paula Santalla (USC)
Factores lingüísticos (categorías e subcategorías, particularidades da lingua oral etc.) e computacionales (fases de traballo, kernel, corpus de adestramento, etiquetador estatístico, regras sintácticas)

 

Venres, 4 de outubro
9:30 - 10:30

 

Conferencia de Nelleke Oostdijk (Radboud Universiteit)
Linguistically-motivated annotation: Moving forward

 

To date oral corpora that have been annotated with detailed syntactic information remain few. In fact, the idea of undertaking the analysis of corpora comprising data other tan well-formed written (edited) data to many appears daunting. Oral data appear noisy and descriptive models are found to be lacking when it comes to accounting for the idiosyncracies of spontaneously spoken language. It is no surprise then to find that available resources and tools are not generally geared to cope with such data. In this presentation I relate my experiences with a knowledge-driven approach to the analysis of social media data (Twitter and discussion fora). The aim here is to extract the informationthat is relevant for a given task (e.g. identifying threatening tweets or detecting possibly contaminated dietary supplements). In this approach hand-crafted rules are used to model the domain and the way language is used to express the information content. Obviously the rules and analyses are far less sophisticated than those that one would prefer from a linguists’ point of view. However, as I would like to suggest, one might well consider adopting this type of analysis while exploring ways to arrive at an approach that allows for the linguistically-motivated annotation of corpora comprising non-edited text and/or oral data.
10:30 - 11:30

 

Demo de software de anotación automática mediante Linguakit (software libre)
Pablo Gamallo (USC)

 

11:30 - 12:00

 

Pausa café

 

12:00 - 12.30

 

Shima Salameh Jiménez (Val.Es.Co) Os retos na segmentación e anotación dunha conversa coloquial: cuestións metodolóxicas e estatísticas

La exposición se centrará en: (1) cómo el sistema de unidades Val.Es.Co. facilita la tarea de dividir una conversación en unidades mayores y menores; (2) el tratamiento estadístico que requieren los resultados de las segmentaciones llevadas a cabo por diferentes anotadores para evitar el factor azar en su publicación; y (3) la sistematización de las distintas pruebas estadísticas y del proceso completo seguido desde que los anotadores reciben la conversación e inician la segmentación por separado (Pascual Aliaga 2019). Este trabajo, además, supone una novedad por la aplicación de varias pruebas estadísticas que, hasta el momento, no se habían aplicado en el análisis y anotación de la conversación coloquial: los coeficientes de la familia Alpha de Krippendorff (uα, |uα, cuα y (k)uα). En definitiva, será una visión global para presentar los análisis que estamos llevando a cabo en el grupo y que van en la línea de los distintos proyectos de la red.
12:30 - 13:45

 

Presentación da nova versión do corpus ESLORA
Guillermo Rojo e Victoria Vázquez (USC)

 

14:00 - 16:00

 

Pausa comida

 

16:00 - 17:30

 

Reunión interna da rede

 

 

Inscrición e certificados

A asistencia ao seminario é de balde. Porén, as persoas interesadas en recibir un certificado de asistencia deberán inscribirse mediante este formulario en liña. O prazo de inscrición estará aberto até o 1 de outubro.

 

Organización

A actividade está organizada polo grupo de investigación Gramática do español (GPC Xunta de Galicia ED431B 2017/39), o Proxecto ESLORA+ (PFFI2017-86379-P), financiado pola AEI e o FEDER, e a Red Temática en Estudios de Análisis del Discurso (FFI2017-90738-REDT).

 

AEI Feder Xunta de Galicia