Cómo investigar con corpus

Julio

Módulo 2. Técnicas de cocina: El procesado y el etiquetado (6 horas)

Alba Fernández Sanmartín

María Paula Santalla del Río

Eva María Domínguez Noya

Mario Barcala (coordinador)

Módulo práctico en el que el alumnado llevará a cabo por sí mismo (con la guía y ayuda de los/as profesores/as) todas las fases de creación de un corpus oral aplicadas a un ejemplo sencillo. Unos días antes del comienzo del curso se facilitarán las instrucciones para instalar las herramientas necesarias.

Recogida en origen (Trabajo de campo)

Sesión impartida por Alba Fernández Sanmartín y Mario Barcala.

9:30 – 11:30

Cómo recoger la materia prima sin estropearla: grabaciones orales, ética y tratamiento de variedades, registro de metadatos.

Prácticas: Grabación de una conversación, transferencia de la grabación al ordenador y creación de los metadatos de la conversación.

Herramientas: Teléfono móvil, ordenador y los programas Visual Studio Code y XXE XMLMind editor.

Preparación de la materia prima (Transcripción y anonimización)

Sesión impartida por Alba Fernández Sanmartín y Mario Barcala.

12:00 – 14:00

Las grabaciones (de audio o vídeo) deben adaptarse a un formato textual para ser «digeribles».

Prácticas: Recodificación de la conversación de la sesión anterior a mp3, anonimización de la conversación, transcripción automática, revisión de la transcripción automática y alineamiento con el audio.

Herramientas: Audacity, Turboscribe y Elan.

El robot de cocina (Codificación y tecnología)

Sesión impartida por Eva María Domínguez Noya, María Paula Santalla del Río y Mario Barcala.

16:00 – 18:00

El dato en bruto no se puede cocinar. Cómo se limpian y codifican los textos: lematización, POS-tagging (etiquetado gramatical) y análisis sintáctico (parsing).

Prácticas: Etiquetación morfosintáctica automática de la conversación de las sesiones anteriores, revisión de la etiquetación automática y validación.

Herramientas: ChatGPT y XXE XMLMind Editor.

Profesores

Victoria Vázquez Rozas

Victoria Vázquez es profesora titular de Lengua española en la USC. Su investigación se centra en aspectos sintácticos y discursivos del español con un enfoque basado en el uso y, más recientemente, en el desarrollo y análisis de corpus orales. Es coeditora del volumen Sintaxis del español / The Routledge Handbook of Spanish Syntax (2023) y coautora de la Introducción a la sintaxis del español (Routledge, 2025). Desde 2007 coordina el equipo PRESEGAL de la USC, integrado en el proyecto panhispánico PRESEEA, y entre 2011 y 2025 dirigió el equipo de la USC que participa en la construcción del CORPES XXI en el marco del contrato RAE–USC. En los últimos años fue IP de los proyectos competitivos que permitieron elaborar el corpus ESLORA de español hablado en Galicia.

M. Carmen Parafita Couto

M. Carmen Parafita Couto es Investigadora Distinguida en la Universidad de Santiago de Compostela a través del programa ATRAE e investigadora principal del proyecto BabelBrain. Doctora en Lingüística por la Universidad de Kansas (2005), su trayectoria académica se desarrolló principalmente en la Universidad de Leiden (Países Bajos), donde ejerció como profesora titular hasta 2025. Su actividad investigadora se centra en el multilingüismo y el contacto de lenguas, destacando especialmente por el estudio del code-switching mediante la integración de lingüística de corpus y métodos experimentales. A lo largo de su carrera, lideró proyectos internacionales financiados por agencias como NWO y FWO sobre ecologías multilingües en África Occidental y América Central. En el ámbito de la lingüística de recursos, coordinó el desarrollo del Leiden Learner Corpus (LLC) y de BangorTalk, una plataforma de corpus de habla bilingüe (galés-inglés, español-inglés, español-galés) anotados para el estudio de la alternancia de código. También impulsó la creación de LeiLanD (Leiden Language Database), un catálogo de metadatos sobre datos lingüísticos recopilados por investigadores para facilitar su gestión y reutilización. Actualmente es editora jefe de la serie Current Issues in Bilingualism y editora asociada de Isogloss: Open Journal of Romance Linguistics.

Guillermo Rojo

Guillermo Rojo, catedrático de Lingüística española hasta su jubilación en 2017 y actualmente profesor emérito en la USC, es autor de numerosos trabajos sobre teoría sintáctica, sintaxis del español, sociolingüística y sociología del lenguaje. Dirigió la elaboración de la Base de datos sintácticos del español actual, que permite el análisis de las estructuras sintácticas clausales a partir de su uso en corpus. Trabajó en el diseño, construcción y explotación del Corpus de referencia del español actual (CREA), el Corpus diacrónico del español (CORDE) y el Corpus del español del siglo XXI (CORPES), construidos todos ellos por la Real Academia Española, proyectos que coordinó desde sus inicios y sigue coordinando en la actualidad. Por encargo del Instituto Cervantes, dirigió, con Ignacio Palacios, el Corpus de aprendices de español como segunda lengua (CAES). Fue también responsable del Corpus de referencia del gallego actual (CORGA) desarrollado en el Centro Ramón Piñeiro para la investigación en Humanidades, en el que coordinó la sección de lingüística desde la creación del centro hasta agosto de 2017.

María Paula Santalla del Río

María Paula Santalla del Río es desde 2006 profesora contratada doctora en la USC. Su investigación se centra en la Lingüística de corpus y en el Procesamiento del Lenguaje Natural para el desarrollo y explotación de corpus. Participó en quince proyectos de investigación, entre los que destacan los que resultaron en la elaboración de la Base de datos sintácticos, el Corpus de Referencia del Español Actual de la Real Academia Española, Document Routing, un proyecto de ámbito europeo sobre redireccionamiento automático de documentos y, actualmente, ESLORA, para el desarrollo de un corpus oral de español de Galicia. De esos quince proyectos dirigió tres, centrados en gramáticas formales (Gramática formal y funcional del español), recuperación de información (Gari-Coter) y anotación sintáctica de corpus (DRASAE). Dirigió asimismo dos tesis doctorales sobre explotación de corpus para la descripción del orden de constituyentes en español y análisis automático de preguntas en español. Hoy centra su investigación en el análisis sintáctico de la oralidad.

Eva María Domínguez Noya

Eva M.ª Domínguez Noya es Doctora en Filología Hispánica y licenciada en Filología Gallego-Portuguesa por la Universidad de Santiago de Compostela. Actualmente es investigadora asociada adscrita al Instituto de la Lengua Gallega (USC). Su labor investigadora se centra fundamentalmente en el área de la lingüística computacional, trabajando tanto con el gallego como con el castellano. En relación con el primero, coordina la parte lingüística del Corpus de Referencia del Gallego Actual (CORGA) y es la responsable de la creación y mantenimiento de los recursos lingüísticos que emplea el Etiquetador/Lematizador del Gallego Actual (XIADA). Respecto al castellano, colabora en el proyecto ESLORA, el corpus para el estudio del español oral, en la anotación morfológica automática bilingüe del corpus y en el análisis sintáctico manual de entrevistas.

Hannah Treadway

Hannah Treadway es doctoranda en Lingüística hispánica en la University of Florida, donde desarrolla su investigación en el Bilingual Sentence Processing Lab y en el Brain, Language, and Bilingualism Lab. Su trabajo emplea técnicas neurales y conductuales (EEG, eye-tracking) para caracterizar cómo los atributos sociolingüísticos del contexto multilingüe, medidos a través de corpus, redes sociales personales e instrumentos de entropía y diversidad lingüística, se reflejan en la neurocognición durante el procesamiento bi-/multilingüe. Su tesis doctoral explora cómo la variabilidad entre comunidades y entre individuos en el code-switching español-inglés, documentada en corpus, se manifiesta en su procesamiento. Su trabajo aboga por un enfoque socialmente fundamentado del estudio del multilingüismo en contextos experimentales.

Mario Barcala

Mario Barcala es ingeniero informático y doctor en Computación por la Universidad de A Coruña. Actualmente es el director técnico de NLPgo Technologies, S.L., una empresa dedicada al desarrollo de aplicaciones relacionadas con la lingüística, en la que trabaja para ofrecer soluciones técnicas a problemas relativos a diversos aspectos de la lingüística de corpus. Participó en el desarrollo del Etiquetador/Lematizador del Gallego Actual (XIADA) y de diversas herramientas y aplicaciones web para la gestión y la consulta de corpus, como el Corpus de Referencia del Gallego Actual (CORGA), el Tesoro Informatizado de la Lengua Gallega (TILG), el Corpus para el estudio del español oral (ESLORA), el Corpus de aprendices de español como lengua extranjera (CAES), la Interfaz de datos de la lengua de signos española (LSE), o los Recursos lingüísticos sobre enfermedades raras (RERCOR), entre otras.

Alba Fernández Sanmartín

Alba Fernández Sanmartín es doctora en lingüística por la Universidad de Santiago de Compostela. Desde junio de 2025 ejerce como Profesora Ayudante Doctora en la USC. Desde 2026, es directora del equipo de Santiago de Compostela encargado del desarrollo de CORPES XXI, en el marco de un contrato de investigación firmado entre la Real Academia Española (RAE) y la USC. Participó en proyectos competitivos del Plan Nacional para la creación del corpus ESLORA del español de Galicia. Su producción científica se centra en el análisis de las metodologías para la compilación de corpus orales y, en los últimos años, en el uso del lenguaje en las redes sociales desde una perspectiva empírica y discursivo-pragmática.

Lucía Vieitez Portas

Lucía Vieitez Portas es doctora en Psicología por la Universidad de Santiago de Compostela. Su tesis, de carácter multidisciplinar y vocación psicolingüística, investigó los efectos de la connotación emocional de las palabras en el procesamiento de la concordancia de género gramatical a nivel neural (EEG) y conductual. Colaboró en estudios sobre el procesamiento lingüístico en poblaciones multilingües, destacando el uso de corpus para el control metodológico de los materiales. Actualmente forma parte del proyecto BabelBrain, liderado por M. Carmen Parafita Couto, en calidad de investigadora posdoctoral.

Cómo investigar con corpus

La cocina del lingüista: ingredientes, recetas y secretos de la capacidad lingüística

Módulo 1. La despensa del lingüista: Tipología de corpus e infraestructuras (6 horas)

Los ingredientes

La organización de las cocinas

El mercado global

Módulo 2. Técnicas de cocina: El procesado y el etiquetado (6 horas)

Recogida en origen (Trabajo de campo)

Preparación de la materia prima (Transcripción y anonimización)

El robot de cocina (Codificación y tecnología)

Módulo 3. Cocinar a fuego lento: enfoques cualitativos y cuantitativos (6 horas)

Reducción de sabores

Degustación

Cata a ciegas

Módulo 4. Cocina de fusión y molecular: multilingüismo y experimentos (6 horas)

Cocina de fusión

Laboratorio de sabores (I+D Experimental)

El Paladar Bilingüe: análisis práctico de datos de contacto de lenguas

Módulo 5. El banquete final: alta cocina lingüística

Showcooking

Taller «Mi primer plato»

El Banquete: presentación de proyectos y clausura

Profesores

Victoria Vázquez Rozas

M. Carmen Parafita Couto

Guillermo Rojo

María Paula Santalla del Río

Eva María Domínguez Noya

Hannah Treadway

Mario Barcala

Alba Fernández Sanmartín

Lucía Vieitez Portas

Matrícula

Plazo de matrícula

Formalización de la matrícula

Créditos y diploma

Contacto

Dirección

Secretaría