Bajo el título oficial Cómo investigar con corpus, esta edición adopta la metáfora de la "Cocina del lingüista" para invitar a los participantes a "meter las manos en la masa" de la investigación lingüística. El curso está dirigido a un público diverso (estudiantes de bachillerato y universitarios, profesorado de enseñanza media y personas interesadas) y propone entrar en la botica de la ciencia para vivir el proceso desde dentro: no nos limitaremos a "consumir" datos, sino que aprenderemos a conocer y seleccionar los ingredientes (una rigurosa tipología que incluye oralidad, escritura, dialectos, lengua en desarrollo y contacto), prepararlos (codificación técnica) y cocinarlos y probarlos experimentalmente (análisis cognitivo) para entender la mente humana.
Los corpus textuales y su tipología general.
La lingüística de corpus como metodología.
Diseño, procesamiento y explotación de diferentes tipos de corpus.
Sesión práctica. La perspectiva del usuario: cómo seleccionar el corpus que se va a utilizar y cómo obtener la información de los diferentes corpus presentados en las sesiones anteriores.
Módulo práctico en el que el alumnado llevará a cabo por sí mismo (con la guía y ayuda de los/as profesores/as) todas las fases de creación de un corpus oral aplicadas a un ejemplo sencillo. Unos días antes del comienzo del curso se facilitarán las instrucciones para instalar las herramientas necesarias.
Sesión impartida por Alba Fernández Sanmartín y Mario Barcala.
Cómo recoger la materia prima sin estropearla: grabaciones orales, ética y tratamiento de variedades, registro de metadatos.
Prácticas: Grabación de una conversación, transferencia de la grabación al ordenador y creación de los metadatos de la conversación.
Herramientas: Teléfono móvil, ordenador y los programas Visual Studio Code y XXE XMLMind editor.
Sesión impartida por Alba Fernández Sanmartín y Mario Barcala.
Las grabaciones (de audio o vídeo) deben adaptarse a un formato textual para ser «digeribles».
Prácticas: Recodificación de la conversación de la sesión anterior a mp3, anonimización de la conversación, transcripción automática, revisión de la transcripción automática y alineamiento con el audio.
Herramientas: Audacity, Turboscribe y Elan.
Sesión impartida por Eva María Domínguez Noya, María Paula Santalla del Río y Mario Barcala.
El dato en bruto no se puede cocinar. Cómo se limpian y codifican los textos: lematización, POS-tagging (etiquetado gramatical) y análisis sintáctico (parsing).
Prácticas: Etiquetación morfosintáctica automática de la conversación de las sesiones anteriores, revisión de la etiquetación automática y validación.
Herramientas: ChatGPT y XXE XMLMind Editor.
Enfoques cualitativos y cuantitativos en la lingüística de corpus.
La frecuencia de los elementos lingüísticos y algunas consecuencias de su distribución estadística.
Estudios léxicos, gramaticales y discursivos mediante corpus.
Corpus orales e investigación sociolingüística.
Casos prácticos de aplicación de los métodos presentados en las sesiones anteriores.
El estudio del multilingüismo y el code-switching (proyecto BabelBrain). Cómo analizar corpus donde se mezclan lenguas manteniendo el equilibrio estructural.
Variables relevantes en el análisis del contacto de lenguas. Retos metodológicos en la segmentación y anotación de datos multilingües.
Introducción a la combinación de datos de corpus con métodos y diseños experimentales para validar hipótesis sobre el procesamiento y el comportamiento del hablante multilingüe.
Sesión aplicada centrada en el examen de muestras reales de interacción bilingüe para identificar patrones de alternancia de código, transferencia y acomodación al contexto sociolingüístico.
Emma Bierings, Simon Claasen, Sabela Morais, Hugo Parra, Aaron Santa María, Hannah Treadway.
Mesa redonda en la que nuevos investigadores internacionales en formación, procedentes de Gante, Leiden y Santiago de Compostela, mostrarán cómo aplicaron la tipología de corpus en sus tesis y proyectos.
Taller. Los asistentes diseñarán una microinvestigación propia, seleccionando el tipo de corpus más adecuado, la técnica de análisis y el tipo de conclusiones que se pueden formular de manera legítima.
Puesta en común de las microinvestigaciones elaboradas durante el taller, discusión final con los ponentes y cierre del curso con un balance general de los contenidos, aprendizajes y posibles líneas futuras de trabajo.
Victoria Vázquez es profesora titular de Lengua española en la USC. Su investigación se centra en aspectos sintácticos y discursivos del español con un enfoque basado en el uso y, más recientemente, en el desarrollo y análisis de corpus orales. Es coeditora del volumen Sintaxis del español / The Routledge Handbook of Spanish Syntax (2023) y coautora de la Introducción a la sintaxis del español (Routledge, 2025). Desde 2007 coordina el equipo PRESEGAL de la USC, integrado en el proyecto panhispánico PRESEEA, y entre 2011 y 2025 dirigió el equipo de la USC que participa en la construcción del CORPES XXI en el marco del contrato RAE–USC. En los últimos años fue IP de los proyectos competitivos que permitieron elaborar el corpus ESLORA de español hablado en Galicia.
M. Carmen Parafita Couto es Investigadora Distinguida en la Universidad de Santiago de Compostela a través del programa ATRAE e investigadora principal del proyecto BabelBrain. Doctora en Lingüística por la Universidad de Kansas (2005), su trayectoria académica se desarrolló principalmente en la Universidad de Leiden (Países Bajos), donde ejerció como profesora titular hasta 2025. Su actividad investigadora se centra en el multilingüismo y el contacto de lenguas, destacando especialmente por el estudio del code-switching mediante la integración de lingüística de corpus y métodos experimentales. A lo largo de su carrera, lideró proyectos internacionales financiados por agencias como NWO y FWO sobre ecologías multilingües en África Occidental y América Central. En el ámbito de la lingüística de recursos, coordinó el desarrollo del Leiden Learner Corpus (LLC) y de BangorTalk, una plataforma de corpus de habla bilingüe (galés-inglés, español-inglés, español-galés) anotados para el estudio de la alternancia de código. También impulsó la creación de LeiLanD (Leiden Language Database), un catálogo de metadatos sobre datos lingüísticos recopilados por investigadores para facilitar su gestión y reutilización. Actualmente es editora jefe de la serie Current Issues in Bilingualism y editora asociada de Isogloss: Open Journal of Romance Linguistics.
Guillermo Rojo, catedrático de Lingüística española hasta su jubilación en 2017 y actualmente profesor emérito en la USC, es autor de numerosos trabajos sobre teoría sintáctica, sintaxis del español, sociolingüística y sociología del lenguaje. Dirigió la elaboración de la Base de datos sintácticos del español actual, que permite el análisis de las estructuras sintácticas clausales a partir de su uso en corpus. Trabajó en el diseño, construcción y explotación del Corpus de referencia del español actual (CREA), el Corpus diacrónico del español (CORDE) y el Corpus del español del siglo XXI (CORPES), construidos todos ellos por la Real Academia Española, proyectos que coordinó desde sus inicios y sigue coordinando en la actualidad. Por encargo del Instituto Cervantes, dirigió, con Ignacio Palacios, el Corpus de aprendices de español como segunda lengua (CAES). Fue también responsable del Corpus de referencia del gallego actual (CORGA) desarrollado en el Centro Ramón Piñeiro para la investigación en Humanidades, en el que coordinó la sección de lingüística desde la creación del centro hasta agosto de 2017.
María Paula Santalla del Río es desde 2006 profesora contratada doctora en la USC. Su investigación se centra en la Lingüística de corpus y en el Procesamiento del Lenguaje Natural para el desarrollo y explotación de corpus. Participó en quince proyectos de investigación, entre los que destacan los que resultaron en la elaboración de la Base de datos sintácticos, el Corpus de Referencia del Español Actual de la Real Academia Española, Document Routing, un proyecto de ámbito europeo sobre redireccionamiento automático de documentos y, actualmente, ESLORA, para el desarrollo de un corpus oral de español de Galicia. De esos quince proyectos dirigió tres, centrados en gramáticas formales (Gramática formal y funcional del español), recuperación de información (Gari-Coter) y anotación sintáctica de corpus (DRASAE). Dirigió asimismo dos tesis doctorales sobre explotación de corpus para la descripción del orden de constituyentes en español y análisis automático de preguntas en español. Hoy centra su investigación en el análisis sintáctico de la oralidad.
Eva M.ª Domínguez Noya es Doctora en Filología Hispánica y licenciada en Filología Gallego-Portuguesa por la Universidad de Santiago de Compostela. Actualmente es investigadora asociada adscrita al Instituto de la Lengua Gallega (USC). Su labor investigadora se centra fundamentalmente en el área de la lingüística computacional, trabajando tanto con el gallego como con el castellano. En relación con el primero, coordina la parte lingüística del Corpus de Referencia del Gallego Actual (CORGA) y es la responsable de la creación y mantenimiento de los recursos lingüísticos que emplea el Etiquetador/Lematizador del Gallego Actual (XIADA). Respecto al castellano, colabora en el proyecto ESLORA, el corpus para el estudio del español oral, en la anotación morfológica automática bilingüe del corpus y en el análisis sintáctico manual de entrevistas.
Hannah Treadway es doctoranda en Lingüística hispánica en la University of Florida, donde desarrolla su investigación en el Bilingual Sentence Processing Lab y en el Brain, Language, and Bilingualism Lab. Su trabajo emplea técnicas neurales y conductuales (EEG, eye-tracking) para caracterizar cómo los atributos sociolingüísticos del contexto multilingüe, medidos a través de corpus, redes sociales personales e instrumentos de entropía y diversidad lingüística, se reflejan en la neurocognición durante el procesamiento bi-/multilingüe. Su tesis doctoral explora cómo la variabilidad entre comunidades y entre individuos en el code-switching español-inglés, documentada en corpus, se manifiesta en su procesamiento. Su trabajo aboga por un enfoque socialmente fundamentado del estudio del multilingüismo en contextos experimentales.
Mario Barcala es ingeniero informático y doctor en Computación por la Universidad de A Coruña. Actualmente es el director técnico de NLPgo Technologies, S.L., una empresa dedicada al desarrollo de aplicaciones relacionadas con la lingüística, en la que trabaja para ofrecer soluciones técnicas a problemas relativos a diversos aspectos de la lingüística de corpus. Participó en el desarrollo del Etiquetador/Lematizador del Gallego Actual (XIADA) y de diversas herramientas y aplicaciones web para la gestión y la consulta de corpus, como el Corpus de Referencia del Gallego Actual (CORGA), el Tesoro Informatizado de la Lengua Gallega (TILG), el Corpus para el estudio del español oral (ESLORA), el Corpus de aprendices de español como lengua extranjera (CAES), la Interfaz de datos de la lengua de signos española (LSE), o los Recursos lingüísticos sobre enfermedades raras (RERCOR), entre otras.
Alba Fernández Sanmartín es doctora en lingüística por la Universidad de Santiago de Compostela. Desde junio de 2025 ejerce como Profesora Ayudante Doctora en la USC. Desde 2026, es directora del equipo de Santiago de Compostela encargado del desarrollo de CORPES XXI, en el marco de un contrato de investigación firmado entre la Real Academia Española (RAE) y la USC. Participó en proyectos competitivos del Plan Nacional para la creación del corpus ESLORA del español de Galicia. Su producción científica se centra en el análisis de las metodologías para la compilación de corpus orales y, en los últimos años, en el uso del lenguaje en las redes sociales desde una perspectiva empírica y discursivo-pragmática.
Lucía Vieitez Portas es doctora en Psicología por la Universidad de Santiago de Compostela. Su tesis, de carácter multidisciplinar y vocación psicolingüística, investigó los efectos de la connotación emocional de las palabras en el procesamiento de la concordancia de género gramatical a nivel neural (EEG) y conductual. Colaboró en estudios sobre el procesamiento lingüístico en poblaciones multilingües, destacando el uso de corpus para el control metodológico de los materiales. Actualmente forma parte del proyecto BabelBrain, liderado por M. Carmen Parafita Couto, en calidad de investigadora posdoctoral.
Tasa general: 120 € (curso de 25 o más horas).
Tasa reducida: 70 € (curso de 25 o más horas).
La tasa reducida se aplica a:
Además, deben suscribir el seguro obligatorio de accidentes y asistencia en viaje las siguientes personas:
Este seguro se suscribe en la propia plataforma de Xescampus en el momento de formalizar la matrícula en el curso de verano y tiene un coste de 20,69 €. En caso de matricularse en más de un curso, la misma póliza es válida para todos los cursos.
UNA VEZ REALIZADA LA MATRÍCULA, NO SE EFECTUARÁN DEVOLUCIONES SALVO EN EL CASO DE SUSPENSIÓN DEL CURSO.
El plazo se abre el 14 de mayo de 2026 hasta el 26 de junio de 2026.
Puedes formalizar la matrícula accediendo a la página de la Universidad de Verano de la USC.
Toda persona inscrita en un curso de verano que cumpla con asistencia al 80% de las horas lectivas del curso, recibirá un diploma acreditativo.
Por otra parte, la USC reconoce los cursos de la Universidad de Verano a efectos de créditos ECTS, en todas las titulaciones de Grado, para el estudiantado de la USC que estuviese matriculado en un grado en el momento de realizar el curso de verano y recibirán a tal efecto un certificado de crédito, siempre y cuando cumplan con la asistencia al 80% de las horas lectivas del curso, con la siguiente equivalencia: 2 créditos por cada curso de 25 o más horas y 1 crédito por cada curso de menos de 25 horas.
M. Carmen Parafita Couto: mcarmen.parafita.couto@usc.gal
Victoria Vázquez Rozas: victoria.vazquez@usc.es
Alba Fernández Sanmartín: alba.fernandez@usc.es