Consolidación 2020 GRC
Ref. ED431C 2020/21

Como investigar con corpus

A cociña do lingüista: ingredientes, receitas e segredos da capacidade lingüística

Do 6 ao 10 de xullo de 2026
Facultade de Filoloxía, aula C01
30 horas lectivas
25 prazas

Baixo o título oficial Como investigar con corpus, esta edición adopta a metáfora da "Cociña do lingüista" para convidar aos participantes a "meter as mans na masa" da investigación lingüística. O curso está dirixido a un público diverso (estudantes de bacharelato e universitarios, profesorado de ensino medio e persoas interesadas) e propón entrar na botica da ciencia para vivir o proceso desde dentro: non nos limitaremos a "consumir" datos, senón que aprenderemos a coñecer e seleccionar os ingredientes (unha rigorosa tipoloxía que inclúe oralidade, escritura, dialectos, lingua en desenvolvemento e contacto), preparalos (codificación técnica) e cociñalos e probalos experimentalmente (análise cognitiva) para entender a mente humana.

6
Xullo

Módulo 1. A despensa do lingüista: Tipoloxía de corpus e infraestruturas (6 horas)

Os ingredientes

9:30 – 11:30

Os corpus textuais e a súa tipoloxía xeral.

A lingüística de corpus como metodoloxía.

A organización das cociñas

12:00 – 14:00

Deseño, procesamento e explotación de diferentes tipos de corpus.

O mercado global

16:00 – 18:00

Sesión práctica. A perspectiva do usuario: como seleccionar o corpus que se vai utilizar e como obter a información dos diferentes corpus presentados nas sesións anteriores.

7
Xullo

Módulo 2. Técnicas de cociña: O procesado e a etiquetaxe (6 horas)

Módulo práctico onde o alumnado levará a cabo por si mesmo (coa guía e axuda dos/as profesores/as) todas as fases de creación dun corpus oral aplicadas a un exemplo sinxelo. Uns días antes do comezo do curso facilitaranse as instrucións para instalar as ferramentas necesarias.

Recollida en orixe (Traballo de campo)

Sesión impartida por Alba Fernández Sanmartín e Mario Barcala.

9:30 – 11:30

Como recoller a materia prima sen estragala: gravacións orais, ética e tratamento de variedades e rexistro de metadatos.

Prácticas: Gravación dunha conversa, transferencia da gravación ao ordenador e creación dos metadatos da conversa.

Ferramentas: Teléfono móbil, ordenador e os programas Visual Studio Code e XXE XMLMind editor.

Preparación da materia prima (Transcrición e anonimización)

Sesión impartida por Alba Fernández Sanmartín e Mario Barcala.

12:00 – 14:00

As gravacións (de audio ou vídeo) deben adaptarse a un formato textual para ser «dixeribles».

Prácticas: Recodificación da conversa da sesión anterior a mp3, anonimización da conversa, transcrición automática, revisión da transcrición automática e aliñamento co audio.

Ferramentas: Audacity, Turboscribe e Elan.

O robot de cociña (Codificación e tecnoloxía)

Sesión impartida por Eva María Domínguez Noya, María Paula Santalla del Río e Mario Barcala.

16:00 – 18:00

O dato en bruto non se pode cociñar. Como se limpan e codifican os textos: lematización, POS-tagging (etiquetaxe gramatical) e análise sintáctica (parsing).

Prácticas: Etiquetación morfosintáctica automática da conversa das sesións anteriores, revisión da etiquetación automática e validación.

Ferramentas: ChatGPT e XXE XMLMind Editor.

8
Xullo

Módulo 3. Cociñar a lume lento: enfoques cualitativos e cuantitativos (6 horas)

Redución de sabores

9:30 – 11:30

Enfoques cualitativos e cuantitativos na lingüística de corpus.

A frecuencia dos elementos lingüísticos e algunhas consecuencias da súa distribución estatística.

Degustación

12:00 – 14:00

Estudos léxicos, gramaticais e discursivos mediante corpus.

Corpus orais e investigación sociolingüística.

Cata a cegas

16:00 – 18:00

Casos prácticos de aplicación dos métodos presentados nas sesións anteriores.

9
Xullo

Módulo 4. Cociña de fusión e molecular: multilingüismo e experimentos (6 horas)

Cociña de fusión

9:30 – 11:30

O estudo do multilingüismo e o code-switching (proxecto BabelBrain). Como analizar corpus onde se mesturan linguas mantendo o equilibrio estrutural.

Variables relevantes na análise do contacto de linguas. Retos metodolóxicos na segmentación e anotación de datos multilingües.

Laboratorio de sabores (I+D Experimental)

12:00 – 14:00

Introdución á combinación de datos de corpus con métodos e deseños experimentais para validar hipóteses sobre o procesamento e o comportamento do falante multilingüe.

O Padal Bilingüe: análise práctica de datos de contacto de linguas

16:00 – 18:00

Sesión aplicada centrada no exame de mostras reais de interacción bilingüe para identificar patróns de alternancia de código, transferencia e acomodación ao contexto sociolingüístico.

10
Xullo

Módulo 5. O banquete final: alta cociña lingüística

Emma Bierings, Simon Claasen, Sabela Morais, Hugo Parra, Aaron Santa María, Hannah Treadway.

Showcooking

9:30 – 11:30

Mesa redonda na que novos investigadores internacionais en formación, procedentes de Gante, Leiden e Santiago de Compostela, mostrarán como aplicaron a tipoloxía de corpus nas súas teses e proxectos.

Obradoiro «O meu primeiro prato»

12:00 – 14:00

Obradoiro. Os asistentes deseñarán unha microinvestigación propia, seleccionando o tipo de corpus máis axeitado, a técnica de análise e o tipo de conclusións que se poden formular de maneira lexítima.

O Banquete: presentación de proxectos e clausura

16:00 – 18:00

Posta en común das microinvestigacións elaboradas durante o obradoiro, discusión final cos relatores e peche do curso cun balance xeral dos contidos, aprendizaxes e posibles liñas futuras de traballo.

Profesores

Victoria Vázquez Rozas

Victoria Vázquez é profesora titular de Lingua española na USC. A súa investigación céntrase en aspectos sintácticos e discursivos do español cun enfoque baseado no uso e, máis recentemente, no desenvolvemento e análise de corpus orais. É coeditora do volume Sintaxis del español / The Routledge Handbook of Spanish Syntax (2023) e coautora da Introducción a la sintaxis del español (Routledge, 2025). Desde 2007 coordina o equipo PRESEGAL da USC, integrado no proxecto panhispánico PRESEEA, e entre 2011 e 2025 dirixiu o equipo da USC que participa na construción do CORPES XXI no marco do contrato RAE–USC. Nos últimos anos foi IP dos proxectos competitivos que permitiron elaborar o corpus ESLORA de español falado en Galicia.

M. Carmen Parafita Couto

M. Carmen Parafita Couto é Investigadora Distinguida na Universidade de Santiago de Compostela a través do programa ATRAE e investigadora principal do proxecto BabelBrain. Doutora en Lingüística pola Universidade de Kansas (2005), a súa traxectoria académica desenvolveuse principalmente na Universidade de Leiden (Países Baixos), onde exerceu como profesora titular ata o 2025. A súa actividade investigadora céntrase no multilingüismo e o contacto de linguas, destacando especialmente polo estudo do code-switching mediante a integración de lingüística de corpus e métodos experimentais. Ao longo da súa carreira, liderou proxectos internacionais financiados por axencias como NWO e FWO sobre ecoloxías multilingües en África Occidental e América Central. No ámbito da lingüística de recursos, coordinou o desenvolvemento do Leiden Learner Corpus (LLC) e de BangorTalk, unha plataforma de corpus de fala bilingüe (galés-inglés, español-inglés, español-galés) anotados para o estudo da alternancia de código. Tamén impulsou a creación de LeiLanD (Leiden Language Database), un catálogo de metadatos sobre datos lingüísticos recollidos por investigadores para facilitar a súa xestión e reutilización. Actualmente é editora xefe da serie Current Issues in Bilingualism e editora asociada de Isogloss: Open Journal of Romance Linguistics.

Guillermo Rojo

Guillermo Rojo, catedrático de Lingüística española ata a súa xubilación en 2017 e actualmente profesor emérito na USC, é autor de numerosos traballos sobre teoría sintáctica, sintaxe do español, sociolingüística e socioloxía da linguaxe. Dirixiu a elaboración da Base de datos sintácticos del español actual, que permite a análise das estruturas sintácticas clausais a partir do seu uso en corpus. Traballou no deseño, construción e explotación do Corpus de referencia del español actual (CREA), o Corpus diacrónico del español (CORDE) e o Corpus del español del siglo XXI (CORPES), construídos todos eles pola Real Academia Española, proxectos que coordinou desde os seus inicios e segue coordinando na actualidade. Por encargo do Instituto Cervantes, dirixiu, con Ignacio Palacios, o Corpus de aprendices de español como segunda lengua (CAES). Foi tamén responsable do Corpus de referencia do galego actual (CORGA) desenvolto no Centro Ramón Piñeiro para a investigación en Humanidades, no que coordinou a sección de lingüística desde a creación do centro ata agosto de 2017.

María Paula Santalla del Río

María Paula Santalla del Río é desde 2006 profesora contratada doutora na USC. A súa investigación céntrase na Lingüística de corpus e no Procesamento da Linguaxe Natural para o desenvolvemento e explotación de corpus. Participou en quince proxectos de investigación, entre os que destacan os que resultaron na elaboración da Base de datos sintácticos, o Corpus de Referencia del Español Actual da Real Academia Española, Document Routing, un proxecto de ámbito europeo sobre reencamiñamento automático de documentos e, actualmente, ESLORA, para o desenvolvemento dun corpus oral de español de Galicia. Deses quince proxectos dirixiu tres, centrados en gramáticas formais (Gramática formal e funcional do español), recuperación de información (Gari-Coter) e anotación sintáctica de corpus (DRASAE). Dirixiu así mesmo dúas teses doutorais sobre explotación de corpus para a descrición da orde de constituíntes en español e análise automática de preguntas en español. Hoxe centra a súa investigación na análise sintáctica da oralidade.

Eva María Domínguez Noya

Eva M.ª Domínguez Noya é Doutora en Filoloxía Hispánica e licenciada en Filoloxía Galego-Portuguesa pola Universidade de Santiago de Compostela. Actualmente é investigadora asociada adscrita ao Instituto da Lingua Galega (USC). O seu labor investigador céntrase fundamentalmente na área da lingüística computacional, traballando tanto co galego coma co castelán. En relación co primeiro, coordina a parte lingüística do Corpus de Referencia do Galego Actual (CORGA) e é a responsable da creación e mantemento dos recursos lingüísticos que emprega o Etiquetador/Lematizador do Galego Actual (XIADA). Respecto do castelán, colabora no proxecto ESLORA, o corpus para o estudo do español oral, na anotación morfolóxica automática bilingüe do corpus e na análise sintáctica manual de entrevistas.

Hannah Treadway

Hannah Treadway é doutoranda en Lingüística hispánica na University of Florida, onde desenvolve a súa investigación no Bilingual Sentence Processing Lab e no Brain, Language, and Bilingualism Lab. O seu traballo emprega técnicas neurais e conductuais (EEG, eye-tracking) para caracterizar como os atributos sociolingüísticos do contexto multilingüe, medidos a través de corpus, redes sociais persoais e instrumentos de entropía e diversidade lingüística, se reflicten na neurocognición durante o procesamento bi-/multilingüe. A súa tese doutoral explora como a variabilidade entre comunidades e entre individuos no code-switching español-inglés, documentada en corpus, se manifesta no seu procesamento. O seu traballo avoga por un enfoque socialmente fundamentado do estudo do multilingüismo en contextos experimentais.

Mario Barcala

Mario Barcala é enxeñeiro en informática e doutor en Computación pola Universidade da Coruña. Actualmente é o director técnico de NLPgo Technologies, S.L., unha empresa dedicada ao desenvolvemento de aplicacións relacionadas coa lingüística, na que traballa para ofrecer solucións técnicas a problemas relativos a diversos aspectos da lingüística de corpus. Participou no desenvolvemento do Etiquetador/Lematizador do Galego Actual (XIADA) e de diversas ferramentas e aplicacións web para a xestión e a consulta de corpus, como o Corpus de Referencia do Galego Actual (CORGA), o Tesouro Informatizado da Lingua Galega (TILG), o Corpus para el estudio del español oral (ESLORA), o Corpus de aprendices de español como lengua extranjera (CAES), a Interfaz de datos de la lengua de signos española (LSE), ou os Recursos lingüísticos sobre enfermedades raras (RERCOR), entre outras.

Alba Fernández Sanmartín

Alba Fernández Sanmartín é doutora en lingüística pola Universidade de Santiago de Compostela. Desde xuño de 2025 exerce como Profesora Axudante Doutora na USC. Desde 2026, é directora do equipo de Santiago de Compostela encargado do desenvolvemento de CORPES XXI, no marco dun contrato de investigación asinado entre a Real Academia Española (RAE) e a USC. Participou en proxectos competitivos do Plan Nacional para a creación do corpus ESLORA do español de Galicia. A súa produción científica céntrase na análise das metodoloxías para a compilación de corpus orais e, nos últimos anos, no uso da linguaxe nas redes sociais desde unha perspectiva empírica e discursivo-pragmática.

Lucía Vieitez Portas

Lucía Vieitez Portas é doutora en Psicoloxía pola Universidade de Santiago de Compostela. A súa tese, de carácter multidisciplinar e vocación psicolingüística, investigou os efectos da connotación emocional das palabras no procesamento da concordancia de xénero gramatical a nivel neural (EEG) e condutual. Colaborou en estudos sobre o procesamento lingüístico en poboacións multilingües, destacando o uso de corpus para o control metodolóxico dos materiais. Actualmente forma parte do proxecto BabelBrain, liderado por M. Carmen Parafita Couto, en calidade de investigadora posdoutoral.

Matrícula

Taxa xeral: 120 € (curso de 25 ou máis horas).

Taxa reducida: 70 € (curso de 25 ou máis horas).

A taxa reducida aplícase a:

Á parte, deben subscribir o seguro obrigatorio de accidentes e asistencia en viaxe as seguintes persoas:

  1. Non matriculadas en estudos oficiais na USC no curso académico 2025-26.
  2. Matriculadas en estudos oficiais na USC no curso académico 2025-26 maiores de 28 anos ou de nacionalidade estranxeira que non teñan contratado este seguro nos estudos nos que formalizaron matrícula.

Este seguro subscríbese na propia plataforma de Xescampus no momento de formalizar a matrícula no curso de verán e ten un custe de 20,69 €. No caso de matricularse en máis dun curso, a mesma póliza é válida para todos os cursos.

UNHA VEZ REALIZADA A MATRÍCULA, NON SE EFECTUARÁN DEVOLUCIÓNS AGÁS NO CASO DE SUSPENSIÓN DO CURSO.

Prazo de matrícula

Ábrese o prazo o 14 de maio de 2026 ata o 26 de xuño de 2026.

Formalización da matrícula

Podes formalizar a matrícula accedendo á páxina da Universidade de Verán da USC.

Créditos e diploma

Toda persoa inscrita nun curso de verán que cumpra coa asistencia ao 80% das horas lectivas do curso, recibirá un diploma acreditativo.

Por outra parte, a USC recoñece os cursos da Universidade de Verán a efectos de créditos ECTS, en todas as titulacións de Grao, para o estudantado da USC que estivese matriculado nun grao no momento de realizar o curso de verán e recibirán a tal efecto un certificado de crédito, sempre e cando cumpran coa asistencia ao 80% das horas lectivas do curso, coa seguinte equivalencia: 2 créditos por cada curso de 25 ou máis horas e 1 crédito por cada curso de menos de 25 horas.

Contacto

Dirección

M. Carmen Parafita Couto: mcarmen.parafita.couto@usc.gal

Victoria Vázquez Rozas: victoria.vazquez@usc.es

Secretaría

Alba Fernández Sanmartín: alba.fernandez@usc.es