Como investigar con corpus

Xullo

Módulo 2. Técnicas de cociña: O procesado e a etiquetaxe (6 horas)

Módulo práctico onde o alumnado levará a cabo por si mesmo (coa guía e axuda dos/as profesores/as) todas as fases de creación dun corpus oral aplicadas a un exemplo sinxelo. Uns días antes do comezo do curso facilitaranse as instrucións para instalar as ferramentas necesarias.

Recollida en orixe (Traballo de campo)

Sesión impartida por Alba Fernández Sanmartín e Mario Barcala.

9:30 – 11:30

Como recoller a materia prima sen estragala: gravacións orais, ética e tratamento de variedades e rexistro de metadatos.

Prácticas: Gravación dunha conversa, transferencia da gravación ao ordenador e creación dos metadatos da conversa.

Ferramentas: Teléfono móbil, ordenador e os programas Visual Studio Code e XXE XMLMind editor.

Preparación da materia prima (Transcrición e anonimización)

Sesión impartida por Alba Fernández Sanmartín e Mario Barcala.

12:00 – 14:00

As gravacións (de audio ou vídeo) deben adaptarse a un formato textual para ser «dixeribles».

Prácticas: Recodificación da conversa da sesión anterior a mp3, anonimización da conversa, transcrición automática, revisión da transcrición automática e aliñamento co audio.

Ferramentas: Audacity, Turboscribe e Elan.

O robot de cociña (Codificación e tecnoloxía)

Sesión impartida por Eva María Domínguez Noya, María Paula Santalla del Río e Mario Barcala.

16:00 – 18:00

O dato en bruto non se pode cociñar. Como se limpan e codifican os textos: lematización, POS-tagging (etiquetaxe gramatical) e análise sintáctica (parsing).

Prácticas: Etiquetación morfosintáctica automática da conversa das sesións anteriores, revisión da etiquetación automática e validación.

Ferramentas: ChatGPT e XXE XMLMind Editor.

Profesores

Victoria Vázquez Rozas

Victoria Vázquez é profesora titular de Lingua española na USC. A súa investigación céntrase en aspectos sintácticos e discursivos do español cun enfoque baseado no uso e, máis recentemente, no desenvolvemento e análise de corpus orais. É coeditora do volume Sintaxis del español / The Routledge Handbook of Spanish Syntax (2023) e coautora da Introducción a la sintaxis del español (Routledge, 2025). Desde 2007 coordina o equipo PRESEGAL da USC, integrado no proxecto panhispánico PRESEEA, e entre 2011 e 2025 dirixiu o equipo da USC que participa na construción do CORPES XXI no marco do contrato RAE–USC. Nos últimos anos foi IP dos proxectos competitivos que permitiron elaborar o corpus ESLORA de español falado en Galicia.

M. Carmen Parafita Couto

M. Carmen Parafita Couto é Investigadora Distinguida na Universidade de Santiago de Compostela a través do programa ATRAE e investigadora principal do proxecto BabelBrain. Doutora en Lingüística pola Universidade de Kansas (2005), a súa traxectoria académica desenvolveuse principalmente na Universidade de Leiden (Países Baixos), onde exerceu como profesora titular ata o 2025. A súa actividade investigadora céntrase no multilingüismo e o contacto de linguas, destacando especialmente polo estudo do code-switching mediante a integración de lingüística de corpus e métodos experimentais. Ao longo da súa carreira, liderou proxectos internacionais financiados por axencias como NWO e FWO sobre ecoloxías multilingües en África Occidental e América Central. No ámbito da lingüística de recursos, coordinou o desenvolvemento do Leiden Learner Corpus (LLC) e de BangorTalk, unha plataforma de corpus de fala bilingüe (galés-inglés, español-inglés, español-galés) anotados para o estudo da alternancia de código. Tamén impulsou a creación de LeiLanD (Leiden Language Database), un catálogo de metadatos sobre datos lingüísticos recollidos por investigadores para facilitar a súa xestión e reutilización. Actualmente é editora xefe da serie Current Issues in Bilingualism e editora asociada de Isogloss: Open Journal of Romance Linguistics.

Guillermo Rojo

Guillermo Rojo, catedrático de Lingüística española ata a súa xubilación en 2017 e actualmente profesor emérito na USC, é autor de numerosos traballos sobre teoría sintáctica, sintaxe do español, sociolingüística e socioloxía da linguaxe. Dirixiu a elaboración da Base de datos sintácticos del español actual, que permite a análise das estruturas sintácticas clausais a partir do seu uso en corpus. Traballou no deseño, construción e explotación do Corpus de referencia del español actual (CREA), o Corpus diacrónico del español (CORDE) e o Corpus del español del siglo XXI (CORPES), construídos todos eles pola Real Academia Española, proxectos que coordinou desde os seus inicios e segue coordinando na actualidade. Por encargo do Instituto Cervantes, dirixiu, con Ignacio Palacios, o Corpus de aprendices de español como segunda lengua (CAES). Foi tamén responsable do Corpus de referencia do galego actual (CORGA) desenvolto no Centro Ramón Piñeiro para a investigación en Humanidades, no que coordinou a sección de lingüística desde a creación do centro ata agosto de 2017.

María Paula Santalla del Río

María Paula Santalla del Río é desde 2006 profesora contratada doutora na USC. A súa investigación céntrase na Lingüística de corpus e no Procesamento da Linguaxe Natural para o desenvolvemento e explotación de corpus. Participou en quince proxectos de investigación, entre os que destacan os que resultaron na elaboración da Base de datos sintácticos, o Corpus de Referencia del Español Actual da Real Academia Española, Document Routing, un proxecto de ámbito europeo sobre reencamiñamento automático de documentos e, actualmente, ESLORA, para o desenvolvemento dun corpus oral de español de Galicia. Deses quince proxectos dirixiu tres, centrados en gramáticas formais (Gramática formal e funcional do español), recuperación de información (Gari-Coter) e anotación sintáctica de corpus (DRASAE). Dirixiu así mesmo dúas teses doutorais sobre explotación de corpus para a descrición da orde de constituíntes en español e análise automática de preguntas en español. Hoxe centra a súa investigación na análise sintáctica da oralidade.

Eva María Domínguez Noya

Eva M.ª Domínguez Noya é Doutora en Filoloxía Hispánica e licenciada en Filoloxía Galego-Portuguesa pola Universidade de Santiago de Compostela. Actualmente é investigadora asociada adscrita ao Instituto da Lingua Galega (USC). O seu labor investigador céntrase fundamentalmente na área da lingüística computacional, traballando tanto co galego coma co castelán. En relación co primeiro, coordina a parte lingüística do Corpus de Referencia do Galego Actual (CORGA) e é a responsable da creación e mantemento dos recursos lingüísticos que emprega o Etiquetador/Lematizador do Galego Actual (XIADA). Respecto do castelán, colabora no proxecto ESLORA, o corpus para o estudo do español oral, na anotación morfolóxica automática bilingüe do corpus e na análise sintáctica manual de entrevistas.

Hannah Treadway

Hannah Treadway é doutoranda en Lingüística hispánica na University of Florida, onde desenvolve a súa investigación no Bilingual Sentence Processing Lab e no Brain, Language, and Bilingualism Lab. O seu traballo emprega técnicas neurais e conductuais (EEG, eye-tracking) para caracterizar como os atributos sociolingüísticos do contexto multilingüe, medidos a través de corpus, redes sociais persoais e instrumentos de entropía e diversidade lingüística, se reflicten na neurocognición durante o procesamento bi-/multilingüe. A súa tese doutoral explora como a variabilidade entre comunidades e entre individuos no code-switching español-inglés, documentada en corpus, se manifesta no seu procesamento. O seu traballo avoga por un enfoque socialmente fundamentado do estudo do multilingüismo en contextos experimentais.

Mario Barcala

Mario Barcala é enxeñeiro en informática e doutor en Computación pola Universidade da Coruña. Actualmente é o director técnico de NLPgo Technologies, S.L., unha empresa dedicada ao desenvolvemento de aplicacións relacionadas coa lingüística, na que traballa para ofrecer solucións técnicas a problemas relativos a diversos aspectos da lingüística de corpus. Participou no desenvolvemento do Etiquetador/Lematizador do Galego Actual (XIADA) e de diversas ferramentas e aplicacións web para a xestión e a consulta de corpus, como o Corpus de Referencia do Galego Actual (CORGA), o Tesouro Informatizado da Lingua Galega (TILG), o Corpus para el estudio del español oral (ESLORA), o Corpus de aprendices de español como lengua extranjera (CAES), a Interfaz de datos de la lengua de signos española (LSE), ou os Recursos lingüísticos sobre enfermedades raras (RERCOR), entre outras.

Alba Fernández Sanmartín

Alba Fernández Sanmartín é doutora en lingüística pola Universidade de Santiago de Compostela. Desde xuño de 2025 exerce como Profesora Axudante Doutora na USC. Desde 2026, é directora do equipo de Santiago de Compostela encargado do desenvolvemento de CORPES XXI, no marco dun contrato de investigación asinado entre a Real Academia Española (RAE) e a USC. Participou en proxectos competitivos do Plan Nacional para a creación do corpus ESLORA do español de Galicia. A súa produción científica céntrase na análise das metodoloxías para a compilación de corpus orais e, nos últimos anos, no uso da linguaxe nas redes sociais desde unha perspectiva empírica e discursivo-pragmática.

Lucía Vieitez Portas

Lucía Vieitez Portas é doutora en Psicoloxía pola Universidade de Santiago de Compostela. A súa tese, de carácter multidisciplinar e vocación psicolingüística, investigou os efectos da connotación emocional das palabras no procesamento da concordancia de xénero gramatical a nivel neural (EEG) e condutual. Colaborou en estudos sobre o procesamento lingüístico en poboacións multilingües, destacando o uso de corpus para o control metodolóxico dos materiais. Actualmente forma parte do proxecto BabelBrain, liderado por M. Carmen Parafita Couto, en calidade de investigadora posdoutoral.

Como investigar con corpus

A cociña do lingüista: ingredientes, receitas e segredos da capacidade lingüística

Módulo 1. A despensa do lingüista: Tipoloxía de corpus e infraestruturas (6 horas)

Os ingredientes

A organización das cociñas

O mercado global

Módulo 2. Técnicas de cociña: O procesado e a etiquetaxe (6 horas)

Recollida en orixe (Traballo de campo)

Preparación da materia prima (Transcrición e anonimización)

O robot de cociña (Codificación e tecnoloxía)

Módulo 3. Cociñar a lume lento: enfoques cualitativos e cuantitativos (6 horas)

Redución de sabores

Degustación

Cata a cegas

Módulo 4. Cociña de fusión e molecular: multilingüismo e experimentos (6 horas)

Cociña de fusión

Laboratorio de sabores (I+D Experimental)

O Padal Bilingüe: análise práctica de datos de contacto de linguas

Módulo 5. O banquete final: alta cociña lingüística

Showcooking

Obradoiro «O meu primeiro prato»

O Banquete: presentación de proxectos e clausura

Profesores

Victoria Vázquez Rozas

M. Carmen Parafita Couto

Guillermo Rojo

María Paula Santalla del Río

Eva María Domínguez Noya

Hannah Treadway

Mario Barcala

Alba Fernández Sanmartín

Lucía Vieitez Portas

Matrícula

Prazo de matrícula

Formalización da matrícula

Créditos e diploma

Contacto

Dirección

Secretaría