Baixo o título oficial Como investigar con corpus, esta edición adopta a metáfora da "Cociña do lingüista" para convidar aos participantes a "meter as mans na masa" da investigación lingüística. O curso está dirixido a un público diverso (estudantes de bacharelato e universitarios, profesorado de ensino medio e persoas interesadas) e propón entrar na botica da ciencia para vivir o proceso desde dentro: non nos limitaremos a "consumir" datos, senón que aprenderemos a coñecer e seleccionar os ingredientes (unha rigorosa tipoloxía que inclúe oralidade, escritura, dialectos, lingua en desenvolvemento e contacto), preparalos (codificación técnica) e cociñalos e probalos experimentalmente (análise cognitiva) para entender a mente humana.
Os corpus textuais e a súa tipoloxía xeral.
A lingüística de corpus como metodoloxía.
Deseño, procesamento e explotación de diferentes tipos de corpus.
Sesión práctica. A perspectiva do usuario: como seleccionar o corpus que se vai utilizar e como obter a información dos diferentes corpus presentados nas sesións anteriores.
Módulo práctico onde o alumnado levará a cabo por si mesmo (coa guía e axuda dos/as profesores/as) todas as fases de creación dun corpus oral aplicadas a un exemplo sinxelo. Uns días antes do comezo do curso facilitaranse as instrucións para instalar as ferramentas necesarias.
Sesión impartida por Alba Fernández Sanmartín e Mario Barcala.
Como recoller a materia prima sen estragala: gravacións orais, ética e tratamento de variedades e rexistro de metadatos.
Prácticas: Gravación dunha conversa, transferencia da gravación ao ordenador e creación dos metadatos da conversa.
Ferramentas: Teléfono móbil, ordenador e os programas Visual Studio Code e XXE XMLMind editor.
Sesión impartida por Alba Fernández Sanmartín e Mario Barcala.
As gravacións (de audio ou vídeo) deben adaptarse a un formato textual para ser «dixeribles».
Prácticas: Recodificación da conversa da sesión anterior a mp3, anonimización da conversa, transcrición automática, revisión da transcrición automática e aliñamento co audio.
Ferramentas: Audacity, Turboscribe e Elan.
Sesión impartida por Eva María Domínguez Noya, María Paula Santalla del Río e Mario Barcala.
O dato en bruto non se pode cociñar. Como se limpan e codifican os textos: lematización, POS-tagging (etiquetaxe gramatical) e análise sintáctica (parsing).
Prácticas: Etiquetación morfosintáctica automática da conversa das sesións anteriores, revisión da etiquetación automática e validación.
Ferramentas: ChatGPT e XXE XMLMind Editor.
Enfoques cualitativos e cuantitativos na lingüística de corpus.
A frecuencia dos elementos lingüísticos e algunhas consecuencias da súa distribución estatística.
Estudos léxicos, gramaticais e discursivos mediante corpus.
Corpus orais e investigación sociolingüística.
Casos prácticos de aplicación dos métodos presentados nas sesións anteriores.
O estudo do multilingüismo e o code-switching (proxecto BabelBrain). Como analizar corpus onde se mesturan linguas mantendo o equilibrio estrutural.
Variables relevantes na análise do contacto de linguas. Retos metodolóxicos na segmentación e anotación de datos multilingües.
Introdución á combinación de datos de corpus con métodos e deseños experimentais para validar hipóteses sobre o procesamento e o comportamento do falante multilingüe.
Sesión aplicada centrada no exame de mostras reais de interacción bilingüe para identificar patróns de alternancia de código, transferencia e acomodación ao contexto sociolingüístico.
Emma Bierings, Simon Claasen, Sabela Morais, Hugo Parra, Aaron Santa María, Hannah Treadway.
Mesa redonda na que novos investigadores internacionais en formación, procedentes de Gante, Leiden e Santiago de Compostela, mostrarán como aplicaron a tipoloxía de corpus nas súas teses e proxectos.
Obradoiro. Os asistentes deseñarán unha microinvestigación propia, seleccionando o tipo de corpus máis axeitado, a técnica de análise e o tipo de conclusións que se poden formular de maneira lexítima.
Posta en común das microinvestigacións elaboradas durante o obradoiro, discusión final cos relatores e peche do curso cun balance xeral dos contidos, aprendizaxes e posibles liñas futuras de traballo.
Victoria Vázquez é profesora titular de Lingua española na USC. A súa investigación céntrase en aspectos sintácticos e discursivos do español cun enfoque baseado no uso e, máis recentemente, no desenvolvemento e análise de corpus orais. É coeditora do volume Sintaxis del español / The Routledge Handbook of Spanish Syntax (2023) e coautora da Introducción a la sintaxis del español (Routledge, 2025). Desde 2007 coordina o equipo PRESEGAL da USC, integrado no proxecto panhispánico PRESEEA, e entre 2011 e 2025 dirixiu o equipo da USC que participa na construción do CORPES XXI no marco do contrato RAE–USC. Nos últimos anos foi IP dos proxectos competitivos que permitiron elaborar o corpus ESLORA de español falado en Galicia.
M. Carmen Parafita Couto é Investigadora Distinguida na Universidade de Santiago de Compostela a través do programa ATRAE e investigadora principal do proxecto BabelBrain. Doutora en Lingüística pola Universidade de Kansas (2005), a súa traxectoria académica desenvolveuse principalmente na Universidade de Leiden (Países Baixos), onde exerceu como profesora titular ata o 2025. A súa actividade investigadora céntrase no multilingüismo e o contacto de linguas, destacando especialmente polo estudo do code-switching mediante a integración de lingüística de corpus e métodos experimentais. Ao longo da súa carreira, liderou proxectos internacionais financiados por axencias como NWO e FWO sobre ecoloxías multilingües en África Occidental e América Central. No ámbito da lingüística de recursos, coordinou o desenvolvemento do Leiden Learner Corpus (LLC) e de BangorTalk, unha plataforma de corpus de fala bilingüe (galés-inglés, español-inglés, español-galés) anotados para o estudo da alternancia de código. Tamén impulsou a creación de LeiLanD (Leiden Language Database), un catálogo de metadatos sobre datos lingüísticos recollidos por investigadores para facilitar a súa xestión e reutilización. Actualmente é editora xefe da serie Current Issues in Bilingualism e editora asociada de Isogloss: Open Journal of Romance Linguistics.
Guillermo Rojo, catedrático de Lingüística española ata a súa xubilación en 2017 e actualmente profesor emérito na USC, é autor de numerosos traballos sobre teoría sintáctica, sintaxe do español, sociolingüística e socioloxía da linguaxe. Dirixiu a elaboración da Base de datos sintácticos del español actual, que permite a análise das estruturas sintácticas clausais a partir do seu uso en corpus. Traballou no deseño, construción e explotación do Corpus de referencia del español actual (CREA), o Corpus diacrónico del español (CORDE) e o Corpus del español del siglo XXI (CORPES), construídos todos eles pola Real Academia Española, proxectos que coordinou desde os seus inicios e segue coordinando na actualidade. Por encargo do Instituto Cervantes, dirixiu, con Ignacio Palacios, o Corpus de aprendices de español como segunda lengua (CAES). Foi tamén responsable do Corpus de referencia do galego actual (CORGA) desenvolto no Centro Ramón Piñeiro para a investigación en Humanidades, no que coordinou a sección de lingüística desde a creación do centro ata agosto de 2017.
María Paula Santalla del Río é desde 2006 profesora contratada doutora na USC. A súa investigación céntrase na Lingüística de corpus e no Procesamento da Linguaxe Natural para o desenvolvemento e explotación de corpus. Participou en quince proxectos de investigación, entre os que destacan os que resultaron na elaboración da Base de datos sintácticos, o Corpus de Referencia del Español Actual da Real Academia Española, Document Routing, un proxecto de ámbito europeo sobre reencamiñamento automático de documentos e, actualmente, ESLORA, para o desenvolvemento dun corpus oral de español de Galicia. Deses quince proxectos dirixiu tres, centrados en gramáticas formais (Gramática formal e funcional do español), recuperación de información (Gari-Coter) e anotación sintáctica de corpus (DRASAE). Dirixiu así mesmo dúas teses doutorais sobre explotación de corpus para a descrición da orde de constituíntes en español e análise automática de preguntas en español. Hoxe centra a súa investigación na análise sintáctica da oralidade.
Eva M.ª Domínguez Noya é Doutora en Filoloxía Hispánica e licenciada en Filoloxía Galego-Portuguesa pola Universidade de Santiago de Compostela. Actualmente é investigadora asociada adscrita ao Instituto da Lingua Galega (USC). O seu labor investigador céntrase fundamentalmente na área da lingüística computacional, traballando tanto co galego coma co castelán. En relación co primeiro, coordina a parte lingüística do Corpus de Referencia do Galego Actual (CORGA) e é a responsable da creación e mantemento dos recursos lingüísticos que emprega o Etiquetador/Lematizador do Galego Actual (XIADA). Respecto do castelán, colabora no proxecto ESLORA, o corpus para o estudo do español oral, na anotación morfolóxica automática bilingüe do corpus e na análise sintáctica manual de entrevistas.
Hannah Treadway é doutoranda en Lingüística hispánica na University of Florida, onde desenvolve a súa investigación no Bilingual Sentence Processing Lab e no Brain, Language, and Bilingualism Lab. O seu traballo emprega técnicas neurais e conductuais (EEG, eye-tracking) para caracterizar como os atributos sociolingüísticos do contexto multilingüe, medidos a través de corpus, redes sociais persoais e instrumentos de entropía e diversidade lingüística, se reflicten na neurocognición durante o procesamento bi-/multilingüe. A súa tese doutoral explora como a variabilidade entre comunidades e entre individuos no code-switching español-inglés, documentada en corpus, se manifesta no seu procesamento. O seu traballo avoga por un enfoque socialmente fundamentado do estudo do multilingüismo en contextos experimentais.
Mario Barcala é enxeñeiro en informática e doutor en Computación pola Universidade da Coruña. Actualmente é o director técnico de NLPgo Technologies, S.L., unha empresa dedicada ao desenvolvemento de aplicacións relacionadas coa lingüística, na que traballa para ofrecer solucións técnicas a problemas relativos a diversos aspectos da lingüística de corpus. Participou no desenvolvemento do Etiquetador/Lematizador do Galego Actual (XIADA) e de diversas ferramentas e aplicacións web para a xestión e a consulta de corpus, como o Corpus de Referencia do Galego Actual (CORGA), o Tesouro Informatizado da Lingua Galega (TILG), o Corpus para el estudio del español oral (ESLORA), o Corpus de aprendices de español como lengua extranjera (CAES), a Interfaz de datos de la lengua de signos española (LSE), ou os Recursos lingüísticos sobre enfermedades raras (RERCOR), entre outras.
Alba Fernández Sanmartín é doutora en lingüística pola Universidade de Santiago de Compostela. Desde xuño de 2025 exerce como Profesora Axudante Doutora na USC. Desde 2026, é directora do equipo de Santiago de Compostela encargado do desenvolvemento de CORPES XXI, no marco dun contrato de investigación asinado entre a Real Academia Española (RAE) e a USC. Participou en proxectos competitivos do Plan Nacional para a creación do corpus ESLORA do español de Galicia. A súa produción científica céntrase na análise das metodoloxías para a compilación de corpus orais e, nos últimos anos, no uso da linguaxe nas redes sociais desde unha perspectiva empírica e discursivo-pragmática.
Lucía Vieitez Portas é doutora en Psicoloxía pola Universidade de Santiago de Compostela. A súa tese, de carácter multidisciplinar e vocación psicolingüística, investigou os efectos da connotación emocional das palabras no procesamento da concordancia de xénero gramatical a nivel neural (EEG) e condutual. Colaborou en estudos sobre o procesamento lingüístico en poboacións multilingües, destacando o uso de corpus para o control metodolóxico dos materiais. Actualmente forma parte do proxecto BabelBrain, liderado por M. Carmen Parafita Couto, en calidade de investigadora posdoutoral.
Taxa xeral: 120 € (curso de 25 ou máis horas).
Taxa reducida: 70 € (curso de 25 ou máis horas).
A taxa reducida aplícase a:
Á parte, deben subscribir o seguro obrigatorio de accidentes e asistencia en viaxe as seguintes persoas:
Este seguro subscríbese na propia plataforma de Xescampus no momento de formalizar a matrícula no curso de verán e ten un custe de 20,69 €. No caso de matricularse en máis dun curso, a mesma póliza é válida para todos os cursos.
UNHA VEZ REALIZADA A MATRÍCULA, NON SE EFECTUARÁN DEVOLUCIÓNS AGÁS NO CASO DE SUSPENSIÓN DO CURSO.
Ábrese o prazo o 14 de maio de 2026 ata o 26 de xuño de 2026.
Podes formalizar a matrícula accedendo á páxina da Universidade de Verán da USC.
Toda persoa inscrita nun curso de verán que cumpra coa asistencia ao 80% das horas lectivas do curso, recibirá un diploma acreditativo.
Por outra parte, a USC recoñece os cursos da Universidade de Verán a efectos de créditos ECTS, en todas as titulacións de Grao, para o estudantado da USC que estivese matriculado nun grao no momento de realizar o curso de verán e recibirán a tal efecto un certificado de crédito, sempre e cando cumpran coa asistencia ao 80% das horas lectivas do curso, coa seguinte equivalencia: 2 créditos por cada curso de 25 ou máis horas e 1 crédito por cada curso de menos de 25 horas.
M. Carmen Parafita Couto: mcarmen.parafita.couto@usc.gal
Victoria Vázquez Rozas: victoria.vazquez@usc.es
Alba Fernández Sanmartín: alba.fernandez@usc.es