Formalismo de codificación del error (versión 1)

15 de mayo de 2014

Consideraciones generales
Definiciones previas
El formalismo de transcripción
Observaciones para la aplicación del formalismo de transcripción
El formalismo de codificación del error
Observaciones para la aplicación del formalismo de codificación del error

Consideraciones generales

Este documento describe los formalismos de codificación desarrollados tanto para la transcripción de las redacciones manuscritas de los alumnos de la Universidad Católica de Santo Toribio que constituyen el corpus de estudio en el proyecto «Diagnóstico de la competencia lingüística en la redacción de textos escritos en alumnos de ingreso de la Escuela Profesional de Derecho de la Universidad Católica Santo Toribio de Mogrovejo», como para el análisis del error lingüístico hallado en los mismos.

Es un documento en curso que describe un trabajo en curso en el que colaboran Fabiola Fernández Doig, Eliana Llanos Cuentas, Belén López Meirama y la autora de esta página: a partir de un diseño previo, el análisis de los textos sugiere extensiones, que se trata de restringir en la medida de lo posible, de ese diseño previo del formalismo.

Este documento ha de completarse con el que recoge la tipología de errores elaborada para llevar a cabo el análisis de errores.

Definiciones previas

Secuencia
Fragmentos de texto entre puntuación mayor (punto, punto y coma -excepto el de enumeraciones-, dos puntos, signos de interrogación y exclamación, rayas, paréntesis).
Segmento
Mínimo segmento de una secuencia con el que se da cuenta de un error localizado en una secuencia: el segmento en el que se aprecie que algo que se ha omitido no habría debido omitirse, el segmento en el que se aprecie que una coma entre un sujeto y su predicado se ha introducido erróneamente, la palabra a la que falta una tilde, etc.
Segmento corregido
El segmento anterior corregido allí donde sea necesario.

El formalismo de transcripción

Formato de los ficheros de transcripción de la imagen del texto manuscrito. Estos ficheros se nombran del modo siguiente:

DígitoDígitoDígito_Letra-de-transcriptor_Fecha-ultima-revision.txt,

los tres dígitos se corresponden con el código del informante, la letra de transcriptor es

B para Belén López Meirama,
E para Eliana Llanos Cuentas,
F para Fabiola Fernández Doig,
P para María Paula Santalla del Río,

puede haber más de una, separadas por guion, el mínimo será dos para considerar un fichero parte del corpus, la fecha de última revisión en el formato añomesdía: por ejemplo, 20140401.

Observaciones para la aplicación del formalismo de transcripción

El formalismo de codificación del error

Formato de los ficheros que identifican los errores. Estos ficheros se nombran del modo siguiente:

DígitoDígitoDígito-errores_Letra-de-revisor_Fecha-ultima-revision.txt,

los tres dígitos se corresponden con el código del informante, la letra de revisor es

B para Belén López Meirama,
E para Eliana Llanos Cuentas,
F para Fabiola Fernández Doig,
P para María Paula Santalla del Río,

puede haber más de una, separadas por guion, el mínimo será dos para considerar un fichero parte del corpus, la fecha de última revisión en el formato añomesdía: por ejemplo, 20140401.

En estos ficheros se recogen todas las secuencias del texto. Para cada secuencia, en una primera línea se recogen, en primer lugar, la numeración correlativa de la secuencia con tres dígitos, la secuencia y una propuesta de corrección para ella separadas por tabuladores. En segundo lugar, la serie de segmentos que en la secuencia contienen errores. Para cada segmento se recoge el segmento erróneo original y el segmento corregido separados por un tabulador, y a continuación en líneas sucesivas la serie de errores que describen a ese segmento y su corrección de acuerdo con la tipología de errores definida. Cada error identificado puede opcionalmente ir seguido de tabulador y una localización en una obra de referencia. Los segmentos corregidos pueden, además, ir aquí precedidos de la etiqueta <DISTINTO> si por alguna razón difieren de lo propuesto en la secuencia corregida. En tercer lugar, puede también aparecer un encabezamiento <TEXTUALIDAD> que precede a una serie de errores que, aunque advertidos en esa secuencia, solo se constatan al tener en cuenta el resto del texto. Opcionalmente estos errores pueden ir seguidos de dos puntos y una serie de pares de segmentos separados por barras oblicuas: el primero correspondiente al segmento original y el segundo al corregido. Al final del fichero puede opcionalmente aparecer la etiqueta <<TEXTUALIDAD>> precediendo a la enumeración de errores que conciernen a todo el texto. Utilizando referencias genéricas, un fichero de identificación de errores debería tener esta apariencia (lo que se recoge entre corchetes es opcional):

001TABULADORSecuenciaTABULADORSecuencia corregida

Segmento 1TABULADOR[<DISTINTO>]Segmento corregido
Error identificado 1[TABULADOR(Localización en obra de referencia)]
Error identificado 2[TABULADOR(Localización en obra de referencia)]
...
Error identificado n[TABULADOR(Localización en obra de referencia)]

Segmento 2TABULADOR[<DISTINTO>]Segmento corregido
Error identificado 1[TABULADOR(Localización en obra de referencia)]
Error identificado 2[TABULADOR(Localización en obra de referencia)]
...
Error identificado n[TABULADOR(Localización en obra de referencia)]

Segmento nTABULADOR[<DISTINTO>]Segmento corregido
Error identificado 1[TABULADOR(Localización en obra de referencia)]
Error identificado 2[TABULADOR(Localización en obra de referencia)]
...
Error identificado n[TABULADOR(Localización en obra de referencia)]

[<TEXTUALIDAD>
Error identificado 1[:Segmento 1/Segmento 1 corregido, Segmento 2/Segmento 2 corregido,...Segmento n/Segmento n corregido]
...
Error identificado n[:Segmento 1/Segmento 1 corregido, Segmento 2/Segmento 2 corregido,...Segmento n/Segmento n corregido]]

002TABULADORSecuenciaTABULADORSecuencia corregida]

Segmento 1TABULADOR[<DISTINTO>]Segmento corregido
Error identificado 1[TABULADOR(Localización en obra de referencia)]
Error identificado 2[TABULADOR(Localización en obra de referencia)]
...
Error identificado n[TABULADOR(Localización en obra de referencia)]

Segmento 2TABULADOR[<DISTINTO>]Segmento corregido
Error identificado 1[TABULADOR(Localización en obra de referencia)]
Error identificado 2[TABULADOR(Localización en obra de referencia)]
...
Error identificado n[TABULADOR(Localización en obra de referencia)]

Segmento nTABULADOR[<DISTINTO>]Segmento corregido
Error identificado 1[TABULADOR(Localización en obra de referencia)]
Error identificado 2[TABULADOR(Localización en obra de referencia)]
...
Error identificado n[TABULADOR(Localización en obra de referencia)]

...

[<TEXTUALIDAD>
Error identificado 1[:Segmento 1/Segmento 1 corregido, Segmento 2/Segmento 2 corregido,...Segmento n/Segmento n corregido]
...
Error identificado n[:Segmento 1/Segmento 1 corregido, Segmento 2/Segmento 2 corregido,...Segmento n/Segmento n corregido]]

nTABULADORSecuenciaTABULADORSecuencia corregida

Segmento 1TABULADOR[<DISTINTO>]Segmento corregido
Error identificado 1[TABULADOR(Localización en obra de referencia)]
Error identificado 2[TABULADOR(Localización en obra de referencia)]
...
Error identificado n[TABULADOR(Localización en obra de referencia)]

Segmento 2TABULADOR[<DISTINTO>]Segmento corregido
Error identificado 1[TABULADOR(Localización en obra de referencia)]
Error identificado 2[TABULADOR(Localización en obra de referencia)]
...
Error identificado n[TABULADOR(Localización en obra de referencia)]

Segmento nTABULADOR[<DISTINTO>]Segmento corregido
Error identificado 1[TABULADOR(Localización en obra de referencia)]
Error identificado 2[TABULADOR(Localización en obra de referencia)]
...
Error identificado n[TABULADOR(Localización en obra de referencia)]

[<TEXTUALIDAD>
Error identificado 1[:Segmento 1/Segmento 1 corregido, Segmento 2/Segmento 2 corregido,...Segmento n/Segmento n corregido]
...
Error identificado n[:Segmento 1/Segmento 1 corregido, Segmento 2/Segmento 2 corregido,...Segmento n/Segmento n corregido]]

[<<TEXTUALIDAD>>
Error identificado 1
...
Error identificado n]

Observaciones para la aplicación del formalismo de codificación del error