En lingüística y pedagogía , una glosa interlineal es una glosa (serie de explicaciones breves, como definiciones o pronunciaciones) colocada entre líneas, como por ejemplo entre una línea de texto original y su traducción a otro idioma . Cuando se glosa, cada línea del texto original adquiere una o más líneas de transcripción correspondientes conocidas como texto interlineal o texto glosado interlineal ( IGT ), un interlineal para abreviar. Estas glosas ayudan al lector a seguir la relación entre el texto fuente y su traducción, y la estructura del idioma original. En su forma más simple, una glosa interlineal es una traducción literal, palabra por palabra, del texto fuente .
Las glosas interlineales se han utilizado para diversos fines durante un largo período de tiempo. Un uso común ha sido anotar libros de texto bilingües para la educación de idiomas. Este tipo de interlinealización sirve para ayudar a hacer explícito el significado de un texto fuente sin intentar modelar formalmente las características estructurales del idioma fuente.
En ocasiones, estas anotaciones no se han expresado mediante un diseño interlineal, sino mediante la enumeración de palabras en el objeto y el metalenguaje. Un ejemplo de ello es la anotación del náhuatl clásico de Wilhelm von Humboldt : [1]
1
ni-
1
yo
2
do-
3
maché
3
chihui
2
es
4
-lia
4
pelo
5
en
5
der
6
No-
6
mio
7
piltzín
7
hijo
8
CE
8
un
9
calli
9
casa
Este estilo "en línea" permite incluir ejemplos dentro del flujo de texto y escribir el orden de las palabras del idioma de destino en un orden que se aproxime a la sintaxis del idioma de destino. (En la glosa aquí, mache es se reordena a partir del orden de origen correspondiente para aproximarse a la sintaxis alemana de manera más natural). Aun así, este enfoque requiere que los lectores "realineen" las correspondencias entre las formas de origen y de destino.
Los enfoques más modernos de los siglos XIX y XX optaron por glosar verticalmente, alineando el mismo tipo de contenido palabra por palabra de tal manera que los términos del metalenguaje se colocaran verticalmente debajo de los términos del idioma de origen. En este estilo, el ejemplo dado podría traducirse así (aquí glosa en inglés):
ni-
I
do-
él
chihui
hacer
-lia
para
en
hacia
No-
mi
piltzín
hijo
CE
a
calli
casa
"Le hice una casa a mi hijo".
Aquí el orden de las palabras está determinado por la sintaxis del lenguaje objeto.
Finalmente, los lingüistas modernos han adoptado la práctica de utilizar etiquetas de categorías gramaticales abreviadas. Una publicación de 2008 que repite este ejemplo lo etiqueta de la siguiente manera: [2]
ni-c-chihui-lia
1SG . SUBJ - 3SG . OBJ -mach- APPL
en
DET
sin piltzin
1SG . POSS -Sohn
CE
un
calli
casa
Este enfoque es más denso y también requiere esfuerzo de lectura, pero depende menos de la estructura gramatical del metalenguaje para expresar la semántica de las formas objetivo.
En informática, se proporcionan marcadores de texto especiales en el bloque Unicode Especiales para indicar el inicio y el final de las glosas interlineales.
Aunque no existe una especificación formal para el formato IGT, las Reglas de glosado de Leipzig [3] son un conjunto de pautas que tienen como objetivo estandarizar el formato tanto como sea posible.
Un texto interlineal para lingüística normalmente constará de algunos o todos los siguientes, generalmente en este orden, de arriba a abajo:
y finalmente
A modo de ejemplo, la siguiente cláusula Minnan taiwanesa ha sido transcrita con cinco líneas de texto:
(1.)
(2.)
(3.)
(4.)
ir
ir a 1
ir a 2
I
iáu-boē
iau 1 -boe 3
iau 2 -boe 7
aún no
koat-tēng
koat 2 -teng 3
koat 4 -teng 7
decidir
tang-sî
espiga 7 - si 5
espiga 1 -si 5
cuando
boeh
boe 2
boe 4
desear
tńg-khì
tng 1 -khi 3 .
tng 2 -khi 3 .
devolver.
(5.) "Aún no he decidido cuándo regresaré".
Alineación palabra por palabra . Según las Reglas de glosado de Leipzig, es estándar alinear a la izquierda las palabras del lenguaje objeto con las palabras correspondientes del metalenguaje; esta alineación se puede observar entre las líneas (1-3) y la línea (4).
Correspondencia morfema por morfema . A nivel de subpalabra, los morfemas segmentables están separados por guiones, tanto en el ejemplo como en la glosa. Debe haber la misma cantidad de guiones en el ejemplo y en la glosa, como se muestra en el siguiente ejemplo:
gila
ahora
abur-un
ellos- OBL - GEN
ferma
granja
hamišaluǧ
para siempre
güǧüna
detrás
amuqʼ-da-č
estancia- FUT - NEG
"Ahora su granja no se quedará atrás para siempre".
Etiquetas de categorías gramaticales . En amuqʼ-da-č , la raíz ( amuq ) se traduce al lexema inglés correspondiente ( stay ), mientras que los afijos flexivos ( da ) y ( č ) son afijos flexivos que representan el tiempo futuro y la negación. Estos afijos flexivos se glosan como FUT y NEG ; En las Reglas de glosado de Leipzig se puede encontrar una lista de abreviaturas estándar para categorías gramaticales que se utilizan ampliamente en lingüística.
Correspondencias uno a muchos . Cuando un solo elemento del lenguaje objeto corresponde a varios elementos del metalenguaje, se separan por puntos. [3] Por ejemplo,
çık-mak
come.out- INF
'salir'
Elementos no manifiestos . Si la glosa morfema por morfema (línea central) contiene un elemento que no corresponde a un elemento explícito en el ejemplo, una estrategia estándar es incluir un "ø" explícito en el texto del lenguaje objeto, [3] que es Separado por un guión como un elemento abierto sería:
puer-ø
chico- NOM
'chico'
La reduplicación se trata de manera similar a la fijación, pero con una tilde (en lugar del guión estándar) que conecta el elemento copiado con la raíz: [3]
bi~bili
IPFV ~ comprar
'está comprando'
En las glosas morfológicas interlineales, varias formas de puntuación separan las glosas. Normalmente, las palabras están alineadas con sus glosas; dentro de las palabras, se utiliza un guión cuando se marca un límite tanto en el texto como en su glosa, período en el que un límite aparece solo en una. Es decir, debe haber la misma cantidad de palabras separadas por espacios en el texto y su glosa, así como la misma cantidad de morfemas con guiones dentro de una palabra y su glosa. Este es el sistema básico y puede aplicarse universalmente. Por ejemplo:
oda-dan
habitación- ABL
habitación desde
hız-lı
velocidad- COM
velocidad con
çık-tı-m
salir- PFV - 1sg
salir-perfectivo-yo
turco
"Salí de la habitación rápidamente".
Se puede usar un guión bajo en lugar de un punto, como en go_out- PFV , cuando una sola palabra en el idioma de origen corresponde a una frase en el idioma de glosa, aunque aún se usaría un punto para otras situaciones, como en el griego oikíais. casa. FEM.PL.DAT 'a las casas'.
Sin embargo, a veces se pueden hacer distinciones más sutiles. Por ejemplo, los clíticos pueden separarse con un guión doble (o, para facilitar la escritura, un signo igual) en lugar de un guión. Un ejemplo francés:
je⹀te⹀aime
te amo
(Francés)
'Te amo.'
Los afijos que causan discontinuidad ( infijos , circunfijos , transfijos, etc.) pueden resaltarse mediante corchetes angulares y la reduplicación con tildes, en lugar de guiones:
sulat
escribir
su~sulado
estado de ánimo contemplativo ~ escribir
s ⟨um⟩ ulat
⟨ agente activador .pasado⟩ escribir
s ⟨um⟩ u~sulat
⟨agente activador⟩ contemplativo~escribir
(Consulte el afijo para ver otros ejemplos).
Los morfemas que no se pueden separar fácilmente, como diéresis , se pueden marcar con una barra invertida en lugar de un punto:
unser-n
nuestro- DAT . pl
Väter-n
padre\ PL - DAT . pl
(Alemán)
'a nuestros padres' (el singular de Väter 'padres' es Vater )
Algunas otras convenciones que a veces se ven se ilustran en las Reglas de glosado de Leipzig. [3]
Se han realizado esfuerzos para digitalizar IGT en cientos de idiomas del mundo. [5]
La base de datos en línea de texto interlineal (ODIN) es una base de datos de más de 200.000 instancias de glosas interlineales para más de 1.500 idiomas extraídas de investigaciones lingüísticas académicas. [6] La base de datos se construyó en dos fases: construcción automática seguida de corrección manual. La etapa de construcción automática se completó en tres pasos:
En la fase de corrección manual, los creadores de la base de datos corrigieron manualmente los límites de las instancias de brillo interlineal descubiertas mediante el método de etiquetado de secuencia en el Paso 2 de la fase de construcción automática. Luego, los creadores verificaron los nombres y códigos de idioma en una segunda y tercera pasada sobre los datos, respectivamente.
Se han desarrollado modelos de procesamiento del lenguaje natural que aprovechan los recursos de brillo interlineal, como la base de datos en línea de texto interlineal. [7] [8]
Los sistemas de procesamiento del lenguaje natural, por ejemplo, se han desarrollado para producir automáticamente glosas interlineales: [7]
mal
tu- GEN
ħumukuli
camello
elu-ab-ok'ek'-asi
nosotros. OBL - ERG . 1 . PL -robar- PRT
anu
ser. NEG
"Nosotros no robamos tu camello".
Dada la línea segmentada del morfema (primera línea arriba) y la línea de traducción libre (tercera línea arriba), la tarea es producir la línea glosada media que comprende las traducciones de la raíz (p. ej., mi : you ) y las etiquetas de categorías gramaticales correspondientes a los afijos (p. ej. , , a : ERG.1.PL ). Para realizar esta tarea se han utilizado modelos de predicción de secuencias procedentes del Procesamiento del Lenguaje Natural. [7] Dos factores contribuyen a la dificultad de esta tarea:
Los investigadores han utilizado glosas interlineales para obtener los paradigmas morfológicos del lenguaje objeto (es decir, el lenguaje que se está glosando). Para crear automáticamente paradigmas morfológicos a partir de glosas interlineales, los investigadores han creado tablas para cada raíz de la glosa y un espacio (posiblemente vacío) para cada categoría gramatical (por ejemplo, ERG) en la glosa. Por ejemplo, dada la siguiente frase glosada: [7]
Vecher-om
tarde- INS
ya
1 . SG . NOMBRE
pobeja-la
ejecutar- PFV . Hora del Pacífico . SG . FEM
v
en
revista
almacenar. CAC
"Por la tarde corrí a la tienda."
Habría un paradigma para la raíz pobeja con ranuras para PFV.PST.SG.FEM y PFV.PST.SG.MASC :
El espacio para PFV.PST.SG.FEM estaría lleno (ya que se observó en los datos de brillo interlineal) pero el espacio para PFV.PST.SG.MASC estaría vacío (suponiendo que ninguna otra instancia de brillo interlineal contenga pobeja flexionada para la categoría gramatical PFV.PST.SG.MASC ). Se puede utilizar un modelo estadístico de aprendizaje automático para la inflexión morfológica para completar las entradas que faltan. [8] [9] [10] [11] [12]