stringtranslate.com

Brillo interlineal

En lingüística y pedagogía , una glosa interlineal es una glosa (serie de explicaciones breves, como definiciones o pronunciaciones) colocada entre líneas, como entre una línea de texto original y su traducción a otro idioma . Cuando se glosa, cada línea del texto original adquiere una o más líneas correspondientes de transcripción conocidas como texto interlineal o texto glosado interlineal ( IGT ), un interlineal para abreviar. Tales glosas ayudan al lector a seguir la relación entre el texto fuente y su traducción, y la estructura del idioma original. En su forma más simple, una glosa interlineal es una traducción literal, palabra por palabra, del texto fuente .

Historia

Texto interlineal en Toussaint–Langenscheidt Spanisch , un libro de texto en español para hablantes de alemán , 1910

Las glosas interlineales se han utilizado con diversos fines durante un largo período de tiempo. Un uso común ha sido el de anotar libros de texto bilingües para la enseñanza de idiomas. Este tipo de interlinealización sirve para ayudar a hacer explícito el significado de un texto fuente sin intentar modelar formalmente las características estructurales de la lengua fuente.

En ocasiones, estas anotaciones no se han expresado mediante un diseño interlineal, sino más bien mediante la enumeración de palabras en el lenguaje objeto y meta. Un ejemplo de ello es la anotación del náhuatl clásico de Wilhelm von Humboldt : [1]

1

ni-

1

yo

2

do-

3

Maché

3

chihuahua

2

es

4

-lia

4

pelo

5

en

5

El

6

No-

6

yo

7

Piltzin

7

Hijo

8

esto

8

uno

9

callos

9

Casa

1 2 3 4 5 6 7 8 9

ni- c- chihui -lia in no- piltzin ce calli

1 3 2 4 5 6 7 8 9

ich mache es für der mein Sohn ein Haus

Este estilo "en línea" permite incluir ejemplos dentro del flujo del texto y que el orden de las palabras del idioma de destino se escriba en un orden que se aproxime a la sintaxis del idioma de destino. (En la glosa que aparece aquí, mache es se reordena a partir del orden de origen correspondiente para aproximarse a la sintaxis alemana de forma más natural). Aun así, este enfoque requiere que los lectores "realineen" las correspondencias entre las formas de origen y destino.

Los enfoques más modernos de los siglos XIX y XX adoptaron la glosa vertical, alineando el mismo tipo de contenido palabra por palabra de tal manera que los términos del metalenguaje se ubicaban verticalmente debajo de los términos del idioma de origen. En este estilo, el ejemplo dado podría traducirse así (aquí glosa en inglés):

ni-

I

do-

él

chihuahua

hacer

-lia

para

en

hacia

No-

mi

Piltzin

hijo

esto

a

callos

casa

ni- c- chihui -lia in no- piltzin ce calli

Yo le hago una casa a mi hijo

"Le hice una casa a mi hijo."

Aquí el orden de las palabras está determinado por la sintaxis del lenguaje objeto.

Por último, los lingüistas modernos han adoptado la práctica de utilizar etiquetas de categorías gramaticales abreviadas. Una publicación de 2008 que repite este ejemplo lo etiqueta de la siguiente manera: [2]

ni-c-chihui-lia

1SG . SUJETO - 3SG . OBJ -mach- APPL

en

DET

sin piltzin

1SG.POSS - Señor

esto

uno

callos

Casa

ni-c-chihui-lia en no-piltzin ce calli

1SG.SUBJ-3SG.OBJ-mach-APPL DET 1SG.POSS-Sohn ein Haus

Este enfoque es más denso y también requiere esfuerzo para leerlo, pero depende menos de la estructura gramatical del metalenguaje para expresar la semántica de las formas de destino.

En informática, se proporcionan marcadores de texto especiales en el bloque Unicode Especiales para indicar el inicio y el final de las glosas interlineales.

Estructura

Aunque no existe una especificación formal para el formato IGT, las Reglas de Glosa de Leipzig [3] son ​​un conjunto de pautas que apuntan a estandarizar el formato tanto como sea posible.

Un texto interlineal para lingüística comúnmente constará de algunos o todos los siguientes elementos, generalmente en este orden, de arriba a abajo:

Y finalmente

A modo de ejemplo, se ha transcrito la siguiente cláusula Minnan taiwanesa con cinco líneas de texto:

1. la transliteración estándar pe̍h-ōe-jī ,
2. un brillo que utiliza números de tono para los tonos de la superficie,
3. una glosa que muestra los tonos subyacentes en forma de cita (antes de pasar por el sandhi de tonos ),
4. una glosa morfema por morfema en inglés , y
5. una traducción al inglés: [4]

(1.)

(2.)

(3.)

(4.)

Goá

Goa 1

Goa 2

I

iáu-boe

AIU 1 -BOE 3

AIU 2 -BOE 7

aún no

koat-tēng

capa 2 -teng 3

capa 4 -tengo 7

decidir

Tang-sí

espiga 7 -si 5

espiga 1 -si 5

cuando

bohemio

bohemio 2

árbol 4

desear

Tøg-khì

tng 1 -khi 3 .

tng 2 -khi 3 .

devolver.

(1.) goá iáu-boē koat-tēng tang-sî boeh tńg-khì

(2.) goa1 iau1-boe3 koat2-teng3 tang7-si5 boeh2 tng1-khi3.

(3.) goa2 iau2-boe7 koat4-teng7 tang1-si5 boeh4 tng2-khi3.

(4.) Aún no decido cuándo quiero regresar.

(5.) "Aún no he decidido cuándo regresaré."

Alineación palabra por palabra . Según las reglas de glosa de Leipzig, lo habitual es alinear a la izquierda las palabras del idioma objeto con las palabras correspondientes del metalenguaje; esta alineación se puede ver entre las líneas (1-3) y (4).

Correspondencia morfema a morfema . A nivel de subpalabra, los morfemas segmentables se separan mediante guiones, tanto en el ejemplo como en la glosa. Debe haber el mismo número de guiones en el ejemplo y en la glosa, como se muestra en el siguiente ejemplo:

Gila

ahora

Abu-un

ellos- OBL - GEN

cerrajero

granja

hamišaluǧ

para siempre

güǧüna

detrás

amuq'-da-č

quedarse- FUT - NEG

Gila abur-un ferma hamišaluǧ güǧüna amuqʼ-da-č

Ahora ellos-OBL-GEN cultivan para siempre detrás de stay-FUT-NEG

«Ahora su granja no se quedará atrás para siempre».

Etiquetas de categorías gramaticales . En amuqʼ-da-č , la raíz ( amuq ) se traduce al lexema correspondiente en inglés ( stay ), mientras que los afijos flexivos ( da ) y ( č ) son afijos flexivos que representan el tiempo futuro y la negación. Estos afijos flexivos se glosan como FUT y NEG ; en las Reglas de glosa de Leipzig se puede encontrar una lista de abreviaturas estándar para categorías gramaticales que se usan ampliamente en lingüística.

Correspondencias de uno a muchos . Cuando un único elemento del lenguaje objeto corresponde a varios elementos del metalenguaje, se separan mediante puntos. [3] Por ejemplo,

çık-mak

Salir- INF

çık-mak

salir-INF

'salir'

Elementos no evidentes . Si la glosa morfema por morfema (línea del medio) contiene un elemento que no corresponde a un elemento evidente en el ejemplo, una estrategia estándar es incluir un "ø" evidente en el texto del lenguaje objeto, [3] que está separado por un guión como lo sería un elemento evidente:

puer-ø

Chico- NOM

puer-ø

niño-NOM

'chico'

La reduplicación se trata de manera similar a la afijación pero con una tilde (en lugar del guión estándar) que conecta el elemento copiado con la raíz: [3]

bi-bili

IPFV ~comprar

bi-bili

IPFV~comprar

'esta comprando'

Puntuación

En las glosas morfológicas interlineales, las glosas se separan mediante diversas formas de puntuación. Normalmente, las palabras se alinean con sus glosas; dentro de las palabras, se utiliza un guión cuando se marca un límite tanto en el texto como en su glosa, y un punto cuando el límite aparece solo en una de ellas. Es decir, debe haber el mismo número de palabras separadas por espacios en el texto y en su glosa, así como el mismo número de morfemas con guión dentro de una palabra y de su glosa. Este es el sistema básico, y se puede aplicar de forma universal. Por ejemplo:

El tiempo es corto.

Oda-dan

Habitación- ABL

Habitación desde

hız-lı

velocidad- COM

velocidad-con

çık-tı-m

Salir- PFV - 1sg

salir-perfectivo-yo

turco

 

 

oda-dan hız-lı çık-tı-m

habitación-ABL velocidad-COM salida-PFV-1sg

habitación-de-velocidad-con-salir-perfectiva-I

'Salí de la habitación rápidamente.'

Se puede utilizar un guión bajo en lugar de un punto, como en go_out- PFV , cuando una sola palabra en el idioma de origen corresponde a una frase en el idioma de glosa, aunque todavía se usaría un punto para otras situaciones, como en griego oikíais house. FEM.PL.DAT 'a las casas'.

Sin embargo, a veces se pueden hacer distinciones más sutiles. Por ejemplo, los clíticos se pueden separar con un guion doble (o, para facilitar la escritura, con un signo igual) en lugar de un guion. Un ejemplo en francés:

Te amo.

te amo

Yo te amo

(Francés)

 

te amo

Yo te amo

'Te amo.'

Los afijos que causan discontinuidad ( infijos , circunfijos , transfijos, etc.) pueden separarse con corchetes angulares y reduplicarse con tildes, en lugar de con guiones:

sulat, susulat, sumulat, sumusulat (declinaciones verbales) (tagalo)

Sulat

escribir

su~sultado

estado de ánimo contemplativo ~ escribir

s ⟨um⟩ ulat

desencadenador de agente .past⟩ escritura

s ⟨um⟩ u~sulat

⟨agente  desencadenador⟩ escritura contemplativa

sulat su~sulat s ⟨um⟩ ulat s ⟨um⟩ u~sulat

escribir estado de ánimo contemplativo~escribir agente disparador .pasado⟩ escribir ⟨agente  disparador⟩ contemplativo~escribir

(Véase el afijo para otros ejemplos.)

Los morfemas que no se pueden separar fácilmente, como la diéresis , se pueden marcar con una barra invertida en lugar de un punto:

Unser-n

nuestro- DAT . PL

Váter-n

padre\ PL - DAT . PL

(Alemán)

 

nuestro-n Väter-n

nuestro-DAT.PL padre\PL-DAT.PL

'a nuestros padres' (el singular de Väter 'padres' es Vater )

Algunas otras convenciones que a veces se ven se ilustran en las Reglas de glosa de Leipzig. [3]

Recursos de glosa interlineal

Se han realizado esfuerzos para digitalizar IGT para cientos de idiomas del mundo. [5]

Base de datos en línea de texto interlineal

La base de datos en línea de texto interlineal (ODIN) es una base de datos de más de 200.000 casos de glosas interlineales para más de 1.500 idiomas extraídas de investigaciones lingüísticas académicas. [6] La base de datos se construyó en dos fases: construcción automática seguida de corrección manual. La etapa de construcción automática en sí se completó en tres pasos:

  1. En primer lugar, se realizaron consultas a motores de búsqueda (por ejemplo, Google, Bing) para recuperar documentos académicos que pudieran contener glosas interlineales. Las consultas comprendían términos relevantes para la investigación lingüística, como morfemas gramaticales (por ejemplo, "NOM", abreviatura de nominativo; "3SG", abreviatura de tercera persona del singular).
  2. En segundo lugar, se etiquetó cada línea de un documento extraído para determinar si pertenecía a una glosa interlineal o no, utilizando métodos de etiquetado de secuencia de aprendizaje automático.
  3. En tercer lugar, a cada instancia de glosa interlineal se le asignó un nombre de idioma (por ejemplo, tagalo) y un identificador de idioma ISO 693-3. Los nombres de idioma y los identificadores se asignaron automáticamente a las glosas interlineales utilizando modelos de resolución de correferencia de procesamiento del lenguaje natural, donde la instancia de glosa interlineal se etiquetó con el nombre del idioma (y el identificador) que aparece en el documento académico del que se extrajo la instancia de glosa interlineal. [6]

En la fase de corrección manual, los creadores de la base de datos corrigieron manualmente los límites de las instancias de glosa interlineal descubiertas mediante el método de etiquetado de secuencias en el Paso 2 de la fase de construcción automática. Luego, los creadores verificaron los nombres y los códigos de los idiomas en una segunda y tercera pasadas sobre los datos, respectivamente.

Procesamiento automático de instancias de brillo interlineal

Se han desarrollado modelos de procesamiento del lenguaje natural que aprovechan recursos de glosa interlineal, como la base de datos en línea de texto interlineal. [7] [8]

Brillo automático

Por ejemplo, se han desarrollado sistemas de procesamiento del lenguaje natural para producir automáticamente glosas interlineales: [7]

mal

tú- GEN

Humukuli

camello

elu-ab-ok'ek'-asi

nosotros. OBL - ERG . 1 . PL -robar- PRT

Anu

ser.NEG

mi-s ħumukuli elu-ab-ok'ek'-asi anu

tu-GEN camello nosotros.OBL-ERG.1.PL-robar-PRT ser.NEG

-No te robamos tu camello.

Dada la línea segmentada del morfema (primera línea arriba) y la línea de traducción libre (tercera línea arriba), la tarea es producir la línea glosada central que comprende las traducciones de la raíz (por ejemplo, mi : you ) y las etiquetas de categoría gramatical correspondientes a los afijos (por ejemplo, a : ERG.1.PL ). Se han utilizado modelos de predicción de secuencias del procesamiento del lenguaje natural para realizar esta tarea. [7] Dos factores contribuyen a la dificultad de esta tarea:

  1. La traducción no está necesariamente alineada con la línea segmentada del morfema (por ejemplo, camello es la última palabra en la traducción pero la segunda palabra en la línea segmentada del morfema).
  2. Algunas palabras en la línea segmentada de morfemas tienen múltiples correspondencias en la glosa (por ejemplo, anu : be.NEG ).

Algunos lenguajes construidos como Ithkuil y Lojban tienen herramientas automatizadas que (en teoría) siempre darán como resultado glosas precisas debido a la naturaleza regularizada y lógica de estos lenguajes. A continuación se muestran ejemplos de glosas de Ithkuil y Lojban respectivamente:

A'zvaţcaxüẓpöňḑeššaščëirktöňçogjahnói

S1 - “perro” - 'lo que se infiere que es X'₁- 'enorme'₁- 'como resultado planificado de la acción humana'₁- 'algo u otro'₁- DDF - 'como polvo'₁- 'comido como merienda'₁- 'se desconoce la confiabilidad de la fuente y la información no es verificable'₁- 'conjetura/teoría/hipótesis que es comprobable/verificable'₁- COU - POT

nnţ

"Sólo puede significar una cosa..."

A'zvaţcaxüẓpöňḑeššaščëirktöňçogjahnói nnţ

S1-“dog”-‘what is inferred to be X’₁-‘huge’₁-‘as a planned result of human action’₁-‘some or other’₁-DDF-'as powder or dust’₁-‘eaten as afternoon snack’₁-‘trustworthiness of source unknown, and info not verifiable’₁-‘conjecture/theory/hypothesis that is testable/verifiable’₁-COU-POT "It can only mean one thing..."

Solo hay una explicación; no puedo probarlo y mi estado mental está algo confuso, pero definitivamente habría sido una fusión mal formada de ese par de criaturas enormes creadas por el hombre que parecen perros en forma de polvo que se sirvieron como merienda allí cerca de ti. Ah, y no me cites.

mi

Yo = x 1

lucio

lavar

El

DET

Creka

camisa=x 2

El

DET

Grasa

grasa=x 3

El

DET

reírse

río=x 4

mi lumci le creka le grasu le rirxe

I=x1 wash DET shirt=x2 DET grease=x3 DET river=x4

Me lavo la grasa de la camisa en el río.

Descubrimiento automático de la estructura morfológica a partir de glosas

Los investigadores han utilizado glosas interlineales para obtener los paradigmas morfológicos de la lengua objeto (es decir, la lengua que se está glosando). Para crear automáticamente paradigmas morfológicos a partir de glosas interlineales, los investigadores han creado tablas para cada raíz de la glosa y un espacio (posiblemente vacío) para cada categoría gramatical (por ejemplo, ERG) en la glosa. Por ejemplo, dada la oración glosada a continuación: [7]

Vecher-om

tarde -INS

1 . SG . NOM

pobeja-la

correr- PFV . PST . SG . FEM

en

en

revista

tienda.ACC

Vecher-om ya pobeja-la v magazin

evening-INS 1.SG.NOM run-PFV.PST.SG.FEM in store.ACC

'Por la tarde corrí a la tienda.'

Habría un paradigma para el tallo pobeja con ranuras para PFV.PST.SG.FEM y PFV.PST.SG.MASC :

El espacio correspondiente a PFV.PST.SG.FEM se llenaría (ya que se observó en los datos de glosa interlineal), pero el espacio correspondiente a PFV.PST.SG.MASC estaría vacío (asumiendo que ninguna otra instancia de glosa interlineal contiene pobeja con inflexión para la categoría gramatical PFV.PST.SG.MASC ). Se puede utilizar un modelo de aprendizaje automático estadístico para la inflexión morfológica para completar las entradas faltantes. [8] [9] [10] [11] [12]

Véase también

Referencias

  1. ^ Lehmann, cristiano (23 de enero de 2004). "Instrucciones para traducciones morfémicas interlineales". En Geert Booij; Christian Lehmann; Joaquín Mugdan; Stavros Skopeteas (eds.). Morfología. Ein internationales Handbuch zur Flexion und Wortbildung . Handbücher der Sprach- und Kommunikationswissenschaft. vol. 2. Berlín: W. de Gruyter. págs. 1834–1857.
  2. ^ Haspelmath, Martin (2008). Tipología de las lenguas y universales lingüísticos: un manual internacional . Walter de Gruyter. pág. 715. ISBN 978-3-11-011423-2.
  3. ^ abcde Bickel, Balthasar; Bernard Comrie; Martin Haspelmath (febrero de 2008). "Las reglas de glosa de Leipzig. Convenciones para glosas de morfemas interlineales". Departamento de Lingüística – Recursos – Reglas de glosa . Consultado el 30 de junio de 2010 .
  4. ^ Ejemplo de Vocabulario básico para principiantes en taiwanés de Ko Chek Hoan y Tan Pang Tin
  5. ^ Georgi, Ryan (2016). De Aari a Zulu: creación masiva y multilingüe de herramientas lingüísticas utilizando texto glosado interlineal (PhD). Universidad de Washington.
  6. ^ ab Xia, Fei; Lewis, William; Wayne, Michael; Slayden, Glenn; Georgi, Ryan; Crowgey, Joshua; Bender, Emily (2016). "Enriquecimiento de una base de datos multilingüe masiva de textos glosados ​​interlineales". Recursos lingüísticos y evaluación . 50 (2): 321–349. doi :10.1007/s10579-015-9325-4. S2CID  2674996 . Consultado el 15 de diciembre de 2021 .
  7. ^ abcd Xingyuan, Zhao; Satoru, Ozaki; Anastasopoulos, Antonios; Neubig, Graham; Levin, Lori (2020). "Glosado interlineal automático para idiomas con pocos recursos que aprovechan las traducciones". COLING . Actas de la 28.ª Conferencia Internacional sobre Lingüística Computacional: 5397–5408. doi : 10.18653/v1/2020.coling-main.471 . S2CID  227231816 . Consultado el 15 de diciembre de 2021 .
  8. ^ ab Moeller, Sarah; Liu, Ling; Yang, Changbing; Kann, Katharina; Hulden, Mans (2020). "IG2P: De textos glosados ​​interlineales a paradigmas". EMNLP . Actas de la Conferencia de 2020 sobre métodos empíricos en el procesamiento del lenguaje natural (EMNLP): 5251–5262. doi : 10.18653/v1/2020.emnlp-main.424 . S2CID  226262296 . Consultado el 15 de diciembre de 2021 .
  9. ^ Silfverberg, Miikka; Hulden, Mans (2018). "Un enfoque codificador-decodificador para el problema de llenado de celdas paradigmáticas". Actas de la Conferencia de 2018 sobre métodos empíricos en el procesamiento del lenguaje natural . Bruselas, Bélgica: Asociación de Lingüística Computacional. págs. 2883–2889. doi : 10.18653/v1/D18-1315 . S2CID  53082616.
  10. ^ Wu, Shijie; Cotterell, Ryan; Hulden, Mans (2021). "Aplicación del transformador a la transducción a nivel de caracteres". Actas de la 16.ª Conferencia del Capítulo Europeo de la Asociación de Lingüística Computacional: Volumen principal . En línea: Asociación de Lingüística Computacional. págs. 1901–1907. arXiv : 2005.10213 . doi : 10.18653/v1/2021.eacl-main.163 . S2CID  218718982.
  11. ^ Nicolai, Garrett; Cherry, Colin; Kondrak, Grzegorz (2015). "Generación de inflexiones como transducción de cadenas discriminativa". Actas de la Conferencia de 2015 del Capítulo norteamericano de la Asociación de Lingüística Computacional: Tecnologías del lenguaje humano . Denver, Colorado: Asociación de Lingüística Computacional. págs. 922–931. doi : 10.3115/v1/N15-1093 . S2CID  14929030.
  12. ^ Bhargava, Aditya; Kondrak, Grzegorz (2012). "Aprovechamiento de representaciones suplementarias para la transducción secuencial". Actas de la Conferencia de 2012 del Capítulo norteamericano de la Asociación de Lingüística Computacional: Tecnologías del lenguaje humano . Montreal, Canadá: Asociación de Lingüística Computacional: 396–406.

Enlaces externos