stringtranslate.com

Brillo interlineal

En lingüística y pedagogía , una glosa interlineal es una glosa (serie de explicaciones breves, como definiciones o pronunciaciones) colocada entre líneas, como por ejemplo entre una línea de texto original y su traducción a otro idioma . Cuando se glosa, cada línea del texto original adquiere una o más líneas de transcripción correspondientes, lo que se conoce como texto interlineal o texto glosado interlineal ( IGT ), interlineal para abreviar. Estas glosas ayudan al lector a seguir la relación entre el texto fuente y su traducción, y la estructura del idioma original. En su forma más simple, una glosa interlineal es simplemente una traducción literal, palabra por palabra, del texto fuente .

Historia

Texto interlineal en Toussaint-Langenscheidt Spanisch , un libro de texto en español para hablantes de alemán , 1910

Las glosas interlineales se han utilizado para diversos fines durante un largo período de tiempo. Un uso común ha sido anotar libros de texto bilingües para la educación de idiomas. Este tipo de interlinealización sirve para ayudar a hacer explícito el significado de un texto fuente sin intentar modelar formalmente las características estructurales del idioma fuente.

En ocasiones, estas anotaciones no se han expresado mediante un diseño interlineal, sino más bien mediante la enumeración de palabras en el objeto y el metalenguaje. Un ejemplo de ello es la anotación del náhuatl clásico de Wilhelm von Humboldt : [1]

1

ni-

1

yo

2

C-

3

maché

3

chihui

2

es

4

-lia

4

pelo

5

en

5

der

6

No-

6

mio

7

piltzín

7

hijo

8

CE

8

un

9

calli

9

casa

1 2 3 4 5 6 7 8 9

ni- c- chihui -lia in no- piltzin ce calli

1 3 2 4 5 6 7 8 9

ich mache es für der mein Sohn ein Haus

Este estilo "en línea" permite incluir ejemplos dentro del flujo de texto y escribir el orden de las palabras del idioma de destino en un orden que se aproxime a la sintaxis del idioma de destino. (En la glosa aquí, mache es se reordena a partir del orden de origen correspondiente para aproximarse a la sintaxis alemana de forma más natural). Aun así, este enfoque requiere que los lectores "realineen" las correspondencias entre las formas de origen y de destino.

Los enfoques más modernos de los siglos XIX y XX optaron por glosar verticalmente, alineando el mismo tipo de contenido palabra por palabra de tal manera que los términos del metalenguaje se colocaran verticalmente debajo de los términos del idioma de origen. En este estilo, el ejemplo dado podría traducirse así (aquí glosa en inglés):

ni-

I

C-

él

chihui

hacer

-lia

para

en

hacia

No-

mi

piltzín

hijo

CE

a

calli

casa

ni- c- chihui -lia in no- piltzin ce calli

I it make for to-the my son a house

"Le hice una casa a mi hijo".

Aquí el orden de las palabras está determinado por la sintaxis del lenguaje objeto.

Finalmente, los lingüistas modernos han adoptado la práctica de utilizar etiquetas de categorías gramaticales abreviadas. Una publicación de 2008 que repite este ejemplo lo etiqueta de la siguiente manera: [2]

ni-c-chihui-lia

1SG . SUBJ - 3SG . OBJ -mach- APPL

en

DET

sin piltzin

1SG . POSS -Sohn

CE

un

calli

casa

ni-c-chihui-lia in no-piltzin ce calli

1SG.SUBJ-3SG.OBJ-mach-APPL DET 1SG.POSS-Sohn ein Haus

Este enfoque es más denso y también requiere esfuerzo de lectura, pero depende menos de la estructura gramatical del metalenguaje para expresar la semántica de las formas objetivo.

En informática, se proporcionan marcadores de texto especiales en el bloque Unicode Especiales para indicar el inicio y el final de las glosas interlineales.

Estructura

Aunque no existe una especificación formal para el formato IGT, las Reglas de glosado de Leipzig [3] son ​​un conjunto de pautas que tienen como objetivo estandarizar el formato tanto como sea posible.

Un texto interlineal para lingüística normalmente constará de algunos o todos los siguientes, generalmente en este orden, de arriba a abajo:

y finalmente

A modo de ejemplo, la siguiente cláusula Minnan taiwanesa ha sido transcrita con cinco líneas de texto:

1. la transliteración estándar pe̍h-ōe-jī ,
2. un brillo usando números de tono para los tonos de la superficie,
3. una glosa que muestra los tonos subyacentes en forma de cita (antes de pasar al tono sandhi ),
4. una glosa morfema por morfema en inglés , y
5. una traducción al inglés: [4]

(1.)

(2.)

(3.)

(4.)

Ir a

ir a 1

ir a 2

I

iáu-boē

iau 1 -boe 3

iau 2 -boe 7

aún no

koat-tēng

koat 2 -teng 3

koat 4 -teng 7

decidir

tang-sî

espiga 7 -si 5

espiga 1 -si 5

cuando

boeh

boe 2

boe 4

desear

tńg-khì

tng 1 -khi 3 .

tng 2 -khi 3 .

devolver.

(1.) goá iáu-boē koat-tēng tang-sî boeh tńg-khì

(2.) goa1 iau1-boe3 koat2-teng3 tang7-si5 boeh2 tng1-khi3.

(3.) goa2 iau2-boe7 koat4-teng7 tang1-si5 boeh4 tng2-khi3.

(4.) I not-yet decide when want return.

(5.) "Aún no he decidido cuándo regresaré".

Alineación palabra por palabra . Según las Reglas de glosado de Leipzig, es estándar alinear a la izquierda las palabras del lenguaje objeto con las palabras correspondientes del metalenguaje; esta alineación se puede observar entre las líneas (1-3) y la línea (4).

Correspondencia morfema por morfema . A nivel de subpalabra, los morfemas segmentables están separados por guiones, tanto en el ejemplo como en la glosa. Debe haber la misma cantidad de guiones en el ejemplo y en la glosa, como se muestra en el siguiente ejemplo:

gila

ahora

abur-un

ellos- OBL - GEN

ferma

granja

hamišaluǧ

para siempre

güǧüna

detrás

amuqʼ-da-č

estancia- FUT - NEG

Gila abur-u-n ferma hamišaluǧ güǧüna amuqʼ-da-č

now they-OBL-GEN farm forever behind stay-FUT-NEG

"Ahora su granja no se quedará atrás para siempre."

Etiquetas de categorías gramaticales . En amuqʼ-da-č , la raíz ( amuq ) se traduce al lexema inglés correspondiente ( stay ), mientras que los afijos flexivos ( da ) y ( č ) son afijos flexivos que representan el tiempo futuro y la negación. Estos afijos flexivos se glosan como FUT y NEG ; En las Reglas de glosado de Leipzig se puede encontrar una lista de abreviaturas estándar para categorías gramaticales que se utilizan ampliamente en lingüística.

Correspondencias uno a muchos . Cuando un solo elemento del lenguaje objeto corresponde a varios elementos del metalenguaje, se separan por puntos. [3] Por ejemplo,

çık-mak

come.out- INF

çık-mak

come.out-INF

'salir'

Elementos no manifiestos . Si la glosa morfema por morfema (línea central) contiene un elemento que no corresponde a un elemento explícito en el ejemplo, una estrategia estándar es incluir un "ø" explícito en el texto del lenguaje objeto, [ 3] que es separados por un guión como un elemento abierto sería:

puer-ø

chico- NOM

puer-ø

boy-NOM

'chico'

La reduplicación se trata de manera similar a la fijación, pero con una tilde (en lugar del guión estándar) que conecta el elemento copiado con la raíz: [3]

bi~bili

IPFV ~ comprar

bi~bili

IPFV~buy

'está comprando'

Puntuación

En las glosas morfológicas interlineales, varias formas de puntuación separan las glosas. Normalmente, las palabras están alineadas con sus glosas; dentro de las palabras, se utiliza un guión cuando se marca un límite tanto en el texto como en su glosa, período en el que un límite aparece solo en una. Es decir, debe haber la misma cantidad de palabras separadas por espacios en el texto y su glosa, así como la misma cantidad de morfemas con guiones dentro de una palabra y su glosa. Este es el sistema básico y puede aplicarse universalmente. Por ejemplo,

Odadan hızlı çıktım. (Turco)

oda-dan

habitación- ABL

habitación desde

hız-lı

velocidad- COM

velocidad con

çık-tı-m

salir- PFV - 1sg

salir-perfectivo-yo

oda-dan hız-lı çık-tı-m

room-ABL speed-COM go.out-PFV-1sg

room-from speed-with go_out-perfective-I

"Salí de la habitación rápidamente."

Se puede usar un guión bajo en lugar de un punto, como en go_out- PFV , cuando una sola palabra en el idioma de origen corresponde a una frase en el idioma de glosa, aunque aún se usaría un punto para otras situaciones, como en el griego oikíais . casa. FEM.PL.DAT 'a las casas'.

Sin embargo, a veces se pueden hacer distinciones más sutiles. Por ejemplo, los clíticos pueden separarse con un guión doble (o, para facilitar la escritura, un signo igual) en lugar de un guión:

Te amo. (Francés)

Yo amo tu

Te amo

je⹀te⹀aime

I⹀you⹀love

'Te amo.'

Los afijos que causan discontinuidad ( infijos , circunfijos , transfijos, etc.) pueden resaltarse mediante corchetes angulares y la reduplicación con tildes, en lugar de guiones:

sulat, susulat, sumulat, sumusulat (declinaciones verbales) (tagalo)

sulat

escribir

su~sulado

estado de ánimo contemplativo ~ escribir

s ⟨um⟩ ulat

agente activador .pasado⟩ escribir

s ⟨um⟩ u~sulat

⟨agente  activador⟩ contemplativo~escribir

sulat su~sulat s⟨um⟩ulat s⟨um⟩u~sulat

write contemplative mood~write agent trigger.past⟩write ⟨agent trigger⟩contemplative~write

(Consulte el afijo para ver otros ejemplos).

Los morfemas que no se pueden separar fácilmente, como diéresis , se pueden marcar con una barra invertida en lugar de un punto:

unser-n

nuestro- DAT . PL

Väter-n

padre\ PL - DAT . PL

(Alemán)

 

unser-n Väter-n

our-DAT.PL father\PL-DAT.PL

'a nuestros padres' (el singular de Väter 'padres' es Vater )

Algunas otras convenciones que a veces se ven se ilustran en las Reglas de glosado de Leipzig. [3]

Recursos de brillo interlineal

Se han realizado esfuerzos para digitalizar IGT en cientos de idiomas del mundo. [5]

Base de datos en línea de texto interlineal

La base de datos en línea de texto interlineal (ODIN) es una base de datos de más de 200.000 instancias de glosas interlineales para más de 1.500 idiomas extraídas de investigaciones lingüísticas académicas. [6] La base de datos se construyó en dos fases: construcción automática seguida de corrección manual. La etapa de construcción automática se completó en tres pasos:

  1. En primer lugar, se consultó a los motores de búsqueda (por ejemplo, Google, Bing) para recuperar documentos académicos que probablemente contuvieran glosas interlineales. Las consultas incluían términos relevantes para la investigación lingüística, como morfemas gramaticales (por ejemplo, "NOM", abreviatura de nominativo; "3SG", abreviatura de tercera persona del singular).
  2. En segundo lugar, cada línea de un documento extraído se etiquetó según si pertenecía a una glosa interlineal o no, utilizando métodos de etiquetado de secuencia de Machine Learning.
  3. En tercer lugar, a cada instancia de brillo interlineal se le asignó un nombre de idioma (por ejemplo, tagalo) y una identificación de idioma ISO 693-3. Los nombres e ID de los idiomas se asignaron automáticamente a las glosas interlineales utilizando modelos de resolución de coreferencia de Natural Language Processing, donde la instancia de la glosa interlineal se etiquetó con el nombre del idioma (y la ID) que aparece en el documento académico del que se extrajo la instancia de la glosa interlineal. [6]

En la fase de corrección manual, los creadores de la base de datos corrigieron manualmente los límites de las instancias de brillo interlineal descubiertas mediante el método de etiquetado de secuencia en el Paso 2 de la fase de construcción automática. Luego, los creadores verificaron los nombres y códigos de idioma en una segunda y tercera pasada sobre los datos, respectivamente.

Procesamiento automático de instancias de brillo interlineal.

Se han desarrollado modelos de procesamiento del lenguaje natural que aprovechan los recursos de brillo interlineal, como la base de datos en línea de texto interlineal. [7] [8]

glosado automático

Los sistemas de procesamiento del lenguaje natural, por ejemplo, se han desarrollado para producir automáticamente glosas interlineales: [7]

mal

tu- GEN

ħumukuli

camello

elu-ab-ok'ek'-asi

nosotros. OBL - ERG . 1 . PL -robar- PRT

anu

ser. NEG

mi-s ħumukuli elu-ab-ok'ek'-asi anu

you-GEN camel we.OBL-ERG.1.PL-steal-PRT be.NEG

"No te robamos el camello".

Dada la línea segmentada del morfema (primera línea arriba) y la línea de traducción libre (tercera línea arriba), la tarea es producir la línea glosada media que comprende las traducciones de la raíz (p. ej., mi : you ) y las etiquetas de categorías gramaticales correspondientes a los afijos (p. ej., , a : ERG.1.PL ). Para realizar esta tarea se han utilizado modelos de predicción de secuencias procedentes del Procesamiento del Lenguaje Natural. [7] Dos factores contribuyen a la dificultad de esta tarea:

  1. La traducción no está necesariamente alineada con la línea segmentada del morfema (por ejemplo, camello es la última palabra en la traducción pero la segunda palabra en la línea segmentada del morfema).
  2. Algunas palabras en la línea segmentada del morfema tienen múltiples correspondencias en la glosa (por ejemplo, anu : be.NEG ).

Descubrimiento automático de estructura morfológica a partir de glosas.

Los investigadores han utilizado glosas interlineales para obtener los paradigmas morfológicos del lenguaje objeto (es decir, el lenguaje que se está glosando). Para crear automáticamente paradigmas morfológicos a partir de glosas interlineales, los investigadores han creado tablas para cada raíz de la glosa y un espacio (posiblemente vacío) para cada categoría gramatical (por ejemplo, ERG) en la glosa. Por ejemplo, dada la siguiente frase glosada: [7]

Vecher-om

tarde- INS

ya

1 . SG . NOMBRE

pobeja-la

ejecutar- PFV . Hora del Pacífico . SG . FEM

v

en

revista

almacenar. CAC

Vecher-om ya pobeja-la v magazin

evening-INS 1.SG.NOM run-PFV.PST.SG.FEM in store.ACC

"Por la tarde corrí a la tienda."

Habría un paradigma para la raíz pobeja con ranuras para PFV.PST.SG.FEM y PFV.PST.SG.MASC :

El espacio para PFV.PST.SG.FEM estaría lleno (ya que se observó en los datos de brillo interlineal) pero el espacio para PFV.PST.SG.MASC estaría vacío (suponiendo que ninguna otra instancia de brillo interlineal contenga pobeja flexionada para la categoría gramatical PFV.PST.SG.MASC ). Se puede utilizar un modelo estadístico de aprendizaje automático para la inflexión morfológica para completar las entradas que faltan. [8] [9] [10] [11] [12]

Ver también

Referencias

  1. ^ Lehmann, cristiano (23 de enero de 2004). "Instrucciones para traducciones morfémicas interlineales". En Geert Booij; Christian Lehmann; Joaquín Mugdan; Stavros Skopeteas (eds.). Morfología. Ein internationales Handbuch zur Flexion und Wortbildung . Handbücher der Sprach- und Kommunikationswissenschaft. vol. 2. Berlín: W. de Gruyter. págs. 1834–1857.
  2. ^ Haspelmath, Martín (2008). Tipología lingüística y universales lingüísticos: un manual internacional . Walter de Gruyter. pag. 715.ISBN 978-3-11-011423-2.
  3. ^ abcde Bickel, Baltasar; Bernard Comrie; Martin Haspelmath (febrero de 2008). "Las reglas de glosado de Leipzig. Convenciones para morfemas interlineales mediante glosas de morfemas". Departamento de Lingüística – Recursos – Reglas de glosado . Consultado el 30 de junio de 2010 .
  4. ^ Ejemplo de Vocabulario básico para principiantes en taiwanés de Ko Chek Hoan y Tan Pang Tin
  5. ^ Georgi, Ryan (2016). Del aari al zulú: creación masivamente multilingüe de herramientas lingüísticas utilizando texto glosado interlineal (Doctor). Universidad de Washington.
  6. ^ ab Xia, Fei; Lewis, Guillermo; Wayne, Michael; Slayden, Glenn; Georgi, Ryan; Crowgey, Josué; Bender, Emily (2016). "Enriquecimiento de una base de datos masivamente multilingüe de texto glosado interlineal". Evaluación y recursos lingüísticos . 50 (2): 321–349. doi :10.1007/s10579-015-9325-4. S2CID  2674996 . Consultado el 15 de diciembre de 2021 .
  7. ^ abcd Xingyuan, Zhao; Satoru, Ozaki; Anastasopoulos, Antonios; Neubig, Graham; Levin, Lori (2020). "Glosado interlineal automático para idiomas con escasos recursos que aprovechan las traducciones". ENCOLADO . Actas de la 28ª Conferencia Internacional sobre Lingüística Computacional: 5397–5408. doi : 10.18653/v1/2020.coling-main.471 . S2CID  227231816 . Consultado el 15 de diciembre de 2021 .
  8. ^ ab Moeller, Sarah; Liu, Ling; Yang, Changbing; Kann, Katharina; Hulden, Mans (2020). "IG2P: de textos glosados ​​interlineales a paradigmas". EMNLP . Actas de la Conferencia de 2020 sobre métodos empíricos en el procesamiento del lenguaje natural (EMNLP): 5251–5262. doi : 10.18653/v1/2020.emnlp-main.424 . S2CID  226262296 . Consultado el 15 de diciembre de 2021 .
  9. ^ Silfverberg, Miikka; Hulden, Mans (2018). "Un enfoque codificador-decodificador para el problema de llenado de celdas paradigmáticas". Actas de la Conferencia de 2018 sobre métodos empíricos en el procesamiento del lenguaje natural . Bruselas, Bélgica: Asociación de Lingüística Computacional: 2883–2889. doi : 10.18653/v1/D18-1315 . S2CID  53082616.
  10. ^ Wu, Shijie; Cotterell, Ryan; Hulden, Mans (2021). "Aplicación del transformador a la transducción a nivel de carácter". Actas de la 16ª Conferencia del Capítulo Europeo de la Asociación de Lingüística Computacional: Volumen principal . En línea: Asociación de Lingüística Computacional: 1901-1907. arXiv : 2005.10213 . doi : 10.18653/v1/2021.eacl-main.163 . S2CID  218718982.
  11. ^ Nicolai, Garrett; Cereza, Colin; Kondrak, Grzegorz (2015). "Generación de inflexión como transducción de cuerdas discriminativa". Actas de la Conferencia de 2015 del Capítulo Norteamericano de la Asociación de Lingüística Computacional: Tecnologías del Lenguaje Humano . Denver, Colorado: Asociación de Lingüística Computacional: 922–931. doi : 10.3115/v1/N15-1093 . S2CID  14929030.
  12. ^ Bhargava, Aditya; Kondrak, Grzegorz (2012). "Aprovechando representaciones suplementarias para la transducción secuencial". Actas de la Conferencia de 2012 del Capítulo Norteamericano de la Asociación de Lingüística Computacional: Tecnologías del Lenguaje Humano . Montreal, Canadá: Asociación de Lingüística Computacional: 396–406.

enlaces externos