Marcado superpuesto

En los lenguajes de marcado y las humanidades digitales , la superposición se produce cuando un documento tiene dos o más estructuras que interactúan de manera no jerárquica . Un documento con marcado superpuesto no se puede representar como un árbol . Esto también se conoce como marcado concurrente . La superposición ocurre, por ejemplo, en poesía , donde puede haber una estructura métrica de pies y líneas; una estructura lingüística de oraciones y citas; y una estructura física de volúmenes y páginas y anotaciones editoriales. ^[1]^[2]

Historia

Se han analizado las diferencias estructurales entre múltiples ediciones de *Frankenstein*^{mediante técnicas superpuestas. [3]}

El problema de las estructuras no jerárquicas en los documentos se reconoce desde 1988; resolverlo frente al paradigma dominante del texto como una única jerarquía (una jerarquía ordenada de objetos de contenido u OHCO ) se pensó inicialmente que era meramente un problema técnico, pero, de hecho, ha demostrado ser mucho más difícil. ^[4] En 2008, Jeni Tennison identificó la superposición de marcado como "la principal área problemática restante para los tecnólogos del marcado". ^[5] La superposición de marcado sigue siendo un problema principal en el estudio digital de textos teológicos en 2019, y es una de las principales razones por las que el campo conserva formatos de marcado especializados (el Estándar Abierto de Información Bíblica y el Lenguaje de Marcado Teológico ) en lugar de los formatos interoperables basados en la Iniciativa de Codificación de Texto comunes al resto de las humanidades digitales . ^[6]

Propiedades y tipos

Existe una distinción entre los esquemas que permiten la superposición no contigua y aquellos que solo permiten la superposición contigua. A menudo, la "superposición de marcado" significa estrictamente lo último. La superposición contigua siempre se puede representar como un documento lineal con hitos (normalmente marcadores de inicio y fin indexados conjuntamente), sin la necesidad de fragmentar un componente (lógico) en varios componentes físicos. La superposición no contigua puede requerir la fragmentación del documento. Otra distinción en los esquemas de marcado superpuestos es si los elementos pueden superponerse con otros elementos del mismo tipo ( autosuperposición ). ^[2]

Un esquema puede tener una jerarquía privilegiada . Algunos esquemas basados en XML , por ejemplo, representan una jerarquía directamente en el árbol del documento XML y representan otras estructuras superpuestas por otros medios; se dice que estos esquemas no son privilegiados .

Schmidt (2012) identifica una clasificación tripartita de los casos de superposición: 1. "Variación de contenido y estructura", 2. "Superposición de múltiples perspectivas o conjuntos de marcado", y 3. "Superposición de etiquetas de inicio y fin individuales dentro de una única perspectiva de marcado"; además, algunos casos aparentes de superposición son, de hecho, problemas de definición de esquemas, que pueden resolverse jerárquicamente. Sostiene que el tipo 1 se resuelve mejor mediante un sistema de múltiples documentos externos al marcado, pero los tipos 2 y 3 requieren un tratamiento interno.

Enfoques e implementaciones

DeRose (2004, Criterios de evaluación) identifica varios criterios para juzgar las soluciones al problema de superposición:

legibilidad y mantenibilidad,
Soporte de herramientas y compatibilidad con XML,
posibles esquemas de validación, y
facilidad de procesamiento.

En sentido estricto, la sopa de etiquetas no es un marcado superpuesto, sino HTML mal formado , que es un lenguaje que no se superpone y puede estar mal definido. Algunos navegadores web intentaron representar las etiquetas de inicio y fin superpuestas con modelos de objetos de documento (DOM) no jerárquicos, pero esto no estaba estandarizado en todos los navegadores y era incompatible con la naturaleza jerárquica innata del DOM. ^[7]^[8]HTML5 define cómo los procesadores deben tratar este marcado mal anidado en la sintaxis HTML y convertirlo en una única jerarquía. ^[9] Sin embargo, con HTML basado en XHTML y SGML , el marcado mal anidado es un error estricto y hace que el procesamiento por parte de sistemas que cumplen con los estándares sea imposible. ^[10] El estándar HTML define un concepto de párrafo que puede causar superposición con otros elementos y puede no ser contiguo. ^[11]

SGML , en el que se basaban las primeras versiones de HTML, tiene una característica llamada CONCUR que permite que coexistan varias jerarquías independientes sin privilegiar ninguna. La validación de DTD solo se define para cada jerarquía individual con CONCUR. La validación entre jerarquías no está definida por el estándar. CONCUR no admite la superposición de documentos y su interacción con algunas de las funciones abreviadas de SGML es deficiente. Esta característica ha recibido un soporte deficiente de las herramientas y ha tenido muy poco uso real; el uso de CONCUR para representar la superposición de documentos no era un caso de uso recomendado, según un comentario del editor del estándar. ^[12]^[13]

Dentro de los lenguajes jerárquicos

Existen varios enfoques para representar la superposición en un lenguaje que no se superpone. ^[14] La Text Encoding Initiative , como un esquema de marcado basado en XML, no puede representar directamente el marcado superpuesto. Se sugieren los cuatro enfoques siguientes. ^[15] El Open Scripture Information Standard es otro esquema basado en XML, diseñado para marcar la Biblia . Utiliza elementos de hito vacíos para codificar componentes no privilegiados. ^[16]

Para ilustrar estos enfoques, se utilizará como ejemplo el marcado de las frases y versos de un fragmento de Ricardo III de William Shakespeare . En los casos en que exista una jerarquía privilegiada, se utilizarán los versos.

Múltiples documentos

Cada documento puede proporcionar diferentes jerarquías internamente consistentes. La ventaja de este enfoque es que cada documento es simple y se puede procesar con las herramientas existentes, pero requiere el mantenimiento de contenido redundante y puede resultar difícil realizar referencias cruzadas entre diferentes vistas. ^[17] Con varios documentos, la superposición se puede analizar con técnicas de comparación de datos y codificación delta y, en un contexto XML, hay disponibles algoritmos específicos de diferenciación de árboles XML. ^[18]^[19]

Schmidt (2012, 3.5 Variación) recomienda este enfoque para codificar múltiples variantes de un solo texto y aceptar la duplicación de las partes que no varían, en lugar de intentar crear una estructura que represente toda la variación presente; además, sugiere que esta alineación se realice automáticamente y que la desalineación es poco común en la práctica. ^[20]

Ejemplo, con líneas marcadas:

 <line> Yo,  por  abogado, te  bendigo de parte de tu madre, </line> <line> que reza continuamente por el bien de Richmond . </line> <line> Hasta ahí llega eso . Las horas silenciosas avanzan lentamente, </line> <line> y una oscuridad escamosa irrumpe en el este. </line>

Con oraciones marcadas:

 <sentence> Yo,  por  abogado, te  bendigo de parte de tu madre, que reza continuamente por el bien de Richmond . </sentence> <sentence> Hasta ahí llega eso. </sentence><sentence> —Las horas silenciosas avanzan lentamente, y una oscuridad escamosa irrumpe en el este. </sentence>

Hitos

Los hitos son elementos vacíos que marcan el comienzo y el final de un componente, generalmente utilizando el mecanismo de identificación XML para indicar qué elemento de "inicio" va con qué elemento de "fin". Los hitos se pueden utilizar para incrustar una estructura no privilegiada dentro de un lenguaje jerárquico. En su forma básica, solo pueden representar superposiciones contiguas. Por supuesto, el XML genérico puede analizar los elementos de hito, pero no comprende su significado especial y, por lo tanto, no puede procesar o validar fácilmente la estructura no privilegiada. ^[21]^[22]

Milestone tiene la ventaja de que el marcado de los elementos superpuestos se ubica justo en los límites correspondientes, al igual que cualquier otro marcado. Esto es una ventaja para la facilidad de mantenimiento y la legibilidad. ^[23] CLIX (DeRose 2004) es un ejemplo de este tipo de enfoque.

Ejemplo:

 <line><sentence-start /> Yo, por abogado, te bendigo de parte de tu madre, </line> <line> que reza continuamente por el bien de Richmond . <sentence-end /></line> <line><sentence-start /> Hasta ahí llega eso . <sentence-end /><sentence-start /> —Las horas silenciosas avanzan lentamente, </line> <line> y una oscuridad escamosa irrumpe en el este. <sentence-end /></line>

La puntuación y los espacios se han identificado como un tipo de "superposición criptográfica" o "pseudomarcado" de estilo hito, ya que los límites de las palabras, cláusulas, oraciones y similares no se alinean necesariamente con los límites del marcado formal de manera jerárquica. ^[24]^[25]

También es posible utilizar hitos más complejos para representar estructuras no contiguas. Por ejemplo, la semántica de "suspender" y "reanudar" de TAGML ^[26] se puede expresar mediante hitos, por ejemplo, añadiendo un atributo para indicar si cada hito representa un punto de inicio, suspensión, reanudación o finalización. La reordenación e incluso la superposición de los mismos se pueden lograr de forma similar, anotando cada hito con una referencia al "siguiente fragmento".

Se une

Las uniones son punteros dentro de una jerarquía privilegiada a otros componentes de la jerarquía privilegiada, que pueden usarse para reconstruir un componente no privilegiado de manera similar a seguir una lista enlazada . Un único elemento no privilegiado se segmenta en varios elementos parciales dentro de la jerarquía privilegiada; los elementos parciales en sí mismos no representan una única unidad en la jerarquía no privilegiada, lo que puede ser engañoso y dificultar el procesamiento. ^[27]^[28] Si bien este enfoque puede admitir algunas estructuras no contiguas, no puede reordenar elementos. ^[29] Sin embargo, un enfoque ligeramente diferente puede expresar el reordenamiento al expresar la unión fuera del contenido, a costa de la direccionalidad y la facilidad de mantenimiento. ^[30]

Las representaciones basadas en uniones pueden introducir la posibilidad de ciclos entre elementos; detectarlos y rechazarlos agrega complejidad a las implementaciones. ^[31]

Ejemplo:

 <line><sentence id= "a" > Yo, por abogado, te bendigo de parte de tu madre, </sentence></line> <line><sentence continues= "a" > Quien reza continuamente por el bien de Richmond . </sentence></line> <line><sentence id= "b" > Hasta ahí llegó eso . </sentence><sentence id= "c" > —Las horas silenciosas avanzan lentamente, </sentence></line> <line><sentence continues= "c" > Y una oscuridad escamosa irrumpe en el este. </sentence></line>

Marcado de separación

El marcado independiente es similar al uso de uniones, excepto que puede no haber una jerarquía privilegiada: a cada parte del documento se le asigna una etiqueta (o puede ser referenciada por un desplazamiento), y la estructura del documento se expresa apuntando al contenido del marcado que "se separa" del contenido (posiblemente en un archivo completamente diferente), y puede no contener contenido en sí mismo. Las pautas de TEI identifican la unidad de los elementos como una ventaja principal del marcado independiente sobre las uniones, además de la capacidad de producir y distribuir anotaciones por separado del texto, posiblemente incluso por diferentes autores que apliquen el marcado a un documento de solo lectura, ^[32] lo que permite enfoques colaborativos para el marcado mediante una estrategia de divide y vencerás. ^[33]

Ejemplo:

 <span id= "a" > Yo, por abogado, te bendigo de parte de tu madre, </span> <span id= " b" > Que reza continuamente por el bien de Richmond . </span> <span id= "c" > Hasta ahí llega eso . </span> < span id= "d" > —Las horas silenciosas avanzan lentamente, </span> <span id= "e" > Y una oscuridad escamosa irrumpe en el este. </span> ... <line contents= "a" /> <line contents= "b" /> <line contents= "c d" /> <line contents= "e" /> <sentence contents= "a b" /> <sentence contents= "c" /> <sentence contents= "d e" />

Se ha afirmado que separar el marcado y el texto puede resultar en una simplificación general y una mayor capacidad de mantenimiento, ^[34] y para 2017, ``[e]l estado actual de la técnica para [representar] (...) datos anotados lingüísticamente es utilizar una representación basada en gráficos serializada como XML separador como formato pivote´´, ^[35] es decir, que el separador fue el enfoque más ampliamente aceptado para abordar el desafío del marcado superpuesto.

Los formalismos de separación han sido la base de un estándar ISO para la anotación lingüística, ^[36] se han aplicado con éxito para desarrollar sistemas de gestión de corpus, ^[37] y (a partir de abril de 2020) se están desarrollando activamente en el TEI. ^[38] Un ejemplo publicado de un esquema de anotación de separación exitoso se desarrolló como parte de un proyecto de documentación de lenguaje natural bitex centrado en la preservación de idiomas con pocos recursos o en peligro de extinción. ^[39]

Desafíos

Representar el marcado superpuesto dentro de lenguajes jerárquicos es un desafío, por razones de redundancia y/o complejidad. En la década de 2000 a 2010, los formalismos de separación fueron generalmente aceptados como el enfoque más prometedor en este caso, ^[35] pero una desventaja de la separación es que la validación es muy desafiante. ^[40] Los formalismos de separación no son compatibles de forma nativa con los sistemas de gestión de bases de datos, por lo que (en 2017) se sugirió ``utilizar ... XML de separación como un formato pivote (...) y bases de datos relacionales para realizar consultas.´´ ^[35] En aplicaciones prácticas, esto requiere arquitecturas complicadas y/o una transformación intensiva en mano de obra entre el formato pivote y la representación interna. Como resultado, el mantenimiento es problemático. ^[41] Esto ha sido una motivación para desarrollar sistemas de gestión de corpus sobre la base de bases de datos de gráficos y para utilizar formalismos basados en gráficos establecidos como formatos pivote.

Lenguajes de propósito especial

Para implementar las estrategias mencionadas anteriormente, se pueden ampliar los lenguajes de marcado existentes (como el TEI) o se pueden diseñar lenguajes especiales. El diseño de un lenguaje de marcado completamente nuevo permite prescindir ^del^{soporte de herramientas} en los lenguajes existentes en favor de un modelo semántico menos complicado y una sintaxis más conveniente.

Formalismos históricos

LMNL es un lenguaje de marcado no jerárquico descrito por primera vez en 2002 por Jeni Tennison y Wendell Piez, que anota rangos de un documento con propiedades y permite la superposición de propiedades. CLIX , que originalmente significaba "LMNL canónico en XML", proporciona un método para representar cualquier documento LMNL en un documento XML de estilo hito. ^[42] También tiene otra serialización XML, xLMNL. ^[43]
MECS fue desarrollado por el Archivo Wittgenstein de la Universidad de Bergen . Sin embargo, tenía varios problemas: permitía algunos documentos sin sentido de elementos superpuestos, no podía soportar la autosuperposición y no tenía la capacidad de definir una gramática similar a DTD. ^[44] La teoría de los grafos acíclicos dirigidos descendentes ordenados generales (GODDAG), si bien no es estrictamente un lenguaje de marcado en sí mismo, es un modelo de datos general para el marcado no jerárquico. Los GODDAG restringidos se diseñaron específicamente para que coincidan con la semántica de MECS; los GODDAG generales pueden no ser contiguos y necesitan un lenguaje más potente. ^[45] TexMECS es un sucesor de MECS, que tiene una gramática formal y está diseñado para representar todos los GODDAG y nada que no sea un GODDAG. ^[46]
XCONCUR (anteriormente MuLaX) es una fusión de XML y CONCUR de SGML, y también contiene un lenguaje de validación, XCONCUR-CL, y una API similar a SAX . ^[47]^[48]^[49]
Marinelli, Vitali y Zacchiroli proporcionan algoritmos para convertir entre GODDAG restringidos, ECLIX, LMNL, documentos paralelos en XML, marcado de separación contiguos y TexMECS. ^[50]

Ninguno de estos formalismos parece mantenerse en la actualidad. La comunidad parece estar de acuerdo en utilizar formalismos basados en gráficos o XML de separación.

Lenguajes XML mantenidos de forma activa

GrAF-XML, ^[51] serialización standoff-XML del Linguistic Annotation Framework (LAF), ^[36] utilizado, por ejemplo, para el American National Corpus ^[52]
PAULA-XML, ^[53] serialización standoff-XML del modelo de datos subyacente al sistema de gestión de corpus ANNIS y la suite de conversión SALT ^[54]
NAF (NLP Annotation Format / Newsreader Annotation Format), ^[55] formato XML separador desarrollado originalmente en el proyecto NewsReader (FP7, 2013-2015 ^[56] ), actualmente utilizado por herramientas de PNL como FreeLing ^[57] (con soporte para inglés, español, portugués, italiano, francés, alemán, ruso, catalán, gallego, croata, esloveno, etc.), y EusTagger ^[58] (con soporte para euskera, inglés, español).
El Archivo Crítico Charles Harpur está codificado utilizando "documentos multi-versión" (MVD) para representar las versiones variantes de los documentos y como un medio para indicar adiciones, eliminaciones y revisiones utilizando una combinación táctica de múltiples documentos y rangos de separación dentro de un modelo subyacente basado en gráficos. MVD se presenta como un formato de archivo de aplicación, que requiere herramientas especializadas para verlo o editarlo. ^[59]
La colaboración Odin , Intent y XigtEdit desarrolló un esquema XML de separación , que se centra en un gran conjunto de datos de texto glosado interlineal (IGT) para respaldar proyectos de documentación y recursos de lenguaje natural. ^[60]

Los enfoques de separación tienen dos partes, comúnmente llamadas "contenido" y "anotaciones". Estas pueden expresarse en representaciones no relacionadas. Las anotaciones de separación simples en sí mismas no implican más que una lista de pares (ubicación, tipo). Por lo tanto, en unas pocas aplicaciones ^{[ se necesita un ejemplo ]} las anotaciones de separación se expresan en CSV, JSON ( -LD u otras representaciones (por ejemplo, Web Annotation ^[61] ) o formalismos de gráficos basados en URI de cadena (ver a continuación). Sin embargo, representar y validar contenido en tales representaciones es mucho más difícil y mucho menos común.

Formalismos basados en grafos

El marcado de separación emplea un modelo de datos basado en gráficos dirigidos, ^[62] lo que complica su representación al fundamentar la información de marcado en un árbol. Representar jerarquías superpuestas en un gráfico elimina este desafío. Las anotaciones de separación se pueden representar de manera más adecuada como multigrafos dirigidos generalizados y utilizar formalismos y tecnologías desarrollados para este propósito, en particular los basados en el Marco de descripción de recursos (RDF) . ^[63]^[64] EARMARK es una representación temprana de RDF / OWL que abarca los Gráficos Acíclicos Dirigidos Descendientes Ordenados Generales (GODDAG). ^[14] La teoría de GODDAG, si bien no es estrictamente un lenguaje de marcado en sí, es un modelo de datos general para el marcado no jerárquico.

RDF es un modelo de datos semántico que es independiente de la linealización y proporciona diferentes linealizaciones, incluido un formato XML ( RDF/XML ) que se puede modelar para reflejar XML separado, una linealización que permite que RDF se exprese en atributos XML ( RDFa ), un formato JSON ( JSON-LD ) y formatos binarios diseñados para facilitar la consulta o el procesamiento (RDF-HDT, ^[65] RDF-Thrift ^[66] ). RDF es semánticamente equivalente a los modelos de datos basados en gráficos que subyacen al marcado separado; no requiere tecnología de propósito especial para almacenar, analizar y consultar. Múltiples archivos RDF interconectados que representan un documento o un corpus constituyen un ejemplo de datos abiertos vinculados lingüísticos .

Una técnica establecida para vincular gráficos arbitrarios con un documento anotado es usar identificadores de fragmentos URI para hacer referencia a partes de un texto y/o documento, consulte la descripción general en Anotación web . El estándar de Anotación web proporciona "selectores" específicos del formato como un medio adicional, por ejemplo, selectores basados en desplazamiento, coincidencia de cadenas o XPath. ^[67]

Los vocabularios RDF nativos capaces de representar anotaciones lingüísticas incluyen: ^[68]

Anotación web ^[69]
Formato de intercambio de lenguaje natural (NIF) ^[70]
Formato de intercambio LAPPS (LIF) ^[71]

Los vocabularios relacionados incluyen

POWLA, una serialización OWL2/DL de PAULA-XML ^[72]
RDF-NAF, una serialización RDF del formato de anotación NLP ^[73]

A principios de 2020, el grupo comunitario LD4LT del W3C lanzó una iniciativa para armonizar estos vocabularios y desarrollar un vocabulario RDF consolidado para anotaciones lingüísticas en la web. ^[74]

Notas

^ Iniciativa de codificación de texto.
^ ab DeRose 2004, Los tipos de problemas.
^ Pieza 2014.
^ Renear, Mylonas y Durand 1993.
^ Tenison 2008.
^ MoChridhe 2019.
^ Hickson 2002.
^ Sivonen 2003.
^ HTML, § 8.2.8 Una introducción al manejo de errores y casos extraños en el analizador.
^ Sperberg-McQueen y Huitfeldt 2000, 2.1. Notaciones no SGML.
^ HTML, § 3.2.5.4 Párrafos.
^ Sperberg-McQueen y Huitfeldt 2000, 2.2. CONCURRIR.
^ DeRose 2004, SGML CONCUR.
^ ab Di Iorio, Peroni y Vitali 2009.
^ Iniciativa de codificación de texto, § 20 Estructuras no jerárquicas.
^ Durusau 2006.
^ Iniciativa de codificación de texto, § 20.1 Codificaciones múltiples de la misma información.
^ Schmidt 2009.
^ La Fuente 2016.
^ Schmidt 2012, 4.1 Automatización de la variación.
^ Iniciativa de codificación de texto, § 20.2 Marcación de límites con elementos vacíos.
^ Sperberg-McQueen y Huitfeldt 2000, 2.4. Hitos.
^ DeRose 2004, hitos al estilo TEI.
^ Birnbaum y Thorsen 2015.
^ Haentjens Dekker y Birnbaum 2017.
^ Dekker 2018.
^ Iniciativa de codificación de texto, § 20.3 Fragmentación y reconstitución de elementos virtuales.
^ DeRose 2004, Segmentación.
^ Sperberg-McQueen y Huitfeldt 2000, 2.5. Fragmentación.
^ DeRose 2004, Se une.
^ Schmidt 2012, 3.4 Interconexión.
^ Iniciativa de codificación de texto, § 20.4 Marcado de separación.
^ Schmidt 2012, 4.2 Marcado fuera del texto.
^ Eggert & Schmidt 2019, Conclusión.
^ abc Ide y col. 2017, pág. 99.
^ desde "Iso 24612:2012".
^ Chiarcos y otros. 2008.
^ "Stanoff: microestructura de anotaciones · Número 1745 · TEIC/TEI". GitHub .
^ Xia, F., Lewis, WD, Goodman, MW et al. Enriquecimiento de una base de datos multilingüe masiva de textos glosados interlineales. Lang Resources & Evaluation 50, 321–349 (2016). https://doi.org/10.1007/s10579-015-9325-4
^ Sperberg-McQueen y Huitfeldt 2000, 2.6. Marcado de separación.
^ DeRose 2004, Marcado de enfrentamiento.
^ DeRose 2004, CLIX y LMNL.
^ Pieza 2012.
^ Sperberg-McQueen y Huitfeldt 2000, 2.7. MECS.
^ Sperberg-McQueen y Huitfeldt 2000.
^ Huitfeldt y Sperberg-McQueen 2003.
^ Hilbert, Schönefeld y Witt 2005.
^ Witt y otros. 2007.
^ Schönefeld 2008.
^ Marinelli, Vitali y Zacchiroli 2008.
^ "ISO GrAF". 7 de marzo de 2015.
^ "Inicio". anc.org .
^ https://www.sfb632.uni-potsdam.de/en/paula.html ^{[ URL desnuda ]}
^ Zipser, Florian (18 de noviembre de 2016). "Sal". corpus-tools.org. doi :10.5281/zenodo.17557 . Consultado el 11 de septiembre de 2022 . {{cite journal}}: Requiere citar revista |journal=( ayuda )
^ "NAF". GitHub . 30 de junio de 2021.
^ "Construcción de índices de eventos estructurados a partir de grandes volúmenes de datos financieros y económicos para la toma de decisiones". Servicio de Información sobre Investigación y Desarrollo Comunitario (CORDIS) .
^ "Inicio - Página de inicio de FreeLing". Archivado desde el original el 29 de abril de 2012. Consultado el 6 de abril de 2020 .
^ "Análisis de texto | HiTZ Zentroa".
^ Eggert y Schmidt 2019.
^ Xia, F., Lewis, WD, Goodman, MW et al. Enriquecimiento de una base de datos multilingüe masiva de textos glosados interlineales. Lang Resources & Evaluation 50, 321–349 (2016). https://doi.org/10.1007/s10579-015-9325-4
^ "Modelo de datos de anotación web". 23 de febrero de 2017.
^ Ide y Suderman 2007.
^ Cassidy 2010, cassidy.
^ Chiarcos 2012, POWLA.
^ "Inicio". rdfhdt.org .
^ "RDF binario usando Apache Thrift".
^ "Selectores y Estados". 23 de febrero de 2017.
^ Cimiano, Philipp; Chiarcos, Christian; McCrae, John P.; Gracia, Jorge (2020). Datos enlazados lingüísticos. Representación, generación y aplicaciones . Cham: Springer.
^ Verspoor, Karin; Livingston, Kevin (2012). "Hacia la adaptación de las anotaciones lingüísticas a los formalismos de anotación académica en la web semántica". Actas del Sexto Taller de Anotación Lingüística, Jeju, República de Corea : 75–84 . Consultado el 6 de abril de 2020 .
^ "Formato de intercambio NLP (NIF) 2.0: descripción general y documentación".
^ "Descripción general de LIF".
^ "POWLA". Enero de 2022.
^ "Formato de anotación NLP | Información de fondo sobre NAF".
^ "Hacia un vocabulario LOD consolidado para anotaciones lingüísticas". GitHub . 7 de septiembre de 2021.

Referencias

Birnbaum, David J; Thorsen, Elise (2015). "Marcado y métrica: uso de herramientas XML para enseñar a una computadora a pensar en la versificación". Actas de Balisage: The Markup Conference 2015. Balisage: The Markup Conference 2015. Vol. 15. Montreal. doi :10.4242/BalisageVol15.Birnbaum01. ISBN 978-1-935958-11-6.
Cassidy, Steve (2010). Una realización RDF de LAF en el servidor de anotaciones DADA (PDF) . Actas de ISA-5. Hong Kong. CiteSeerX 10.1.1.454.9146 .
Chiarcos, Christian (2012). "POWLA: Modelado de corpus lingüísticos en OWL/DL" (PDF) . La Web semántica: investigación y aplicaciones . Actas de la 9.ª Conferencia sobre Web semántica extendida (ESWC 2012, Heraklion, Creta; LNCS 7295). Apuntes de clase en informática. Vol. 7295. págs. 225–239. doi : 10.1007/978-3-642-30284-8_22 . ISBN 978-3-642-30283-1. Recuperado el 24 de mayo de 2016 .
Chiarcos, Christian; Dipper, Stefanie; Götze, Michael; Leser, Ulf; Lüdeling, Anke; Ritz, Julia; Stede, Manfred (2008). "Un marco flexible para integrar anotaciones de diferentes herramientas y conjuntos de etiquetas". Traitement Automatique des Langues . 49 (2): 271–293.
Dekker, Ronald Haentjens; Bleeker, Elli; Buitendijk, Bram; Kulsdom, Astrid; Birnbaum, David J (2018). "TAGML: Un lenguaje de marcado de múltiples dimensiones". Actas de Balisage: The Markup Conference 2018. Balisage: The Markup Conference 2018. Vol. 21. Rockville, MD. doi : 10.4242/BalisageVol21.HaentjensDekker01 . ISBN 978-1-935958-18-5.

DeRose, Steven (2004). Markup Overlap: A Review and a Horse. Extreme Markup Languages 2004. Montreal. CiteSeerX 10.1.1.108.9959 . Archivado desde el original el 17 de octubre de 2014. Consultado el 14 de octubre de 2014 .
Di Iorio, Angelo; Peroni, Silvio; Vitali, Fabio (agosto de 2009). "Hacia el apoyo de los indicadores de margen para los GODDAG completos y más allá: el enfoque EARMARK". Actas de Balisage: The Markup Conference 2009. Balisage: The Markup Conference 2009. Vol. 3. Montreal. doi :10.4242/BalisageVol3.Peroni01. ISBN 978-0-9824344-2-0.
Eggert, Paul; Schmidt, Desmond A (2019). "El Archivo Crítico Charles Harpur: Una Historia y un Informe Técnico". Revista Internacional de Humanidades Digitales . 1 (1) . Consultado el 25 de marzo de 2019 .
Haentjens Dekker, Ronald; Birnbaum, David J (2017). "Es más que una simple superposición: texto como gráfico". Actas de Balisage: The Markup Conference 2017. Balisage: The Markup Conference 2017. Vol. 19. Montreal. doi : 10.4242/BalisageVol19.Dekker01 . ISBN 978-1-935958-15-4.
Durusau, Patrick (2006). Manual del usuario de OSIS (Esquema OSIS 2.1.1) (PDF) . Archivado desde el original (PDF) el 23 de octubre de 2014 . Consultado el 14 de octubre de 2014 .
Ian Hickson (21 de noviembre de 2002). «Sopa de etiquetas: cómo los agentes de usuario manejan <x> <y> </x> </y>» . Consultado el 5 de noviembre de 2017 .
Hilbert, Mirco; Schonefeld, Oliver; Witt, Andreas (2005). Making CONCUR work. Extreme Markup Languages 2005. Montreal. CiteSeerX 10.1.1.104.634 . Consultado el 14 de octubre de 2014 .
Huitfeldt, Claus; Sperberg-McQueen, CM (2003). «TexMECS: Un metalenguaje de marcado experimental para documentos complejos». Archivado desde el original el 27 de febrero de 2017. Consultado el 14 de octubre de 2014 .
Ide, Nancy; Chiarcos, Christian; Stede, Manfred; Cassidy, Steve (2017). "Diseño de esquemas de anotación: del modelo a la representación". En Ide, Nancy; Pustejovsky, James (eds.). Manual de anotación lingüística . Dordrecht: Springer. pág. 99. doi :10.1007/978-94-024-0881-2_3. ISBN 978-94-024-0879-9.
La Fontaine, Robin (2016). "Representación de jerarquías superpuestas como cambio en XML". Actas de Balisage: The Markup Conference 2016. Balisage: The Markup Conference 2016. Vol. 17. Montreal. doi :10.4242/BalisageVol17.LaFontaine01. ISBN 978-1-935958-13-0.
Marinelli, Paolo; Vitali, Fabio; Zacchiroli, Stefano (enero de 2008). "Hacia la unificación de formatos para marcado superpuesto" (PDF) . New Review of Hypermedia and Multimedia . 14 (1): 57–94. CiteSeerX 10.1.1.383.1636 . doi :10.1080/13614560802316145. ISSN 1361-4568. S2CID 16909224 . Consultado el 14 de octubre de 2014 .
MoChridhe, Race J (24 de abril de 2019). "Veinte años de lenguajes de marcado teológicos: una retrospectiva y una perspectiva". Bibliotecología teológica . 12 (1). doi : 10.31046/tl.v12i1.523 . ISSN 1937-8904. S2CID 171582852 . Consultado el 15 de julio de 2019 .
Piez, Wendell (agosto de 2012). "Luminescent: parsing LMNL by XSLT upconversion". Actas de Balisage: The Markup Conference 2012. Balisage: The Markup Conference 2012. Vol. 8. Montreal. doi : 10.4242/BalisageVol8.Piez01 . ISBN 978-1-935958-04-8. Recuperado el 14 de octubre de 2014 .
Piez, Wendell (2014). Jerarquías dentro del espacio de rango: de LMNL a OHCO. Balisage: The Markup Conference 2014. Montreal. doi :10.4242/BalisageVol13.Piez01.
Renear, Allen; Mylonas, Elli; Durand, David (6 de enero de 1993). "Refinando nuestra noción de lo que el texto realmente es: el problema de las jerarquías superpuestas". CiteSeerX 10.1.1.172.9017 . hdl :2142/9407 . Consultado el 2 de octubre de 2016 .
Schonefeld, Oliver (agosto de 2008). Una API sencilla para XCONCUR: procesamiento de marcado simultáneo mediante una API centrada en eventos. Balisage: The Markup Conference 2008. Montreal. doi :10.4242/BalisageVol1.Schonefeld01 . Consultado el 14 de octubre de 2014 .
Sperberg-McQueen, CM ; Huitfeldt, Claus (2004). "GODDAG: Una estructura de datos para jerarquías superpuestas". Documentos digitales: sistemas y principios . Apuntes de clase en informática. Vol. 2023. págs. 139–160. doi :10.1007/978-3-540-39916-2_12. ISBN 978-3-540-21070-2. Recuperado el 14 de octubre de 2014 .
Schmidt, Desmond (2009). "Fusionar textos con múltiples versiones: una solución genérica al problema de superposición". Fusión de textos con múltiples versiones: una solución general al problema de superposición. Balisage: The Markup Conference 2009. Actas de Balisage: The Markup Conference 2009. Vol. 3. Montreal. doi :10.4242/BalisageVol3.Schmidt01. ISBN 978-0-9824344-2-0.
Schmidt, Desmond (2012). "El papel del marcado en las humanidades digitales". Historical Social Research . 27 (3): 125–146. doi :10.12759/hsr.37.2012.3.125-146.
Henri Sivonen (16 de agosto de 2003). «Sopa de etiquetas: cómo IE 5 y Safari para Mac manejan <x> <y> </x> </y>» . Consultado el 5 de noviembre de 2017 .
Ide, Nancy; Suderman, Keith (2007). GrAF: Un formato basado en gráficos para anotaciones lingüísticas (PDF) . Actas del Primer Taller de Anotación Lingüística (LAW-2007, Praga, República Checa). pp. 1–8. CiteSeerX 10.1.1.146.4543 .
Tennison, Jenni (6 de diciembre de 2008). "Superposición, contención y dominio" . Consultado el 2 de octubre de 2016 .
Witt, Andreas; Schonefeld, Oliver; Rehm, Georg; Khoo, Jonathan; Evang, Kilian (2007). Sobre la transformación sin pérdida de anotaciones de un solo archivo y múltiples capas en árboles de múltiples raíces. Extreme Markup Languages 2007. Montreal . Consultado el 14 de octubre de 2014 .
Consorcio de Iniciativa de Codificación de Texto (16 de septiembre de 2014). "Directrices para la codificación y el intercambio de texto electrónico" (5.ª edición) . Consultado el 14 de octubre de 2014 .
WHATWG . «HTML Nivel de vida» . Consultado el 25 de marzo de 2019 .

Marcado superpuesto

Historia

Propiedades y tipos

Enfoques e implementaciones

Dentro de los lenguajes jerárquicos

Múltiples documentos

Hitos

Se une

Marcado de separación

Desafíos

Lenguajes de propósito especial

Formalismos históricos

Lenguajes XML mantenidos de forma activa

Formalismos basados ​​en grafos

Notas

Referencias

Formalismos basados en grafos