La Text Encoding Initiative ( TEI ) es una comunidad de práctica centrada en el texto en el campo académico de las humanidades digitales , que opera continuamente desde la década de 1980. Actualmente, la comunidad gestiona una lista de correo, reuniones y series de conferencias, y mantiene el estándar técnico TEI , una revista , [1] una wiki , un repositorio GitHub y una cadena de herramientas .
Las Directrices TEI definen colectivamente un tipo de formato XML y son el resultado definitorio de la comunidad de práctica. El formato se diferencia de otros formatos abiertos de texto conocidos (como HTML y OpenDocument ) en que es principalmente semántico más que presentacional: se especifican la semántica y la interpretación de cada etiqueta y atributo. Hay unos 500 componentes y conceptos textuales diferentes: palabra , [2] oración , [3] carácter , [4] glifo , [5] persona , [6] , etc. Cada uno se basa en una o más disciplinas académicas y se dan ejemplos. .
El estándar se divide en dos partes, una descripción textual discursiva con ejemplos extendidos y discusión y un conjunto de definiciones etiqueta por etiqueta. Los esquemas en la mayoría de los formatos modernos ( DTD , RELAX NG y XML Schema (W3C) ) se generan automáticamente a partir de las definiciones etiqueta por etiqueta. Una serie de herramientas apoyan la producción de las directrices y su aplicación a proyectos específicos.
Se utilizan varias etiquetas especiales para eludir las restricciones impuestas por el Unicode subyacente ; glifo para permitir la representación de caracteres que no califican para la inclusión Unicode [2] y opción para permitir superar la linealidad estricta requerida. [7]
La mayoría de los usuarios del formato no utilizan la gama completa de etiquetas, sino que producen una personalización utilizando un subconjunto específico del proyecto de etiquetas y atributos definidos por las Directrices. El TEI define un sofisticado mecanismo de personalización conocido como ODD para este fin. Además de documentar y describir cada etiqueta TEI, una especificación ODD especifica su modelo de contenido y otras restricciones de uso, que pueden expresarse mediante esquematrón .
TEI Lite es un ejemplo de dicha personalización. Define un formato de archivo basado en XML para intercambiar textos. Es una selección manejable del amplio conjunto de elementos disponibles en las Directrices TEI completas.
Como formato basado en XML, TEI no puede tratar directamente con marcas superpuestas y estructuras no jerárquicas. Las directrices sugieren una variedad de opciones para representar este tipo de datos. [8]
El texto de las directrices TEI es rico en ejemplos. También hay una página de ejemplos en la wiki de TEI, [9] que brinda ejemplos de proyectos del mundo real que exponen su TEI subyacente.
TEI permite marcar textos sintácticamente en cualquier nivel de granularidad o combinación de granularidades. Por ejemplo, este párrafo (p) se ha dividido en oraciones (s) y cláusulas (cl). [10]
<s> <cl> Fue a principios de septiembre de 1664, <cl> que yo, entre el resto de mis vecinos , oí en una conversación ordinaria <cl> que la peste había regresado nuevamente a Holanda; </cl> </cl> </cl> <cl> porque había sido muy violento allí, y particularmente en Amsterdam y Rotterdam, en el año 1663 , </cl> <cl> donde, <cl> dicen , </cl> fue traído , <cl> dijeron algunos </cl> desde Italia, otros desde Levante , entre algunas mercancías <cl> que traían a casa su flota turca ; </cl> </cl> <cl> otros dijeron que fue traído de Candia; otros de Chipre. </cl> </s> <s> <cl> No importaba <cl> de dónde viniera ; </cl> </cl> <cl> pero todos estuvieron de acuerdo <cl> en que había vuelto a Holanda . </cl> </cl> </s>
TEI tiene etiquetas para marcar versos. Este ejemplo (tomado de la traducción francesa de las Directrices TEI) muestra un soneto. [11]
<div type= "sonnet" > <lg type= "quatrain" > <l> Les amoureux fervents et les savants austères </l> <l> Aiment également, dans leur mûre saison, </l> <l> Les chats puissants et doux, orgueil de la maison, </l> <l> Qui comme eux sont frileux et comme eux sédentaires. </l> </lg> <lg type= "quatrain" > <l> Amigos de la ciencia y de la volupté </l> <l> Ils cherchent le Silence et l'horreur des ténèbres ; </l> <l> L'Érèbe les eût pris pour ses coursiers funèbres, </l> <l> S'ils pouvaient au servage incliner leur fierté. </l> </lg> <lg type= "tercet" > <l> Ils prennent en songeant les nobles actitudes </l> <l> Des grands sphinx allongés au fond des solitudes, </l> <l> Qui semblent s'endomir dans un rêve sans fin ; </l> </lg> <lg type= "tercet" > <l> Leurs reins féconds sont pleins d'étincelles magices, </l> <l> Et des parcelales d'or, ainsi qu'un sable fin, </l> <l> Étoilent vaguement leurs prunelles mystiques.</l> </lg> </div>
La etiqueta de elección se utiliza para representar secciones de texto que pueden codificarse o etiquetarse de más de una forma posible. En el siguiente ejemplo, basado en uno del estándar, elección se utiliza dos veces, una para indicar un número original y corregido, y otra para indicar una ortografía original y regularizada. [12]
<p xml:id= "p23" > Por último, Que, bajo su solemne juramento de observar todo lo anterior artículos, dicho hombre - montaña tendrá una ración diaria de carne y bebida suficiente para el sustento de <choice> <sic> 1724 </sic> <corr> 1728 </corr> </choice> de nuestros súbditos, con acceso gratuito a nuestra persona real , y otras marcas de nuestro <choice> <orig> favor </orig> <reg> favor </reg> </choice> .
One Document Does it all ("ODD") es un lenguaje de programación competente para esquemas XML . [13] [14] [15] [16]
En un estilo de programación alfabetizada, los documentos ODD combinan documentación legible por humanos y modelos legibles por máquinas utilizando el módulo Elementos de documentación de Text Encoding Initiative. Las herramientas generan resultados HTML , ePub o PDF localizados e internacionalizados legibles por humanos y DTD , esquemas XML W3C , sintaxis compacta Relax NG o sintaxis XML Relax NG legibles por máquinas.
La aplicación web Roma [17] está construida alrededor del formato ODD y puede usarlo para generar esquemas en formatos DTD , W3C XML Schema , Relax NG Compact Syntax o Relax NG XML Syntax, como lo utilizan muchas herramientas y servicios de validación XML.
ODD es el formato utilizado internamente por Text Encoding Initiative para el estándar técnico TEI . [18] Aunque los archivos ODD generalmente describen la diferencia entre un formato XML personalizado y el modelo TEI completo, ODD también se puede utilizar para describir formatos XML que están completamente separados del TEI. Un ejemplo de esto es el conjunto de etiquetas de internacionalización del W3C , que utiliza el formato ODD para generar esquemas y documentar su vocabulario. [19] [20]
Las personalizaciones de TEI son especializaciones de la especificación XML de TEI para su uso en campos particulares o por comunidades específicas.
La personalización en el TEI se realiza a través del mecanismo ODD mencionado anteriormente. En verdad, desde su versión P5, todos los usos denominados 'Conformes con TEI' de las Directrices TEI se basan en una personalización TEI documentada en un archivo TEI ODD. Incluso cuando los usuarios eligen uno de los esquemas pregenerados disponibles para validar, estos se han creado a partir de archivos de personalización disponibles gratuitamente.
El formato es utilizado por muchos proyectos en todo el mundo. Prácticamente todos los proyectos están asociados a una o más universidades. Algunos proyectos conocidos que codifican textos usando TEI incluyen:
Antes de la creación de TEI, los académicos de humanidades no tenían estándares comunes para codificar textos electrónicos de una manera que sirviera a sus objetivos académicos ( Hockey 1993, p. 41). En 1987, un grupo de académicos que representaban campos de las humanidades, la lingüística y la informática se reunieron en Vassar College para presentar un conjunto de directrices conocidas como los "Principios de Poughkeepsie". Estas directrices dirigieron el desarrollo del primer estándar TEI, "P1". [23] [24]
xml:lang
y xml:id
del W3C [30] (anteriormente estos habían sido atributos en el espacio de nombres de TEI), la regularización de los atributos de apuntamiento locales para usar el hash (como se usa en HTML) y la unificación del ptr. y etiquetas xptr. Juntos, estos cambios con muchas más incorporaciones nuevas hacen que P5 sea más regular y lo acercan a la práctica xml actual promovida por el W3C y utilizada por otras variantes de XML. Las versiones de mantenimiento y actualización de funciones de TEI P5 se han lanzado al menos dos veces al año desde 2007.{{cite journal}}
: Mantenimiento CS1: DOI inactivo a partir de febrero de 2024 ( enlace )