stringtranslate.com

Conversión de formato de ida y vuelta

El término ida y vuelta se utiliza en la conversión de documentos , especialmente cuando se trata de lenguajes de marcado como XML y SGML . Un viaje de ida y vuelta exitoso consiste en convertir un documento en formato A (docA) a uno en formato B (docB) y luego volver al formato A (docA′). Si docA y docA′ son idénticos entonces no ha habido pérdida de información y el viaje de ida y vuelta ha sido exitoso. De manera más general, significa convertir desde cualquier representación de datos y viceversa, incluso de una estructura de datos a otra.

Pérdida de información

Cuando un documento de un formato se convierte a otro, es probable que se pierda información. Por ejemplo, supongamos que un documento HTML se guarda como texto sin formato (*.txt). Entonces se perderá todo el marcado (estructura, formato, superíndices,…). Los documentos compuestos frecuentemente perderán información sobre imágenes y otros objetos incrustados. Si el archivo de texto se vuelve a convertir al formato original, necesariamente faltará información.

Un efecto similar ocurre con los formatos de imagen. Algunos formatos, como JPEG, logran la compresión mediante una pequeña pérdida de información. Si un archivo sin pérdidas , como un archivo BMP o PNG , se convierte a JPEG y viceversa, el resultado será diferente del original (aunque puede ser visualmente muy similar).

El hecho de que los documentos inicial y final no sean idénticos en bits no significa que haya pérdida de información. Algunos formatos tienen campos no definidos o campos donde el contenido no tiene impacto en el resultado.

Lenguajes de marcado

Los lenguajes de marcado como XML pueden, en principio, contener cualquier información, por lo que el proceso docA → docX → docA' podría diseñarse para evitar la pérdida de información. Ahora es común convertir formatos heredados a formatos XML porque tienen una mayor interoperabilidad y un conjunto más amplio de herramientas disponibles. De esta forma es posible convertir documentos de Word a formato XML y reimportarlos.

El documento XML debe contener información idéntica al formato heredado. Una condición importante es que el proceso de ida y vuelta (heredado → XML → heredado') debería dar como resultado documentos efectivamente idénticos. Debido a que algunas estructuras de documentos permiten cierta flexibilidad en el orden del contenido, los espacios en blanco, la distinción entre mayúsculas y minúsculas, etc., es útil tener una forma de canonicalizar el formato heredado. El viaje completo de ida y vuelta podrá entonces ser:

legado → canonicalLegacy → XML → legado′ → canonicalLegacy′

Si canonicalLegacy = canonicalLegacy′, entonces el viaje de ida y vuelta ha sido exitoso.

Codificaciones de caracteres

Unicode tiene el principio de tener compatibilidad de ida y vuelta con codificaciones heredadas estandarizadas más antiguas, por lo que la conversión de documentos a Unicode no pierde información; se pueden volver a convertir. Para lograrlo, se han introducido caracteres de compatibilidad Unicode .

Limitación

Una solicitud puede pretender ser de ida y vuelta y ser deshonesta. Por ejemplo, puede guardar los datos originales de docA como un campo en docX, por lo que la transformación inversa a docA′ simplemente extrae ese campo. Si bien esto puede ser necesario en algunos casos, la idea de una conversión de ida y vuelta es pasar por otro formato de representación o estructura de datos y viceversa. Esta estrategia significa que pequeños cambios en un documento significan que no se puede volver a convertir al formato original.

Uso

El término parece ser común, pero no aparece en los diccionarios. Un uso típico ocurre en un hilo xml-dev de 1999, pero es probable que el término se haya utilizado antes. [1]

Ver también

Referencias

  1. ^ Kesselman, Joseph “keshlam” (25 de marzo de 1999). "Problemas de ida y vuelta". Desarrollo XML . Investigación de IBM. Recopilar y responder a varios comentarios [incluido CDATA]