stringtranslate.com

Conversión de formato de ida y vuelta

El término ida y vuelta se utiliza en la conversión de documentos, en particular en el caso de lenguajes de marcado como XML y SGML . Una ida y vuelta exitosa consiste en convertir un documento en formato A (docA) a uno en formato B (docB) y luego volver de nuevo al formato A (docA′). Si docA y docA′ son idénticos, entonces no ha habido pérdida de información y la ida y vuelta ha sido exitosa. En términos más generales, significa convertir desde cualquier representación de datos y volver de nuevo, incluso de una estructura de datos a otra.

Pérdida de información

Cuando un documento de un formato se convierte a otro, es probable que se pierda información. Por ejemplo, supongamos que un documento HTML se guarda como texto sin formato (*.txt). En ese caso, se perderá todo el marcado (estructura, formato, superíndices, etc.). Los documentos compuestos suelen perder información sobre imágenes y otros objetos incrustados. Si el archivo de texto se convierte de nuevo al formato original, es inevitable que se pierda información.

Un efecto similar ocurre con los formatos de imagen. Algunos formatos como JPEG logran la compresión mediante una pequeña pérdida de información. Si un archivo sin pérdida , como un archivo BMP o PNG , se convierte a JPEG y viceversa, el resultado será diferente del original (aunque visualmente puede ser muy similar).

El hecho de que los documentos inicial y final no sean idénticos en todos los bits no significa que haya pérdida de información. Algunos formatos tienen campos indefinidos o campos cuyo contenido no tiene impacto en el resultado.

Lenguajes de marcado

Los lenguajes de marcado como XML pueden, en principio, contener cualquier información, por lo que el proceso docA → docX → docA' podría diseñarse para evitar la pérdida de información. Actualmente es habitual convertir formatos antiguos a formatos XML porque tienen una mayor interoperabilidad y un conjunto más amplio de herramientas disponibles. De este modo, es posible convertir documentos de Word a formato XML y volver a importarlos.

El documento XML debe contener información idéntica al formato heredado. Una condición importante es que el proceso de ida y vuelta (heredado → XML → heredado) dé como resultado documentos prácticamente idénticos. Dado que algunas estructuras de documentos permiten cierta flexibilidad en el orden del contenido, los espacios en blanco, la distinción entre mayúsculas y minúsculas, etc., resulta útil contar con un medio para canonizar el formato heredado. El proceso de ida y vuelta completo puede ser:

legado → canonicalLegacy → XML → legado′ → canonicalLegacy′

Si canonicalLegacy = canonicalLegacy′ entonces el viaje de ida y vuelta ha sido exitoso.

Codificaciones de caracteres

Unicode tiene como principio la compatibilidad de ida y vuelta con codificaciones heredadas estandarizadas más antiguas, de modo que la conversión de documentos a Unicode no pierda información; se puedan volver a convertir. Para lograr esto, se han introducido caracteres de compatibilidad Unicode .

Limitación

Una aplicación puede afirmar que realiza un viaje de ida y vuelta y no ser honesta. Por ejemplo, puede guardar los datos originales de docA como un campo en docX, por lo que la transformación inversa a docA′ simplemente extrae ese campo. Si bien esto puede ser necesario para algunos casos, la idea de una conversión de ida y vuelta es pasar por otra representación de formato o estructura de datos y volver de nuevo. Esta estrategia significa que pequeños cambios en un documento significan que no se puede convertir de nuevo al formato original.

Uso

El término parece ser común, pero no aparece en los diccionarios. Un uso típico se da en un hilo de xml-dev de 1999, pero es probable que el término se haya utilizado antes. [1]

Véase también

Referencias

  1. ^ Kesselman, Joseph “keshlam” (25 de marzo de 1999). “Problemas de ida y vuelta”. XML-dev . IBM Research. Recopilación y respuesta a varios comentarios [incluido CDATA]