stringtranslate.com

DJ Vu

DjVu [a] es un formato de archivo de computadora diseñado principalmente para almacenar documentos escaneados , especialmente aquellos que contienen una combinación de texto, dibujos lineales, imágenes en color indexadas y fotografías. Utiliza tecnologías como la separación de capas de imagen de texto y fondo/imágenes, carga progresiva , codificación aritmética y compresión con pérdida para imágenes bitonales ( monocromáticas ). Esto permite almacenar imágenes legibles y de alta calidad en un mínimo de espacio, de modo que puedan estar disponibles en la web .

Se ha promocionado a DjVu como un programa que ofrece archivos más pequeños que el formato PDF para la mayoría de los documentos escaneados. [3] Los desarrolladores de DjVu informan que las páginas de revistas en color se comprimen a 40–70 kB, los documentos técnicos en blanco y negro se comprimen a 15–40 kB y los manuscritos antiguos se comprimen a alrededor de 100 kB; una imagen JPEG satisfactoria normalmente requiere 500 kB. [4] Al igual que PDF, DjVu puede contener una capa de texto OCR , lo que facilita la realización de operaciones de copia y pegado y búsqueda de texto.

Hay creadores, manipuladores, convertidores, complementos de navegador web y visores de escritorio gratuitos disponibles. [2] DjVu es compatible con varios visores de documentos multiformato y software de lectura de libros electrónicos en Linux ( Okular , Evince , Zathura ), Windows ( Okular , SumatraPDF ) y Android (Document Viewer, [5] FBReader, EBookDroid, PocketBook).

Historia

La tecnología DjVu fue desarrollada originalmente por Yann LeCun , Léon Bottou , Patrick Haffner, Paul G. Howard, Patrice Simard y Yoshua Bengio en AT&T Labs de 1996 a 2001. [4]

Antes de la estandarización de PDF en 2008, [6] [7] DjVu había sido considerado superior debido a que era un formato de archivo abierto en contraste con la naturaleza propietaria de PDF en ese momento. La tasa de compresión declarada más alta (y, por lo tanto, el tamaño de archivo más pequeño) y la facilidad declarada para convertir grandes volúmenes de texto al formato DjVu, fueron otros argumentos para la superioridad de DjVu sobre PDF en el panorama tecnológico de 2004. El tecnólogo independiente Brewster Kahle, en una charla de 2004 en IT Conversations, analizó los beneficios de permitir un acceso más fácil a los archivos DjVu. [8] [9]

La biblioteca DjVu, distribuida como parte del paquete de código abierto DjVuLibre, se ha convertido en la implementación de referencia para el formato DjVu. DjVuLibre ha sido mantenida y actualizada por los desarrolladores originales de DjVu desde 2002. [10]

La especificación del formato de archivo DjVu ha pasado por varias revisiones, la más reciente de las cuales data de 2005.

Papel en el ecosistema del software

El principal uso del formato DjVu ha sido la distribución electrónica de documentos con una calidad comparable a la de los documentos impresos. Como ese nicho es también el principal uso del PDF, era inevitable que los dos formatos se convirtieran en competidores. Sin embargo, debe observarse que los dos formatos abordan el problema de la entrega de documentos de alta resolución de maneras muy diferentes: PDF codifica principalmente gráficos y texto como datos vectorizados, mientras que DjVu los codifica principalmente como imágenes de mapa de píxeles . Esto significa que PDF pone la carga de reproducir el documento en el lector, mientras que DjVu pone esa carga en el creador.

Durante varios años, que coincidieron significativamente con el período en el que se estaba desarrollando DjVu, no existían visores PDF para sistemas operativos libres; un obstáculo particular era la reproducción de fuentes vectorizadas, que son esenciales para combinar archivos de pequeño tamaño con alta resolución en PDF. Dado que la visualización de DjVu era un problema más simple para el que había software libre disponible, se sugirió que el movimiento de software libre debería utilizar DjVu en lugar de PDF para distribuir documentación; la reproducción para crear DjVu en principio no es muy diferente de la reproducción para un controlador de impresora específico del dispositivo, y DjVu puede, como último recurso, generarse a partir de escaneos de medios de papel. Sin embargo, cuando FreeType 2.0 en 2000 comenzó a proporcionar reproducción de todos los principales formatos de fuentes vectorizadas, esa ventaja específica de DjVu comenzó a erosionarse.

En la década de 2000, con el crecimiento de la World Wide Web y antes de la adopción generalizada de la banda ancha , las bibliotecas digitales adoptaron a menudo DjVu como su formato de elección, gracias a su integración con software como Greenstone [11] e Internet Archive [12] , complementos del navegador que permitían una navegación en línea avanzada, un tamaño de archivo más pequeño para una calidad comparable de escaneos de libros y otros documentos con muchas imágenes [13] y soporte para incrustar y buscar texto completo desde OCR . [14] [15] Algunas características como las vistas previas en miniatura se integraron más tarde en BookReader de Internet Archive [16] y la navegación DjVu quedó obsoleta en su favor ya que alrededor de 2015 algunos navegadores importantes dejaron de soportar complementos NPAPI y DjVu con ellos. [17]

El visor DjVu.js intenta reemplazar los complementos faltantes.

Descripción técnica

Estructura de archivo

El formato de archivo DjVu se basa en el formato de archivo de intercambio y está compuesto de fragmentos organizados jerárquicamente. La estructura IFF está precedida por un AT&T número mágico de 4 bytes . A continuación se encuentra un FORMfragmento único con un identificador secundario de DJVUo DJVMpara un documento de una sola página o de varias páginas, respectivamente.

Todos los fragmentos pueden estar contenidos en un único archivo en el caso de los denominados documentos agrupados, o pueden estar contenidos en varios archivos: un archivo para cada página más algunos archivos con fragmentos compartidos.

Tipos de fragmentos

Compresión

DjVu divide una sola imagen en muchas imágenes diferentes y luego las comprime por separado. Para crear un archivo DjVu, la imagen inicial primero se separa en tres imágenes: una imagen de fondo, una imagen de primer plano y una imagen de máscara. Las imágenes de fondo y primer plano suelen ser imágenes en color de menor resolución (por ejemplo, 100 ppp); la imagen de máscara es una imagen de dos niveles de alta resolución (por ejemplo, 300 ppp) y normalmente es donde se almacena el texto. Las imágenes de fondo y primer plano se comprimen luego utilizando un algoritmo de compresión basado en wavelets llamado IW44. [4] La imagen de máscara se comprime utilizando un método llamado JB2 (similar a JBIG2 ). El método de codificación JB2 identifica formas casi idénticas en la página, como múltiples ocurrencias de un carácter particular en una fuente, estilo y tamaño determinados. Comprime el mapa de bits de cada forma única por separado y luego codifica las ubicaciones donde aparece cada forma en la página. De este modo, en lugar de comprimir varias veces una letra "e" en una fuente determinada, comprime la letra "e" una vez (como una imagen de bits comprimida) y luego registra cada lugar de la página en el que aparece.

Opcionalmente, estas formas pueden asignarse a códigos UTF-8 (a mano o, potencialmente, mediante un sistema de reconocimiento de texto ) y almacenarse en el archivo DjVu. Si existe esta asignación, es posible seleccionar y copiar texto.

Dado que JB2 (también llamado DjVuBitonal) es una variación de JBIG2, que funciona con los mismos principios, [18] ambos métodos de compresión tienen los mismos problemas al realizar una compresión con pérdida. En 2013 se descubrió que las fotocopiadoras y escáneres de Xerox habían estado sustituyendo dígitos por otros de apariencia similar, por ejemplo, reemplazando un 6 por un 8. [19] Se ha detectado un documento DjVu con sustituciones de caracteres, como una n con serifas sangrantes que se convierte en una au y una o con una mancha en el interior que se convierte en una e. [20] No se almacena en el archivo si se ha producido una compresión con pérdida. [1] Por lo tanto, la aplicación de visualización DjView no puede advertir al usuario de que podrían haberse producido sustituciones de glifos , ni al abrir un archivo comprimido con pérdida ni en los cuadros de diálogo Información o Metadatos. [21]

Licencia de formato

DjVu es un formato de archivo abierto con patentes. [3] La especificación del formato de archivo está publicada, así como el código fuente de la biblioteca de referencia. [3] Los autores originales distribuyen una implementación de código abierto llamada " DjVuLibre " bajo la Licencia Pública General de GNU y una concesión de patente. [22] Los derechos para el desarrollo comercial del software de codificación se han transferido a diferentes empresas a lo largo de los años, incluidas AT&T Corporation , LizardTech , [23] Celartem [24] y Cuminas . [25] Las patentes suelen tener un plazo de vencimiento de unos 20 años.

Celartem adquirió LizardTech y Extensis . [26] [27] [24] [28] [29]

Apoyo

La selección de visualizadores DjVu descargables es más amplia en distribuciones Linux que en Windows o Mac OS. Además, el formato rara vez es compatible con software de escaneo propietario.

En 2002, el formato de archivo DjVu fue elegido por Internet Archive como un formato en el que su Million Book Project ofrece libros de dominio público escaneados en línea (junto con TIFF y PDF). [30] En febrero de 2016, Internet Archive anunció que DjVu ya no se usaría para nuevas cargas, entre otras razones citando la disminución del uso del formato y la dificultad de mantener su visor basado en subprogramas Java para el formato. [17]

Wikimedia Commons , un repositorio multimedia utilizado por Wikipedia entre otros, permite condicionalmente archivos multimedia PDF y DjVu. [31]

Véase también

Notas

  1. ^ Aunque generalmente se pronuncia como un acrónimo "DJVU", el tipo de archivo fue pensado para tener la pronunciación DAY -zhah- VOO ( / ˌd eɪʒɑːˈv / ) después del francés déjà vu . [ 2 ]

Referencias

  1. ^ abcdefghi "Referencia de Lizardtech DjVu" (PDF) . Cuminas.jp . p. 25 . Consultado el 7 de diciembre de 2021 .
  2. ^ ab "DjVu.org – el menú principal de recursos de djvu". djvu.org. Archivado desde el original el 2017-06-29 . Consultado el 2017-07-02 .{{cite web}}: CS1 maint: unfit URL (link)
  3. ^ abc "¿Qué es DjVu? – DjVu.org". DjVu.org. Archivado desde el original el 21 de enero de 2019. Consultado el 5 de marzo de 2009 .
  4. ^ abc Léon Bottou; Patrick Haffner; Paul G. Howard; Patrice Simard; Yoshua Bengio; Yann Le Cun (1998). "Compresión de imágenes de documentos de alta calidad con DjVu, 7(3):410–425" (PDF) . Revista de imágenes electrónicas .
  5. ^ Visor de documentos, Suficientemente seguro, 4 de abril de 2022 , consultado el 9 de abril de 2022
  6. ^ "ISO 32000-1:2008 – Gestión de documentos – Formato de documento portátil – Parte 1: PDF 1.7". Iso.org . 2008-07-01 . Consultado el 2010-02-21 .
  7. ^ Orion, Egan (5 de diciembre de 2007). "PDF 1.7 está aprobado como ISO 32000". The Inquirer . Incisive Media . Archivado desde el original el 13 de diciembre de 2007 . Consultado el 5 de diciembre de 2007 .
  8. ^ Brewster Kahle (16 de diciembre de 2004). "Acceso universal a todo el conocimiento" (audio; discurso en 1h:31m:20s) . Conversations Network.
  9. ^ "LizardTech lanzará un visor Java para DJVu en código abierto". ECM Connection . 7 de diciembre de 2004 . Consultado el 18 de agosto de 2017 .
  10. ^ "DjVuLibre: biblioteca y visor DjVu de código abierto". djvu.sourceforge.net .
  11. ^ "nzdl:projects - Greenstone". Wiki.greenstone.org . Consultado el 7 de diciembre de 2021 .
  12. ^ Eric Rumsey (5 de septiembre de 2018). "Google Books vs. DjVu en Internet Archive". Blog.libuiowa.edu . Archivado desde el original el 22 de agosto de 2018. Consultado el 21 de agosto de 2018 .
  13. ^ Eric Rumsey (10 de septiembre de 2018). "DjVu de nuevo". Blog.libuiowa.edu .
  14. ^ Jeff Kaplan (9 de diciembre de 2004). "Nueva colección de libros: escaneos en color, djvu, algunos archivos PDF" (PDF) . Blog.archive.org .
  15. ^ Janusz S. Bień (12 de septiembre de 2011). "Búsqueda eficiente en texto oculto de documentos DjVu de gran tamaño". Tecnologías lingüísticas avanzadas para bibliotecas digitales (PDF) . Apuntes de clase en informática. Vol. 6699. págs. 1–14. doi :10.1007/978-3-642-23160-5_1. ISBN 978-3-642-23159-9.S2CID 3095526  .
  16. ^ Eric Rumsey (10 de septiembre de 2010). "Vista en miniatura del BookReader de Internet Archive". Blog.libuiowa.edu .
  17. ^ de Brewster Kahle ; Jeff Kaplan (26 de febrero de 2016). "Archivos DjVu para nuevas cargas". Archive.org .
  18. ^ Artem Mikheev, Luc Vincent, Mike Hawrylycz y Léon Bottou: Publicación electrónica de documentos con DjVu
  19. ^ Consulte el artículo JBIG2 para obtener más detalles y referencias.
  20. ^ "Este documento me causó bastante consternación al transcribirlo en un sitio que... | Hacker News". News.ycombinator.com . Consultado el 7 de diciembre de 2021 .
  21. ^ "DjVuLibre". SourceForge.net . Consultado el 7 de diciembre de 2021 .
  22. ^ "DjVuLibre: biblioteca y visor DjVu de código abierto".
  23. ^ Extensis. «Empresa – Acerca de – LizardTech». Lizardtech.com .
  24. ^ ab "Celartem, Inc.: Información de la empresa privada – Bloomberg". Bloomberg.com .
  25. ^ "会社情報 - Corporación Cuminas". Cuminas.jp . Archivado desde el original el 15 de enero de 2018 . Consultado el 14 de enero de 2018 .
  26. ^ "Descripción general de la empresa: Celartem Technology, Inc". Celartem.com . Archivado desde el original el 27 de mayo de 2019. Consultado el 7 de diciembre de 2021 .
  27. ^ "Celartem Technology anuncia la fusión de sus holdings estadounidenses – Extensis.com". Archivado desde el original el 15 de enero de 2018. Consultado el 14 de enero de 2018 .
  28. ^ "Celartem Technology Inc.: Información de la empresa privada – Bloomberg". Bloomberg.com .
  29. ^ "Celartem vende complementos y extensiones Extensis y LizardTech a onOne Software – Big Picture – Impresión de formato ancho". bigpicture.net . 28 de julio de 2005.
  30. ^ "Formatos de archivos de imagen – OLPC". Wiki.laptop.org . Consultado el 9 de septiembre de 2008 .
  31. ^ Wikimedia Commons. Alcance del proyecto: PDF y DjVu.

Enlaces externos