stringtranslate.com

DjVu

DjVu ( / ˌ d ʒ ɑː ˈ v / DAY -zhah- VOO , como el francés " déjà vu " [2] ) es un formato de archivo informático diseñado principalmente para almacenar documentos escaneados , especialmente aquellos que contienen una combinación de texto y dibujos lineales. , imágenes en color indexadas y fotografías. Utiliza tecnologías como separación de capas de imagen de texto y fondo/imágenes, carga progresiva , codificación aritmética y compresión con pérdida para imágenes bitonales ( monocromáticas ). Esto permite almacenar imágenes legibles y de alta calidad en un espacio mínimo, para que puedan estar disponibles en la web .

Se ha promocionado que DjVu proporciona archivos más pequeños que PDF para la mayoría de los documentos escaneados. [3] Los desarrolladores de DjVu informan que las páginas de revistas en color se comprimen entre 40 y 70 kB, los artículos técnicos en blanco y negro se comprimen entre 15 y 40 kB y los manuscritos antiguos se comprimen entre 100 kB; una imagen JPEG satisfactoria normalmente requiere 500 kB. [4] Al igual que PDF, DjVu puede contener una capa de texto OCR , lo que facilita las operaciones de copiar y pegar y de búsqueda de texto.

Se encuentran disponibles creadores, manipuladores, convertidores, complementos de navegador web y visores de escritorio gratuitos. [2] DjVu es compatible con varios visores de documentos multiformato y software de lectura de libros electrónicos en Linux ( Okular , Evince , Zathura ), Windows ( Okular , SumatraPDF ) y Android (Document Viewer, [5] FBReader, EBookDroid , Libro de bolsillo).

Historia

La tecnología DjVu fue desarrollada originalmente por Yann LeCun , Léon Bottou , Patrick Haffner, Paul G. Howard, Patrice Simard y Yoshua Bengio en AT&T Labs de 1996 a 2001. [4]

Antes de la estandarización de PDF en 2008, [6] [7] DjVu se consideraba superior debido a que era un formato de archivo abierto en contraste con la naturaleza patentada de PDF en ese momento. La relación de compresión más alta declarada (y por lo tanto el tamaño de archivo más pequeño) y la supuesta facilidad para convertir grandes volúmenes de texto al formato DjVu fueron otros argumentos para la superioridad de DjVu sobre PDF en el panorama tecnológico de 2004. El tecnólogo independiente Brewster Kahle en una charla de 2004 en IT Conversations analizó los beneficios de permitir un acceso más fácil a los archivos DjVu. [8] [9]

La biblioteca DjVu distribuida como parte del paquete de código abierto DjVuLibre se ha convertido en la implementación de referencia para el formato DjVu. DjVuLibre ha sido mantenido y actualizado por los desarrolladores originales de DjVu desde 2002. [10]

La especificación del formato de archivo DjVu ha pasado por varias revisiones, la más reciente fue de 2005.

Papel en el ecosistema del software

El uso principal del formato DjVu ha sido la distribución electrónica de documentos con una calidad comparable a la de los documentos impresos. Como ese nicho es también el uso principal de PDF, era inevitable que los dos formatos se convirtieran en competidores. Sin embargo, hay que observar que los dos formatos abordan el problema de entregar documentos de alta resolución de maneras muy diferentes: PDF codifica principalmente gráficos y texto como datos vectorizados, mientras que DjVu los codifica principalmente como imágenes de mapas de píxeles . Esto significa que PDF impone la carga de representar el documento al lector, mientras que DjVu impone esa carga al creador.

Durante varios años, coincidiendo significativamente con el período en el que se estaba desarrollando DjVu, no había visores de PDF para los sistemas operativos gratuitos; un obstáculo particular fue la representación de fuentes vectorizadas, que son esenciales para combinar archivos de tamaño pequeño con alta resolución en PDF. Dado que mostrar DjVu era un problema más simple para el cual había software gratuito disponible, hubo sugerencias de que el movimiento de software libre debería emplear DjVu en lugar de PDF para distribuir documentación; En principio, el renderizado para crear DjVu no es muy diferente del renderizado para un controlador de impresora específico del dispositivo y, como último recurso, DjVu puede generarse a partir de escaneos de soportes de papel. Sin embargo, cuando FreeType 2.0 en 2000 comenzó a ofrecer renderizado de todos los principales formatos de fuentes vectorizadas, esa ventaja específica de DjVu comenzó a erosionarse.

En la década de 2000, con el crecimiento de la World Wide Web y antes de la adopción generalizada de la banda ancha , las bibliotecas digitales solían adoptar DjVu como su formato preferido, gracias a su integración con software como Greenstone [11] e Internet Archive , [12]. ] complementos del navegador que permitían una navegación avanzada en línea, un tamaño de archivo más pequeño para una calidad comparable de escaneos de libros y otros documentos con muchas imágenes [13] y soporte para incrustar y buscar texto completo desde OCR . [14] [15] Algunas funciones, como las vistas previas en miniatura, se integraron más tarde en BookReader de Internet Archive [16] y la navegación con DjVu quedó obsoleta a su favor, ya que alrededor de 2015 algunos de los principales navegadores dejaron de admitir complementos NPAPI y DjVu con ellos. [17]

DjVu.js Viewer intenta reemplazar los complementos que faltan.

Resumen técnico

Estructura de archivos

El formato de archivo DjVu se basa en el formato de archivo de intercambio y se compone de fragmentos organizados jerárquicamente. La estructura IFF está precedida por un AT&T número mágico de 4 bytes . A continuación se muestra un FORMfragmento único con un identificador secundario de DJVUo DJVMpara un documento de una sola página o de varias páginas, respectivamente.

Todos los fragmentos pueden estar contenidos en un único archivo en el caso de los llamados documentos agrupados, o pueden estar contenidos en varios archivos: un archivo para cada página más algunos archivos con fragmentos compartidos.

tipos de fragmentos

Compresión

DjVu divide una sola imagen en muchas imágenes diferentes y luego las comprime por separado. Para crear un archivo DjVu, la imagen inicial se separa primero en tres imágenes: una imagen de fondo, una imagen de primer plano y una imagen de máscara. Las imágenes de fondo y de primer plano suelen ser imágenes en color de resolución más baja (por ejemplo, 100 ppp); la imagen de máscara es una imagen de dos niveles de alta resolución (por ejemplo, 300 ppp) y normalmente es donde se almacena el texto. Luego, las imágenes de fondo y de primer plano se comprimen utilizando un algoritmo de compresión basado en wavelets llamado IW44. [4] La imagen de la máscara se comprime utilizando un método llamado JB2 (similar a JBIG2 ). El método de codificación JB2 identifica formas casi idénticas en la página, como múltiples apariciones de un carácter particular en una fuente, estilo y tamaño determinados. Comprime el mapa de bits de cada forma única por separado y luego codifica las ubicaciones donde aparece cada forma en la página. Por lo tanto, en lugar de comprimir una letra "e" en una fuente determinada varias veces, comprime la letra "e" una vez (como una imagen de bits comprimida) y luego registra cada lugar de la página en el que aparece.

Opcionalmente, estas formas pueden asignarse a códigos UTF-8 (ya sea manualmente o potencialmente mediante un sistema de reconocimiento de texto ) y almacenarse en el archivo DjVu. Si este mapeo existe, es posible seleccionar y copiar texto.

Dado que JB2 (también llamado DjVuBitonal) es una variación de JBIG2 y funciona con los mismos principios, [18] ambos métodos de compresión tienen los mismos problemas al realizar una compresión con pérdida. En 2013, se supo que las fotocopiadoras y escáneres Xerox habían estado sustituyendo dígitos por otros de apariencia similar, por ejemplo, reemplazando un 6 por un 8. [19] Se ha detectado un documento de DjVu con sustituciones de caracteres, como una n con serifas sangrantes. convirtiéndose en au y una o con un punto en el interior que se convierte en una e. [20] Si se ha producido una compresión con pérdida no se almacena en el archivo. [1] Por lo tanto, la aplicación de visualización DjView no puede advertir al usuario que podrían haberse producido sustituciones de glifos , ni al abrir un archivo comprimido con pérdida, ni en los cuadros de diálogo Información o Metadatos. [21]

Licencia de formato

DjVu es un formato de archivo abierto con patentes. [3] Se publica la especificación del formato de archivo, así como el código fuente de la biblioteca de referencia. [3] Los autores originales distribuyen una implementación de código abierto denominada " DjVuLibre " bajo la Licencia Pública General GNU . Los derechos sobre el desarrollo comercial del software de codificación se han transferido a diferentes empresas a lo largo de los años, incluidas AT&T Corporation , LizardTech , [22] Celartem [23] y Cuminas . [24]

Celartem adquirió LizardTech y Extensis. [25] [26] [23] [27] [28]

Apoyo

La selección de visores DjVu descargables es más amplia en las distribuciones de Linux que en Windows o Mac OS. Además, el formato rara vez es compatible con software de escaneo propietario.

En 2002, Internet Archive eligió el formato de archivo DjVu como formato en el que su Million Book Project proporciona libros escaneados de dominio público en línea (junto con TIFF y PDF). [29] En febrero de 2016, Internet Archive anunció que DjVu ya no se usaría para nuevas cargas, entre otras razones, citando el uso cada vez menor del formato y la dificultad de mantener su visor basado en subprogramas Java para el formato. [17]

Wikimedia Commons , un repositorio de medios utilizado por Wikipedia, entre otros, permite condicionalmente archivos multimedia PDF y DjVu. [30]

Ver también

Referencias

  1. ^ abcdefghi "Referencia de Lizardtech DjVu" (PDF) . Cuminas.jp . pag. 25 . Consultado el 7 de diciembre de 2021 .
  2. ^ ab "DjVu.org: el menú principal de recursos de djvu". djvu.org . Consultado el 2 de julio de 2017 .
  3. ^ abc "¿Qué es DjVu - DjVu.org?". DjVu.org. Archivado desde el original el 21 de enero de 2019 . Consultado el 5 de marzo de 2009 .
  4. ^ a b C Léon Bottou; Patricio Haffner; Paul G. Howard; Patrice Simard; Yoshua Bengio; Yann Le Cun (1998). "Compresión de imágenes de documentos de alta calidad con DjVu, 7(3):410–425" (PDF) . Revista de imágenes electrónicas .
  5. ^ Visor de documentos, suficientemente seguro, 4 de abril de 2022 , consultado el 9 de abril de 2022
  6. ^ "ISO 32000-1:2008 - Gestión de documentos - Formato de documento portátil - Parte 1: PDF 1.7". Iso.org . 2008-07-01 . Consultado el 21 de febrero de 2010 .
  7. ^ Orión, Egan (5 de diciembre de 2007). "PDF 1.7 está aprobado como ISO 32000". El Indagador . Medios incisivos . Archivado desde el original el 13 de diciembre de 2007 . Consultado el 5 de diciembre de 2007 .
  8. ^ Brewster Kahle (16 de diciembre de 2004). “Acceso Universal a Todos los Conocimientos” (Audio; Discurso a las 1h:31m:20s) . Red de Conversaciones.
  9. ^ "LizardTech abrirá un visor Java DjVu de código abierto". Conexión del ECM . 7 de diciembre de 2004 . Consultado el 18 de agosto de 2017 .
  10. ^ "DjVuLibre: visor y biblioteca DjVu de código abierto". djvu.sourceforge.net .
  11. ^ "nzdl: proyectos - Greenstone". Wiki.greenstone.org . Consultado el 7 de diciembre de 2021 .
  12. ^ Eric Rumsey (5 de septiembre de 2018). "Google Books frente a DjVu en Internet Archive". Blog.libuiowa.edu . Archivado desde el original el 22 de agosto de 2018 . Consultado el 21 de agosto de 2018 .
  13. ^ Eric Rumsey (10 de septiembre de 2018). "DjVu de nuevo". Blog.libuiowa.edu .
  14. ^ Jeff Kaplan (9 de diciembre de 2004). «Nueva colección de libros: escaneos en color, djvu, algún pdf» (PDF) . Blog.archive.org .
  15. ^ Janusz S. Bień (12 de septiembre de 2011). "Búsqueda eficiente en texto oculto de grandes documentos DjVu". Tecnologías lingüísticas avanzadas para bibliotecas digitales (PDF) . Apuntes de conferencias sobre informática. vol. 6699, págs. 1-14. doi :10.1007/978-3-642-23160-5_1. ISBN 978-3-642-23159-9. S2CID  3095526.
  16. ^ Eric Rumsey (10 de septiembre de 2010). "Vista en miniatura del BookReader de Internet Archive". Blog.libuiowa.edu .
  17. ^ ab Brewster Kahle ; Jeff Kaplan (26 de febrero de 2016). "Archivos DjVu para nuevas cargas". Archivo.org .
  18. ^ Artem Mikheev, Luc Vincent, Mike Hawrylycz y Léon Bottou: publicación de documentos electrónicos con DjVu
  19. ^ Consulte el artículo de JBIG2 para obtener más detalles y referencias.
  20. ^ "Este documento me causó bastante consternación al transcribirlo en un sitio que... | Hacker News". Noticias.ycombinator.com . Consultado el 7 de diciembre de 2021 .
  21. ^ "DjVuLibre". FuenteForge.net . Consultado el 7 de diciembre de 2021 .
  22. ^ Extensa. "Empresa - Acerca de - LizardTech". Lizardtech.com .
  23. ^ ab "Celartem, Inc .: Información de la empresa privada - Bloomberg". Bloomberg.com .
  24. ^ "会社情報 - Corporación Cuminas". Cuminas.jp . Archivado desde el original el 15 de enero de 2018 . Consultado el 14 de enero de 2018 .
  25. ^ "Descripción general de la empresa: Celartem Technology, Inc". Celartem.com . Archivado desde el original el 27 de mayo de 2019 . Consultado el 7 de diciembre de 2021 .
  26. ^ "Celartem Technology anuncia la fusión de participaciones estadounidenses - Extensis.com". Archivado desde el original el 15 de enero de 2018 . Consultado el 14 de enero de 2018 .
  27. ^ "Celartem Technology Inc .: Información de la empresa privada - Bloomberg". Bloomberg.com .
  28. ^ "Celartem vende complementos y XTensions de Extensis y LizardTech para el software onOne - Panorama general - Impresión de gran formato". bigpicture.net .
  29. ^ "Formatos de archivos de imagen - OLPC". Wiki.laptop.org . Consultado el 9 de septiembre de 2008 .
  30. ^ Wikimedia Commons. Alcance del proyecto: PDF y DjVu.

enlaces externos