DjVu [a] es un formato de archivo de computadora diseñado principalmente para almacenar documentos escaneados , especialmente aquellos que contienen una combinación de texto, dibujos lineales, imágenes en color indexadas y fotografías. Utiliza tecnologías como la separación de capas de imagen de texto y fondo/imágenes, carga progresiva , codificación aritmética y compresión con pérdida para imágenes bitonales ( monocromáticas ). Esto permite almacenar imágenes legibles y de alta calidad en un mínimo de espacio, de modo que puedan estar disponibles en la web .
Se ha promocionado a DjVu como un programa que ofrece archivos más pequeños que el formato PDF para la mayoría de los documentos escaneados. [3] Los desarrolladores de DjVu informan que las páginas de revistas en color se comprimen a 40–70 kB, los documentos técnicos en blanco y negro se comprimen a 15–40 kB y los manuscritos antiguos se comprimen a alrededor de 100 kB; una imagen JPEG satisfactoria normalmente requiere 500 kB. [4] Al igual que PDF, DjVu puede contener una capa de texto OCR , lo que facilita la realización de operaciones de copia y pegado y búsqueda de texto.
Hay creadores, manipuladores, convertidores, complementos de navegador web y visores de escritorio gratuitos disponibles. [2] DjVu es compatible con varios visores de documentos multiformato y software de lectura de libros electrónicos en Linux ( Okular , Evince , Zathura ), Windows ( Okular , SumatraPDF ) y Android (Document Viewer, [5] FBReader, EBookDroid, PocketBook).
La tecnología DjVu fue desarrollada originalmente por Yann LeCun , Léon Bottou , Patrick Haffner, Paul G. Howard, Patrice Simard y Yoshua Bengio en AT&T Labs entre 1996 y 2001. [4]
Antes de la estandarización del formato PDF en 2008, [6] [7] se consideraba que DjVu era superior debido a que era un formato de archivo abierto en contraste con la naturaleza propietaria del PDF en ese momento. La tasa de compresión declarada más alta (y, por lo tanto, el tamaño de archivo más pequeño) y la facilidad declarada para convertir grandes volúmenes de texto al formato DjVu fueron otros argumentos a favor de la superioridad de DjVu sobre el formato PDF en el panorama tecnológico de 2004. El tecnólogo independiente Brewster Kahle, en una charla de 2004 en IT Conversations, analizó los beneficios de permitir un acceso más fácil a los archivos DjVu. [8] [9]
La biblioteca DjVu, distribuida como parte del paquete de código abierto DjVuLibre, se ha convertido en la implementación de referencia para el formato DjVu. DjVuLibre ha sido mantenida y actualizada por los desarrolladores originales de DjVu desde 2002. [10]
La especificación del formato de archivo DjVu ha pasado por varias revisiones, la más reciente de las cuales data de 2005.
El principal uso del formato DjVu ha sido la distribución electrónica de documentos con una calidad comparable a la de los documentos impresos. Como ese nicho es también el principal uso del formato PDF, era inevitable que los dos formatos se convirtieran en competidores. Sin embargo, cabe señalar que los dos formatos abordan el problema de la entrega de documentos de alta resolución de formas muy diferentes: PDF codifica principalmente gráficos y texto como datos vectorizados, mientras que DjVu los codifica principalmente como imágenes de mapa de píxeles . Esto significa que PDF pone la carga de la reproducción del documento en el lector, mientras que DjVu la pone en el creador.
Durante varios años, que coincidieron significativamente con el período en el que se estaba desarrollando DjVu, no existían visores PDF para sistemas operativos libres; un obstáculo particular era la reproducción de fuentes vectorizadas, que son esenciales para combinar archivos de pequeño tamaño con alta resolución en PDF. Dado que la visualización de DjVu era un problema más simple para el que había software libre disponible, se sugirió que el movimiento de software libre debería utilizar DjVu en lugar de PDF para distribuir documentación; la reproducción para crear DjVu en principio no es muy diferente de la reproducción para un controlador de impresora específico del dispositivo, y DjVu puede, como último recurso, generarse a partir de escaneos de medios de papel. Sin embargo, cuando FreeType 2.0 en 2000 comenzó a proporcionar reproducción de todos los principales formatos de fuentes vectorizadas, esa ventaja específica de DjVu comenzó a erosionarse.
En la década de 2000, con el crecimiento de la World Wide Web y antes de la adopción generalizada de la banda ancha , las bibliotecas digitales adoptaron a menudo DjVu como su formato de elección, gracias a su integración con software como Greenstone [11] e Internet Archive [12] , complementos del navegador que permitían una navegación en línea avanzada, un tamaño de archivo más pequeño para una calidad comparable de escaneos de libros y otros documentos con muchas imágenes [13] y soporte para incrustar y buscar texto completo desde OCR . [14] [15] Algunas características como las vistas previas en miniatura se integraron más tarde en BookReader de Internet Archive [16] y la navegación DjVu quedó obsoleta en su favor ya que alrededor de 2015 algunos navegadores importantes dejaron de soportar complementos NPAPI y DjVu con ellos. [17]
El visor DjVu.js intenta reemplazar los complementos faltantes.
El formato de archivo DjVu se basa en el formato de archivo de intercambio y está compuesto de fragmentos organizados jerárquicamente. La estructura IFF está precedida por un AT&T
número mágico de 4 bytes . A continuación se encuentra un fragmento único FORM
con un identificador secundario de DJVU
o DJVM
para un documento de una sola página o de varias páginas, respectivamente.
Todos los fragmentos pueden estar contenidos en un único archivo en el caso de los denominados documentos agrupados, o pueden estar contenidos en varios archivos: un archivo para cada página más algunos archivos con fragmentos compartidos.
DjVu divide una sola imagen en muchas imágenes diferentes y luego las comprime por separado. Para crear un archivo DjVu, la imagen inicial primero se separa en tres imágenes: una imagen de fondo, una imagen de primer plano y una imagen de máscara. Las imágenes de fondo y primer plano suelen ser imágenes en color de menor resolución (por ejemplo, 100 ppp); la imagen de máscara es una imagen de dos niveles de alta resolución (por ejemplo, 300 ppp) y normalmente es donde se almacena el texto. Las imágenes de fondo y primer plano se comprimen luego utilizando un algoritmo de compresión basado en wavelets llamado IW44. [4] La imagen de máscara se comprime utilizando un método llamado JB2 (similar a JBIG2 ). El método de codificación JB2 identifica formas casi idénticas en la página, como múltiples ocurrencias de un carácter particular en una fuente, estilo y tamaño determinados. Comprime el mapa de bits de cada forma única por separado y luego codifica las ubicaciones donde aparece cada forma en la página. De este modo, en lugar de comprimir varias veces una letra "e" en una fuente determinada, comprime la letra "e" una vez (como una imagen de bits comprimida) y luego registra cada lugar de la página en el que aparece.
Opcionalmente, estas formas pueden asignarse a códigos UTF-8 (a mano o, potencialmente, mediante un sistema de reconocimiento de texto ) y almacenarse en el archivo DjVu. Si existe esta asignación, es posible seleccionar y copiar texto.
Dado que JB2 (también llamado DjVuBitonal) es una variación de JBIG2, que funciona con los mismos principios, [18] ambos métodos de compresión tienen los mismos problemas al realizar una compresión con pérdida. En 2013 se descubrió que las fotocopiadoras y escáneres de Xerox habían estado sustituyendo dígitos por otros de apariencia similar, por ejemplo, reemplazando un 6 por un 8. [19] Se ha detectado un documento DjVu con sustituciones de caracteres, como una n con serifas sangrantes que se convierte en una au y una o con una mancha en el interior que se convierte en una e. [20] No se almacena en el archivo si se ha producido una compresión con pérdida. [1] Por lo tanto, la aplicación de visualización DjView no puede advertir al usuario de que podrían haberse producido sustituciones de glifos , ni al abrir un archivo comprimido con pérdida ni en los cuadros de diálogo Información o Metadatos. [21]
DjVu es un formato de archivo abierto con patentes. [3] La especificación del formato de archivo está publicada, así como el código fuente de la biblioteca de referencia. [3] Los autores originales distribuyen una implementación de código abierto llamada " DjVuLibre " bajo la Licencia Pública General de GNU y una concesión de patente. [22] Los derechos para el desarrollo comercial del software de codificación se han transferido a diferentes empresas a lo largo de los años, incluidas AT&T Corporation , LizardTech , [23] Celartem [24] y Cuminas . [25] Las patentes suelen tener un plazo de vencimiento de unos 20 años.
Celartem adquirió LizardTech y Extensis . [26] [27] [24] [28] [29]
La selección de visualizadores DjVu descargables es más amplia en distribuciones Linux que en Windows o macOS. Además, el formato rara vez es compatible con software de escaneo propietario.
En 2002, el formato de archivo DjVu fue elegido por Internet Archive como un formato en el que su Million Book Project ofrece libros de dominio público escaneados en línea (junto con TIFF y PDF). [30] En febrero de 2016, Internet Archive anunció que DjVu ya no se usaría para nuevas cargas, entre otras razones citando la disminución del uso del formato y la dificultad de mantener su visor basado en subprogramas Java para el formato. [17]
Wikimedia Commons , un repositorio multimedia utilizado por Wikipedia entre otros, permite condicionalmente archivos multimedia PDF y DjVu. [31]
{{cite web}}
: CS1 maint: unfit URL (link)