stringtranslate.com

Escaneo de libros

El escáner de libros Scribe de Internet Archive en 2011
Escáner de libros de Internet Archive

El escaneo o digitalización de libros (también: escaneo de revistas o digitalización de revistas ) es el proceso de convertir libros y revistas físicos en medios digitales como imágenes , texto electrónico o libros electrónicos (e-books) mediante el uso de un escáner de imágenes . [1] Los proyectos de escaneo de libros a gran escala han hecho que muchos libros estén disponibles en línea. [2]

Los libros digitales se pueden distribuir, reproducir y leer fácilmente en la pantalla . Los formatos de archivo más comunes son DjVu , Portable Document Format (PDF) y Tag Image File Format (TIFF). Para convertir las imágenes sin procesar, se utiliza el reconocimiento óptico de caracteres (OCR) [1] para convertir las páginas de los libros en un formato de texto digital como ASCII u otro formato similar, lo que reduce el tamaño del archivo y permite que el texto se pueda reformatear, buscar o procesar mediante otras aplicaciones. [1]

Los escáneres de imágenes pueden ser manuales o automáticos. En un escáner de imágenes comercial común, el libro se coloca sobre una placa de vidrio plana (o platina) y una matriz de luz y óptica se mueve a lo largo del libro debajo del vidrio. En los escáneres de libros manuales, la placa de vidrio se extiende hasta el borde del escáner, lo que facilita la alineación del lomo del libro. [1] [2]

Un problema con el escaneo de libros encuadernados es que cuando un libro que no es muy delgado se coloca en posición horizontal, la parte de la página cercana al lomo (el margen) se curva significativamente, distorsionando el texto en esa parte del escaneo. Una solución es separar el libro en páginas separadas cortándolo o desencuadernándolo. Un método no destructivo es sostener el libro en un soporte en forma de V y fotografiarlo, en lugar de colocarlo en posición horizontal y escanearlo. La curvatura en el margen es mucho menos pronunciada de esta manera. [3] Las páginas se pueden pasar a mano o con dispositivos automáticos de transporte de papel. Por lo general, se presionan láminas de plástico o vidrio transparente contra la página para aplanarla.

Después de escanear, el software ajusta las imágenes del documento alineándolas, recortándolas, editándolas y convirtiéndolas en texto y en formato de libro electrónico final. Los correctores humanos suelen comprobar si el resultado contiene errores.

El escaneo a 118 puntos/centímetro ( 300 dpi ) es adecuado para la conversión a salida de texto digital, pero para la reproducción de archivo de libros raros, elaborados o ilustrados, se utiliza una resolución mucho mayor. [ cita requerida ] Los escáneres de alta gama capaces de imprimir miles de páginas por hora pueden costar miles de dólares, pero se han construido escáneres de libros manuales tipo " hágalo usted mismo " capaces de imprimir 1200 páginas por hora por US$300. [4]

Escáneres de libros comerciales

Boceto de un escáner de libros en forma de V de Atiz
Boceto de un escáner de libros manual típico

Los escáneres de libros comerciales no son como los escáneres normales ; estos escáneres de libros suelen ser una cámara digital de alta calidad con fuentes de luz a ambos lados de la cámara montadas en algún tipo de marco para proporcionar un fácil acceso a una persona o máquina para pasar las páginas del libro. Algunos modelos incluyen soportes para libros en forma de V, que brindan soporte para los lomos de los libros y también centran la posición del libro automáticamente.

La ventaja de este tipo de escáner es que es muy rápido, en comparación con la productividad de los escáneres de arriba.

Proyectos de gran escala

Proyectos como Project Gutenberg (fundado en 1971), [5] Million Book Project (fundado alrededor de 2001), Google Books (fundado en 2004) y Open Content Alliance (fundado en 2005) escanean libros a gran escala. [6] [7]

Uno de los principales desafíos es el gran volumen de libros que deben escanearse. En 2010, se estimó que el número total de obras que aparecen como libros en la historia de la humanidad era de alrededor de 130 millones. [8] Todas ellas deben escanearse y luego ponerse a disposición del público para que puedan buscarse en línea y utilizarlas como una biblioteca universal . En la actualidad, las grandes organizaciones recurren a tres métodos principales: la subcontratación, el escaneo interno mediante escáneres de libros comerciales y el escaneo interno mediante soluciones de escaneo robótico.

En cuanto a la subcontratación, los libros suelen enviarse a fuentes de bajo coste para que los escaneen en la India o China . Como alternativa, debido a la comodidad, la seguridad y la mejora de la tecnología, muchas organizaciones optan por escanear internamente utilizando escáneres de techo que consumen mucho tiempo o máquinas de escaneo basadas en cámaras digitales que son sustancialmente más rápidas y es un método empleado por Internet Archive y Google. [7] [9] Los métodos tradicionales han incluido cortar el lomo del libro y escanear las páginas en un escáner con capacidad de alimentación automática de páginas, con posterior reencuadernación de las páginas sueltas.

Una vez escaneada la página, los datos se introducen manualmente o mediante OCR, otro coste importante de los proyectos de escaneo de libros. [ ¿Según quién? ]

Debido a problemas de derechos de autor , la mayoría de los libros escaneados son aquellos que ya no están protegidos por derechos de autor; sin embargo, se sabe que Google Books escanea libros que aún están protegidos por derechos de autor a menos que el editor lo prohíba específicamente. [6] [7] [9] [10]

Proyectos colaborativos

Existen muchos proyectos de digitalización colaborativa en todo Estados Unidos. Dos de los primeros proyectos fueron el Proyecto de digitalización colaborativa en Colorado y NC ECHO (North Carolina Exploring Cultural Heritage Online), [11] con sede en la Biblioteca Estatal de Carolina del Norte .

Estos proyectos establecen y publican las mejores prácticas para la digitalización y trabajan con socios regionales para digitalizar materiales del patrimonio cultural. Más recientemente, se han establecido criterios adicionales para las mejores prácticas en el Reino Unido, Australia y la Unión Europea. [12] Wisconsin Heritage Online [13] es un proyecto de digitalización colaborativa que sigue el modelo del Proyecto de digitalización colaborativa de Colorado. Wisconsin utiliza una wiki [14] para crear y distribuir documentación colaborativa. El programa de digitalización colaborativa de Georgia, la Biblioteca Digital de Georgia, [15] presenta una biblioteca virtual integrada sobre la historia y la vida del estado, que incluye más de cien colecciones digitales de 60 instituciones y 100 agencias gubernamentales. La Biblioteca Digital de Georgia es una iniciativa GALILEO [16] con sede en las Bibliotecas de la Universidad de Georgia.

En el siglo XX, el Museo Hill y la Biblioteca de Manuscritos fotografiaron libros en Etiopía que luego fueron destruidos en medio de la violencia política en 1975. Desde entonces, la biblioteca ha trabajado para fotografiar manuscritos en países de Medio Oriente. [17]

En el sur de Asia, la fundación Nanakshahi está digitalizando manuscritos en escritura gurmukhī .

En Australia, ha habido muchos proyectos de colaboración entre la Biblioteca Nacional de Australia y las universidades para mejorar la infraestructura de repositorio en la que se almacenaría la información digitalizada. [18] Algunos de estos proyectos incluyen el proyecto ARROW (Australian Research Repositories Online to the World) y el proyecto APSR (Australian Partnership for Sustainable Repository).

Métodos de escaneo destructivos

Para escanear libros con un presupuesto reducido, la forma más económica de hacerlo es cortar la encuadernación. De este modo, el libro o la revista se convierte en un fajo de hojas separadas que se pueden cargar en un alimentador automático de documentos (ADF) estándar y escanear utilizando una tecnología de escaneado económica y común. El método no es adecuado para libros raros o valiosos. Este proceso presenta dos dificultades técnicas: primero, el corte y, segundo, el escaneado.

Desvinculación

Una técnica más precisa y menos destructiva que cortar las páginas es desencuadernarlas a mano utilizando herramientas adecuadas. Esta técnica se ha empleado con éxito en decenas de miles de páginas de papel original de archivo escaneadas para el proyecto de archivo digital de la Biblioteca Riazanov, procedentes de periódicos, revistas y folletos, con una antigüedad que varía entre 50 y 100 años o más, y que a menudo están compuestas de papel frágil y quebradizo. Aunque el valor monetario para algunos coleccionistas (y para la mayoría de los vendedores de este tipo de material) se destruye al desencuadernarlas, en muchos casos en realidad ayuda mucho a la conservación de las páginas, haciéndolas más accesibles para los investigadores [1] y con menos probabilidades de que se dañen cuando se examinen posteriormente. Una desventaja es que las pilas de páginas sin encuadernar se "esponjan" y, por lo tanto, quedan más expuestas al oxígeno del aire, lo que en algunos casos puede acelerar el deterioro. Esto se puede solucionar colocando pesos sobre las páginas después de desencuadernarlas y almacenándolas en contenedores adecuados. [1]

La desencuadernación manual permite conservar el texto que se queda en los márgenes de las encuadernaciones y, lo que es más importante, permite realizar escaneos más fáciles y completos de alta calidad de material de dos páginas de ancho, como caricaturas centrales, arte gráfico y fotos de revistas. El archivo digital de The Liberator 1918-1924 en Marxists Internet Archive demuestra la calidad de los escaneos de arte gráfico de dos páginas de ancho que se hacen posibles gracias a la cuidadosa desencuadernación manual y el posterior escaneo.

Las técnicas de desencuadernación varían según la tecnología de encuadernación, desde simplemente quitar algunas grapas, hasta enderezar y quitar los clavos, hasta pulir meticulosamente las capas de pegamento en el lomo de un libro hasta el punto exacto, seguido de la laboriosa eliminación de la cuerda utilizada para mantener el libro unido.

En algunos periódicos (como Labor Action 1950-1952) hay columnas en el centro de las páginas enfrentadas que se extienden a lo largo de las páginas. Si se corta parte del lomo de un volumen encuadernado de dichos periódicos, se perderá parte de este texto. Incluso la reimpresión de Greenwood de esta publicación no logró preservar el contenido textual de esas columnas centrales, cortando cantidades significativas de texto en ellas. Solo cuando los volúmenes encuadernados del periódico original se desencuadernaron meticulosamente y los pares abiertos de páginas centrales se escanearon como una sola página en un escáner de superficie plana, el contenido de la columna central se hizo disponible digitalmente. Alternativamente, se pueden presentar las dos páginas centrales enfrentadas como tres escaneos: uno de cada página individual y uno de un área del tamaño de una página situada sobre el centro de las dos páginas.

Corte

Una forma de cortar una pila de 500 a 1000 páginas en una sola pasada es utilizar una guillotina cortadora de papel , una gran mesa de acero con una prensa de papel que se atornilla a la pila y la fija firmemente antes de cortarla. [2] Una gran cuchilla de acero afilada que se mueve hacia abajo corta toda la longitud de cada hoja en una sola operación. Una palanca en la cuchilla permite aplicar varios cientos de libras de fuerza a la cuchilla para un corte rápido de una sola pasada.

No es posible realizar un corte limpio en una pila gruesa de papel con un cortador de papel con bisagra en forma de hoz tradicional y económico . Estos cortadores solo están diseñados para unas pocas hojas, siendo hasta diez hojas el límite práctico de corte. Una gran pila de papel aplica fuerzas de torsión en la bisagra, alejando la hoja del borde de corte sobre la mesa. El corte se vuelve más impreciso a medida que el corte se aleja de la bisagra, y la fuerza necesaria para mantener la hoja contra el borde de corte aumenta a medida que el corte se aleja de la bisagra.

El proceso de corte con guillotina desgasta la hoja con el tiempo, por lo que es necesario volver a afilarla. El papel estucado, como el papel liso de revista, desgasta la hoja más rápidamente que el papel normal de libro, debido al revestimiento de arcilla de caolinita . Además, quitar la encuadernación de un libro de tapa dura completo provoca un desgaste excesivo debido a que se corta el material rígido de la parte posterior de la cubierta. En cambio, se puede quitar la cubierta exterior y solo es necesario cortar las páginas interiores.

Un método alternativo para desencuadernar libros es utilizar una sierra de mesa. Si bien este método es potencialmente peligroso y no deja un borde tan liso como el método de la guillotina para cortar papel, es más accesible para la persona promedio. El método ideal es sujetar el libro entre dos tablas gruesas utilizando tornillos para máquinas pesados ​​para proporcionar la fuerza de sujeción. Todo el paquete de madera y libro se introduce a través de la sierra de mesa utilizando la guía de corte al hilo como guía. Una hoja de dientes finos de carburo afilada es ideal para generar un corte aceptable. La calidad del corte depende de la hoja, la velocidad de avance, el tipo de papel, el recubrimiento del papel y el material de encuadernación.

Exploración

Pasando las páginas entre escaneos

Una vez que el papel se libera del lomo, se puede escanear una hoja a la vez utilizando un escáner de superficie plana o un alimentador automático de documentos (ADF).

Las páginas con bordes ondulados decorativos o curvados en forma de arco debido a una encuadernación no plana pueden ser difíciles de escanear con un ADF, ya que están diseñados para escanear páginas de forma y tamaño uniformes, y las páginas de tamaño o forma variables pueden provocar un escaneo incorrecto. Los bordes ondulados o curvados se pueden guillotinar para que los bordes externos queden planos y lisos antes de cortar la encuadernación.

El papel estucado de las revistas y los libros de texto encuadernados puede dificultar que los rodillos de un ADF los recojan y guíen a lo largo de la ruta del papel. Un ADF que utiliza una serie de rodillos y canales para dar vuelta las hojas puede atascarse o producirse un error de alimentación cuando se alimenta papel estucado. Por lo general, hay menos problemas si se utiliza una ruta de papel lo más recta posible, con pocas curvas. La arcilla también puede desprenderse del papel con el tiempo y cubrir los rodillos de recogida pegajosos, lo que hace que sujeten el papel de forma suelta. Es posible que los rodillos del ADF deban limpiarse periódicamente para evitar que se deslicen.

Las revistas pueden representar un desafío para el escaneo en masa debido a las hojas de papel pequeñas y no uniformes que se encuentran en la pila, como las tarjetas de suscripción a revistas y las páginas desplegables. Estas deben retirarse antes de comenzar el escaneo en masa y se escanean por separado si incluyen contenido interesante o simplemente se dejan fuera del proceso de escaneo.

Escaneo no destructivo

Un ejemplo de un escáner/digitalizador de libros no destructivo casero, con el diseño del libro hacia abajo, lo que permite que la gravedad aplane las páginas.

Se han desarrollado máquinas y robots controlados por software para escanear libros sin necesidad de desencuadernarlos, con el fin de preservar tanto el contenido del documento como crear un archivo de imágenes digitales de su estado actual. Esta tendencia reciente se debe en parte a las tecnologías de procesamiento de imágenes en constante mejora que permiten capturar una imagen de archivo digital de alta calidad con poco o ningún daño a un libro raro o frágil en un período de tiempo razonablemente corto.

El primer escáner de libros totalmente automatizado fue el escáner DL (Digitizing Line), fabricado por 4DigitalBooks en Suiza. La primera instalación conocida se realizó en la Universidad de Stanford en 2001. [19] [20] El escáner recibió un premio Dow Jones Second-Up en la categoría de aplicaciones empresariales en 2001. [21]

Escáner de libros no destructivo con tecnología de aplanamiento de curvas
Vídeo del escáner de libros robótico DL mini

En 2007, la empresa TREVENTUS presentó un escáner de libros automático con un ángulo de apertura de 60° para escanear, lo que supone una mejora en el ámbito de la conservación de los libros durante el escaneo. La empresa fue galardonada con el "Gran Premio TIC 2007" de la Unión Europea [22] [23] por el desarrollo del ScanRobot. Esta tecnología también se utilizó en un proyecto de digitalización masiva de la Biblioteca Estatal de Baviera [24], en el que se digitalizaron 8.900 libros del siglo XVI en 18 meses utilizando tres de estos escáneres en forma de V.

Escáner automatizado ScanRobot con ángulo de apertura de 60°

Indus International, Inc., con sede en West Salem, Wisconsin , produce escáneres que fueron comprados por algunas entidades estadounidenses para servicios como el préstamo interbibliotecario . [25]

La mayoría de los escáneres robóticos comerciales de alta gama utilizan tecnología de aire y succión , mientras que algunos utilizan métodos más nuevos, como dedos biónicos para pasar las páginas. Algunos escáneres aprovechan los sensores ultrasónicos o fotoeléctricos para detectar páginas dobles y evitar que se salten páginas. [1] [2] Con informes de máquinas que pueden escanear hasta 2900 páginas por hora, [26] los escáneres robóticos de libros están diseñados específicamente para proyectos de digitalización a gran escala. [1]

La patente 7508978 de Google muestra una tecnología de cámara infrarroja que permite la detección y el ajuste automático de la forma tridimensional de la página. [27] [28] Investigadores de la Universidad de Tokio han desarrollado un escáner de libros experimental no destructivo [29] que incluye un escáner de superficie 3D para permitir enderezar imágenes de una página curvada mediante software. De esta forma, el libro o la revista se pueden escanear tan rápido como el operador puede pasar las páginas, unas 200 páginas por minuto .

Existen técnicas para minimizar y corregir la distorsión en el margen de página. [30]

Véase también

Referencias

  1. ^ abcdefgh "6 factores a tener en cuenta al digitalizar libros a gran escala". hurixdigital . 22 de julio de 2019. Archivado desde el original el 17 de enero de 2022 . Consultado el 17 de octubre de 2022 .
  2. ^ abcd Harman, Mike (23 de marzo de 2021). "Guía de ocho pasos para la digitalización de libros para editoriales". Kitaboo . Archivado desde el original el 22 de enero de 2022 . Consultado el 17 de octubre de 2022 .
  3. ^ JThomas (abril de 2012). "Un escáner para libros con texto MUY cerca del margen". Escáner de libros casero .
  4. ^ "Escáner de libros de alta velocidad casero a partir de basura y cámaras baratas". instructables.com . Consultado el 19 de enero de 2014 .
  5. ^ "Bibliotecas y archivistas están digitalizando 480.000 libros publicados en el siglo XX que se encuentran secretamente en el dominio público". Open Culture . 27 de septiembre de 2019. Archivado desde el original el 2 de octubre de 2019 . Consultado el 19 de octubre de 2022 .
  6. ^ ab Leetaru, Kalev (2008). "Digitalización masiva de libros: la historia más profunda de Google Books y la Open Content Alliance". Primer lunes . doi : 10.5210/fm.v13i10.2101 . Consultado el 19 de octubre de 2022 .
  7. ^ abc Kahle, Brewster (13 de marzo de 2017). "Transformar nuestras bibliotecas de lo analógico a lo digital: una visión para 2020". Educause . Archivado desde el original el 15 de marzo de 2017 . Consultado el 19 de octubre de 2022 .
  8. ^ Taycher, Leonid (5 de agosto de 2010). "Al 5 de agosto de 2010, Google estima que hay 129.864.880 libros diferentes en el mundo". Googleblog.blogspot.co.at . Consultado el 8 de agosto de 2014 .
  9. ^ ab Howard, Jennifer (10 de agosto de 2017). "¿Qué pasó con el esfuerzo de Google por escanear millones de libros de bibliotecas universitarias?". EdSurge . Archivado desde el original el 5 de enero de 2022. Consultado el 17 de octubre de 2022 .
  10. ^ Somers, James (20 de abril de 2017). "Incendio de la biblioteca moderna de Alejandría". The Atlantic . Archivado desde el original el 20 de abril de 2017. Consultado el 19 de octubre de 2022 .
  11. ^ "North Carolina ECHO: Explorando el patrimonio cultural en línea". ncecho.org .
  12. ^ Awre, Chris (30 de abril de 2005). «Bibliotecas digitales: principios y práctica en un entorno global». Ariadne (43). Archivado desde el original el 5 de abril de 2022. Consultado el 19 de octubre de 2022 .
  13. ^ "Recuerdos de Wisconsin". 29 de noviembre de 2006.
  14. ^ "Wisconsin Heritage Online [licencia solo para uso no comercial] / FrontPage". pbworks.com .
  15. ^ "Bienvenido a la Biblioteca Digital de Georgia". usg.edu .
  16. ^ "GALILEO". usg.edu .
  17. ^ "Códices descifrados". The Economist. 18 de diciembre de 2010. p. 151.
  18. ^ Las bibliotecas en el siglo XXI: trazando nuevas direcciones en los servicios de información. Editado por Stuart Ferguson, 2007, pág. 84
  19. ^ Davies, John. "4DigitalBooks lanza un escáner de libros digitales". PrintWeek.
  20. ^ "Escáner robótico de libros de las bibliotecas de la Universidad de Stanford (SUL)". Bibliotecas de la Universidad de Stanford (SUL).
  21. ^ "Premios a la Innovación Tecnológica: Ganadores 2001". Dow Jones. Archivado desde el original el 23 de septiembre de 2015. Consultado el 7 de agosto de 2017 .
  22. ^ "Comisión Europea - COMUNICADOS DE PRENSA - Comunicado de prensa - Empresarios británicos, suecos y austriacos ganan el "Premio Nobel" de la UE en TIC". europa.eu . Consultado el 4 de junio de 2019 .
  23. ^ "Gran premio Treventus ICT 2007". Treventus.
  24. ^ "Proyecto VD16 de la Biblioteca Estatal de Baviera" (PDF) . Treventus. Archivado desde el original (PDF) el 8 de julio de 2016 . Consultado el 4 de junio de 2019 .
  25. ^ Hope College (6 de septiembre de 2012). «Conozca el nuevo escáner de la biblioteca» . Consultado el 21 de mayo de 2020 .
  26. ^ Rapp, David. "Product Watch: Library Scanners". Library Journal . Consultado el 11 de mayo de 2014 .
  27. ^ US 7508978, Lefevere, Francois-Marie & Saric, Marin, "Detección de surcos en imágenes escaneadas", publicado el 24 de marzo de 2009, asignado a Google 
  28. ^ Se revela el secreto del escáner de libros de Google , por Maureen Clements, 30 de abril de 2009.
  29. ^ Guizzo, Erico (17 de marzo de 2010). ""Un escáner superrápido le permite digitalizar libros pasando las páginas", IEEE Spectrum, 17 de marzo de 2010". IEEE . Consultado el 8 de agosto de 2014 .
  30. ^ Lancaster, Don (diciembre de 2009). Algunas posibles "matemáticas de la medianera" en el escaneo de libros (PDF) (informe). Sinergética.

Enlaces externos