stringtranslate.com

Escaneo de libros

Escáner de libros Internet Archive Scribe en 2011
Escáner de libros de Internet Archive

El escaneo de libros o digitalización de libros (también: escaneo de revistas o digitalización de revistas ) es el proceso de convertir libros y revistas físicos en medios digitales como imágenes , texto electrónico o libros electrónicos (e-books) mediante el uso de un escáner de imágenes . [1] Los proyectos de escaneo de libros a gran escala han hecho que muchos libros estén disponibles en línea. [2]

Los libros digitales se pueden distribuir, reproducir y leer fácilmente en pantalla . Los formatos de archivo comunes son DjVu , formato de documento portátil (PDF) y formato de archivo de imagen de etiqueta (TIFF). Para convertir las imágenes sin procesar, se utiliza el reconocimiento óptico de caracteres (OCR) [1] para convertir las páginas de un libro a un formato de texto digital como ASCII u otro formato similar, que reduce el tamaño del archivo y permite reformatear, buscar o procesar el texto. otras aplicaciones. [1]

Los escáneres de imágenes pueden ser manuales o automatizados. En un escáner de imágenes comercial común, el libro se coloca sobre una placa de vidrio plana (o platina) y una matriz óptica y de luz se mueve a través del libro debajo del vidrio. En los escáneres de libros manuales, la placa de vidrio se extiende hasta el borde del escáner, lo que facilita alinear el lomo del libro. [1] [2]

Un problema al escanear libros encuadernados es que cuando un libro que no es muy fino se coloca plano, la parte de la página cercana al lomo (el canal) se curva significativamente, distorsionando el texto en esa parte del escaneo. Una solución es separar el libro en páginas separadas cortándolas o desencuadernándolas. Un método no destructivo es sostener el libro en un soporte en forma de V y fotografiarlo, en lugar de dejarlo plano y escanearlo. De este modo la curvatura del canalón es mucho menos pronunciada. [3] Las páginas se pueden pasar a mano o mediante dispositivos automatizados de transporte de papel. Por lo general, se presionan láminas de plástico transparente o vidrio contra la página para aplanarla.

Después de escanear, el software ajusta las imágenes del documento alineándolas, recortándolas, editándolas y convirtiéndolas a texto y al formato final de libro electrónico. Los correctores humanos suelen comprobar la salida en busca de errores.

El escaneo a 118 puntos/centímetro ( 300 ppp ) es adecuado para la conversión a salida de texto digital, pero para la reproducción de archivos de libros raros, elaborados o ilustrados, se utiliza una resolución mucho mayor. [ cita necesaria ] Los escáneres de alta gama capaces de procesar miles de páginas por hora pueden costar miles de dólares, pero se han construido escáneres de libros manuales de bricolaje con capacidad de 1200 páginas por hora por 300 dólares estadounidenses . [4]

Escáneres de libros comerciales

Boceto de un escáner de libros en forma de V de Atiz
Bosquejo de un escáner de libros manual típico

Los escáneres de libros comerciales no son como los escáneres normales ; Estos escáneres de libros suelen ser una cámara digital de alta calidad con fuentes de luz a cada lado de la cámara montadas en algún tipo de marco para proporcionar fácil acceso a una persona o máquina para hojear las páginas del libro. Algunos modelos incluyen soportes para libros en forma de V, que brindan soporte para los lomos de los libros y también centran la posición del libro automáticamente.

La ventaja de este tipo de escáner es que es muy rápido, en comparación con la productividad de los escáneres elevados.

Proyectos a gran escala

Proyectos como el Proyecto Gutenberg (est. 1971), [5] Million Book Project (est. alrededor de 2001), Google Books (est. 2004) y Open Content Alliance (est. 2005) escanean libros a gran escala. [6] [7]

Uno de los principales desafíos para esto es el gran volumen de libros que deben escanearse. En 2010, se estimó que el número total de obras que aparecieron como libros en la historia de la humanidad rondaba los 130 millones. [8] Todos estos deben escanearse y luego hacerse buscar en línea para que el público los utilice como una biblioteca universal . Actualmente, hay tres formas principales en las que confían las grandes organizaciones: la subcontratación, el escaneo interno utilizando escáneres de libros comerciales y el escaneo interno utilizando soluciones de escaneo robótico.

En cuanto a la subcontratación, los libros a menudo se envían para ser escaneados por fuentes de bajo costo a India o China . Alternativamente, debido a la conveniencia, la seguridad y la mejora de la tecnología, muchas organizaciones optan por escanear internamente mediante el uso de escáneres elevados, que consumen mucho tiempo, o máquinas de escaneo basadas en cámaras digitales que son sustancialmente más rápidas y es un método empleado por Internet Archive como así como Google. [7] [9] Los métodos tradicionales han incluido cortar el lomo del libro y escanear las páginas en un escáner con capacidad de alimentación automática de páginas, con la posterior encuadernación de las páginas sueltas.

Una vez escaneada la página, los datos se ingresan manualmente o mediante OCR, otro costo importante de los proyectos de escaneo de libros. [¿ según quién? ]

Debido a cuestiones de derechos de autor , la mayoría de los libros escaneados son aquellos que no tienen derechos de autor; sin embargo, se sabe que Google Books escanea libros que aún están protegidos por derechos de autor, a menos que el editor lo prohíba específicamente. [6] [7] [9] [10]

Proyectos colaborativos

Hay muchos proyectos colaborativos de digitalización en todo Estados Unidos. Dos de los primeros proyectos fueron el Proyecto de Digitalización Colaborativa en Colorado y NC ECHO – Exploración del Patrimonio Cultural en Línea de Carolina del Norte, [11] con sede en la Biblioteca Estatal de Carolina del Norte .

Estos proyectos establecen y publican mejores prácticas para la digitalización y trabajan con socios regionales para digitalizar materiales del patrimonio cultural. Más recientemente se han establecido criterios adicionales para las mejores prácticas en el Reino Unido, Australia y la Unión Europea. [12] Wisconsin Heritage Online [13] es un proyecto de digitalización colaborativa inspirado en el Proyecto de digitalización colaborativa de Colorado. Wisconsin utiliza una wiki [14] para crear y distribuir documentación colaborativa. El programa colaborativo de digitalización de Georgia, la Biblioteca Digital de Georgia, [15] presenta una biblioteca virtual perfecta sobre la historia y la vida del estado, que incluye más de cien colecciones digitales de 60 instituciones y 100 agencias gubernamentales. La Biblioteca Digital de Georgia es una iniciativa de GALILEO [16] con sede en las Bibliotecas de la Universidad de Georgia.

En el siglo XX, el Museo Hill y la Biblioteca de Manuscritos fotografiaron libros en Etiopía que posteriormente fueron destruidos en medio de la violencia política en 1975. Desde entonces, la biblioteca ha trabajado para fotografiar manuscritos en países del Medio Oriente. [17]

En el sur de Asia, el fondo Nanakshahi está digitalizando manuscritos en escritura Gurmukhī .

En Australia, ha habido muchos proyectos de colaboración entre la Biblioteca Nacional de Australia y las universidades para mejorar la infraestructura del repositorio en el que se almacenaría la información digitalizada. [18] Algunos de estos proyectos incluyen ARROW (Australian Research Repositories Online to the World) y el proyecto APSR (Australian Partnership for Sustainable Repository).

Métodos de escaneo destructivos

Para escanear libros con un presupuesto bajo, la forma menos costosa de escanear un libro o una revista es cortar la encuadernación. Esto convierte el libro o revista en un fajo de hojas separadas que se pueden cargar en un alimentador automático de documentos (ADF) estándar y escanear utilizando tecnología de escaneo común y económica. El método no es adecuado para libros raros o valiosos. Hay dos dificultades técnicas con este proceso, primero con el corte y segundo con el escaneo.

Desvinculante

Más preciso y menos destructivo que cortar páginas es desencuadernarlas a mano utilizando herramientas adecuadas. Esta técnica se ha empleado con éxito en decenas de miles de páginas de papel original de archivo escaneadas para el proyecto de archivo digital de la Biblioteca Riazanov a partir de periódicos, revistas y folletos, con edades comprendidas entre 50 y 100 años o más, y a menudo compuestos de papel frágil y quebradizo. Aunque el valor monetario para algunos coleccionistas (y para la mayoría de los vendedores de este tipo de material) se destruye al desencuadernar, en muchos casos esto ayuda en gran medida a la preservación de las páginas, haciéndolas más accesibles para los investigadores [1] y menos propensas a ser dañadas. cuando se examine posteriormente. Una desventaja es que las pilas de páginas sin encuadernar están "esponjosas" y, por lo tanto, están más expuestas al oxígeno del aire, lo que en algunos casos puede acelerar el deterioro. Esto se puede solucionar poniendo pesos en las páginas una vez desatadas y almacenándolas en contenedores adecuados. [1]

La desencuadernación manual preservará el texto que se acumula en los canales de las encuadernaciones y, lo que es más importante, permitirá realizar escaneos más fáciles y completos de alta calidad de material de dos páginas, como caricaturas centrales, arte gráfico y fotografías de revistas. El archivo digital de The Liberator 1918-1924 en Marxists Internet Archive demuestra la calidad de los escaneos de arte gráfico de dos páginas que son posibles gracias a un cuidadoso desencuadernamiento manual y luego escaneo.

Las técnicas de desencuadernación varían según la tecnología de encuadernación, desde simplemente quitar algunas grapas, hasta desdoblar y quitar clavos, pasando por moler meticulosamente capas de pegamento en el lomo de un libro hasta obtener exactamente el punto correcto, seguido de la laboriosa retirada de la cuerda utilizada para sujetar el libro juntos.

En algunos periódicos (como Labor Action 1950-1952) hay columnas en el centro de las páginas opuestas que se extienden a lo largo de las páginas. Si se corta parte del lomo de un volumen encuadernado de este tipo de documentos, se perderá parte de este texto. Incluso la reimpresión de Greenwood de esta publicación no logró preservar el contenido del texto de esas columnas centrales, eliminando cantidades significativas de texto allí. Sólo cuando los volúmenes encuadernados del periódico original se desencuadernaron meticulosamente y los pares abiertos de páginas centrales se escanearon como una sola página en un escáner de base plana, el contenido de la columna central estuvo disponible digitalmente. Alternativamente, se pueden presentar las dos páginas centrales enfrentadas como tres escaneos: uno de cada página individual y otro de un área del tamaño de una página situada sobre el centro de las dos páginas.

Corte

Una forma de cortar una pila de 500 a 1000 páginas de una sola vez es utilizar una cortadora de papel de guillotina , una gran mesa de acero con un tornillo de banco para papel que se atornilla a la pila y la asegura firmemente antes de cortar. [2] Una gran hoja de acero afilada que se mueve hacia abajo corta toda la longitud de cada hoja en una sola operación. Una palanca en la hoja permite aplicar varios cientos de libras de fuerza a la hoja para un corte rápido de una sola pasada.

No se puede realizar un corte limpio a través de una gruesa pila de papel con un cortador de papel tradicional y económico con bisagras en forma de hoz . Estas cortadoras sólo están diseñadas para unas pocas hojas, siendo el límite práctico de corte hasta diez hojas. Una gran pila de papel aplica fuerzas de torsión sobre la bisagra, alejando la hoja del borde cortante de la mesa. El corte se vuelve más impreciso a medida que se aleja de la bisagra, y la fuerza requerida para sostener la hoja contra el filo aumenta a medida que el corte se aleja de la bisagra.

El proceso de corte con guillotina desgasta la hoja con el tiempo, por lo que es necesario volver a afilarla. El papel estucado , como el papel de revista, embota la hoja más rápidamente que el papel de libro normal, debido a la capa de arcilla caolinita . Además, quitar la encuadernación de un libro de tapa dura completo provoca un desgaste excesivo debido al corte del material rígido de respaldo de la cubierta. En su lugar, se puede quitar la cubierta exterior y sólo es necesario cortar las páginas interiores.

Un método alternativo para desencuadernar libros es utilizar una sierra de mesa. Si bien este método es potencialmente peligroso y no deja un borde tan suave como el método del cortador de papel con guillotina, está más disponible para la persona promedio. El método ideal es sujetar el libro entre dos tablas gruesas utilizando tornillos de máquina pesados ​​para proporcionar la fuerza de sujeción. Todo el paquete de madera y libros se introduce a través de la sierra de mesa utilizando la guía paralela como guía. Una hoja afilada con dientes de carburo fino es ideal para generar un corte aceptable. La calidad del corte depende de la cuchilla, la velocidad de avance, el tipo de papel, el recubrimiento del papel y el material de encuadernación.

Exploración

Pasar las páginas entre escaneos y escaneos

Una vez que el papel se libera del lomo, se puede escanear una hoja a la vez utilizando un escáner de superficie plana o un alimentador automático de documentos (ADF).

Las páginas con bordes decorativos ondulados o curvadas en forma de arco debido a una encuadernación no plana pueden ser difíciles de escanear con un ADF, ya que están diseñados para escanear páginas de forma y tamaño uniformes, y las páginas de tamaño o forma variable pueden dar lugar a imágenes inadecuadas. exploración. Los bordes ondulados o el borde curvo se pueden guillotinar para que los bordes exteriores queden planos y lisos antes de cortar la encuadernación.

El papel estucado de revistas y libros de texto encuadernados puede dificultar que los rodillos del ADF los recojan y los guíen a lo largo del recorrido del papel. Un ADF que utiliza una serie de rodillos y canales para voltear las hojas puede atascarse o alimentarse incorrectamente cuando se alimenta con papel estucado. Generalmente hay menos problemas si se utiliza un recorrido del papel lo más recto posible, con pocas curvas y dobleces. La arcilla también puede desprenderse del papel con el tiempo y cubrir los rodillos de recogida pegajosos, lo que hace que se agarren flojamente al papel. Es posible que los rodillos del ADF necesiten una limpieza periódica para evitar que se resbalen.

Las revistas pueden representar un desafío para el escaneo masivo debido a las pequeñas hojas de papel no uniformes en la pila, como tarjetas de suscripción a revistas y páginas desplegables. Estos deben eliminarse antes de que comience el escaneo masivo y se escanean por separado si incluyen contenido que vale la pena, o simplemente se dejan fuera del proceso de escaneo.

Escaneo no destructivo

Un ejemplo de un escáner/digitalizador de libros no destructivo hecho por usted mismo, con el diseño del libro hacia abajo, lo que permite que la gravedad aplane las páginas.

Se han desarrollado máquinas y robots controlados por software para escanear libros sin necesidad de desencuadernarlos con el fin de preservar tanto el contenido del documento como crear un archivo de imagen digital de su estado actual. Esta tendencia reciente se debe en parte a la mejora constante de las tecnologías de imágenes que permiten capturar una imagen de archivo digital de alta calidad con poco o ningún daño a un libro raro o frágil en un período de tiempo razonablemente corto.

El primer escáner de libros totalmente automatizado fue el escáner DL (Digitizing Line), fabricado por 4DigitalBooks en Suiza. La primera instalación conocida fue en la Universidad de Stanford en 2001. [19] [20] El escáner recibió el premio Dow Jones Runner-Up en la categoría de aplicaciones comerciales en 2001. [21]

Escáner de libros no destructivo con tecnología Curve Flattening
Vídeo del escáner de libros robótico DL mini

En 2007 la empresa TREVENTUS presentó un escáner de libros automatizado con un ángulo de apertura de libros para escanear de 60°. Lo cual supone una mejora en el área de conservación de los libros durante el escaneo. La empresa recibió el "Gran Premio TIC 2007" de la Unión Europea, [22] [23] por su desarrollo del ScanRobot. Esta tecnología también se utilizó en un proyecto de digitalización masiva de la Biblioteca Estatal de Baviera [24], donde se digitalizaron 8.900 libros del siglo XVI en 18 meses utilizando tres de estos escáneres en forma de V.

Escáner automatizado ScanRobot con ángulo de apertura de 60°

Indus International, Inc, con sede en West Salem, Wisconsin , produce escáneres que fueron comprados por algunas entidades estadounidenses para servicios como el préstamo interbibliotecario . [25]

La mayoría de los escáneres robóticos comerciales de alta gama utilizan tecnología de aire y succión , mientras que algunos utilizan enfoques más nuevos, como dedos biónicos para pasar las páginas. Algunos escáneres aprovechan sensores ultrasónicos o fotoeléctricos para detectar páginas duales y evitar saltos de páginas. [1] [2] Con informes de máquinas capaces de escanear hasta 2900 páginas por hora, [26] los escáneres de libros robóticos están diseñados específicamente para proyectos de digitalización a gran escala. [1]

La patente 7508978 de Google muestra una tecnología de cámara infrarroja que permite detectar y ajustar automáticamente la forma tridimensional de la página. [27] [28] Investigadores de la Universidad de Tokio tienen un escáner de libros no destructivo experimental [29] que incluye un escáner de superficie 3D para permitir que las imágenes de una página curva se enderecen en el software. De este modo, el libro o la revista se pueden escanear tan rápido como el operador puede hojear las páginas, aproximadamente 200 páginas por minuto .

Existen técnicas para minimizar y corregir la distorsión en el margen interior de la página. [30]

Ver también

Referencias

  1. ^ abcdefgh "Seis factores a considerar al digitalizar libros a escala". hurixdigital . 22 de julio de 2019. Archivado desde el original el 17 de enero de 2022 . Consultado el 17 de octubre de 2022 .
  2. ^ abcd Harman, Mike (23 de marzo de 2021). "Una guía de digitalización de ocho pasos para editores de libros". Kitaboo . Archivado desde el original el 22 de enero de 2022 . Consultado el 17 de octubre de 2022 .
  3. ^ JThomas (abril de 2012). "Un escáner para libros con texto MUY cerca del margen". Escáner de libros de bricolaje .
  4. ^ "Escáner de libros de alta velocidad de bricolaje a partir de basura y cámaras baratas". instructables.com . Consultado el 19 de enero de 2014 .
  5. ^ "Bibliotecas y archiveros están digitalizando 480.000 libros publicados en el siglo XX que son secretamente de dominio público". Cultura Abierta . 27 de septiembre de 2019. Archivado desde el original el 2 de octubre de 2019 . Consultado el 19 de octubre de 2022 .
  6. ^ ab Leetaru, Kalev (2008). "Digitalización masiva de libros: la historia más profunda de Google Books y Open Content Alliance". Primer lunes . doi : 10.5210/fm.v13i10.2101 . Consultado el 19 de octubre de 2022 .
  7. ^ abc Kahle, Brewster (13 de marzo de 2017). "Transformar nuestras bibliotecas de analógicas a digitales: una visión para 2020". Educausa . Archivado desde el original el 15 de marzo de 2017 . Consultado el 19 de octubre de 2022 .
  8. ^ Taycher, Leonid (5 de agosto de 2010). "Al 5 de agosto de 2010, Google estima que hay 129.864.880 libros diferentes en el mundo". Googleblog.blogspot.co.at . Consultado el 8 de agosto de 2014 .
  9. ^ ab Howard, Jennifer (10 de agosto de 2017). "¿Qué pasó con el esfuerzo de Google por escanear millones de libros de bibliotecas universitarias?". EdSurge . Archivado desde el original el 5 de enero de 2022 . Consultado el 17 de octubre de 2022 .
  10. ^ Somers, James (20 de abril de 2017). "Incendiar la biblioteca moderna de Alejandría". El Atlántico . Archivado desde el original el 20 de abril de 2017 . Consultado el 19 de octubre de 2022 .
  11. ^ "ECHO de Carolina del Norte: exploración del patrimonio cultural en línea". ncecho.org .
  12. ^ Awre, Chris (30 de abril de 2005). "Bibliotecas digitales: principios y práctica en un entorno global". Ariadna (43). Archivado desde el original el 5 de abril de 2022 . Consultado el 19 de octubre de 2022 .
  13. ^ "Recuerdo Wisconsin". 29 de noviembre de 2006.
  14. ^ "Wisconsin Heritage Online [con licencia únicamente para uso no comercial] / FrontPage". pbworks.com .
  15. ^ "Bienvenidos a la Biblioteca Digital de Georgia". usg.edu .
  16. ^ "GALILEO". usg.edu .
  17. ^ "Códices decodificados". El economista. 18 de diciembre de 2010. p. 151.
  18. ^ Bibliotecas en el siglo XXI: trazando nuevas direcciones en los servicios de información. Editado por Stuart Ferguson, 2007, página 84
  19. ^ Davies, Juan. "4DigitalBooks lanza un escáner de libros digitales". Semana de impresión.
  20. ^ "Escáner robótico de libros de las bibliotecas de la Universidad de Stanford (SUL)". Bibliotecas de la Universidad de Stanford (SUL).
  21. ^ "Premios a la innovación tecnológica: ganadores 2001". Dow Jones. Archivado desde el original el 23 de septiembre de 2015 . Consultado el 7 de agosto de 2017 .
  22. ^ "Comisión Europea - COMUNICADOS DE PRENSA - Comunicado de prensa - Empresarios británicos, suecos y austriacos ganan el" premio Nobel "de la UE en TIC". europa.eu . Consultado el 4 de junio de 2019 .
  23. ^ "Gran precio de las TIC de Trevintus 2007". Treventus.
  24. ^ "Proyecto VD16 de la Biblioteca Estatal de Baviera" (PDF) . Treventus. Archivado desde el original (PDF) el 8 de julio de 2016 . Consultado el 4 de junio de 2019 .
  25. ^ Hope College (6 de septiembre de 2012). "Conozca el nuevo escáner de la biblioteca" . Consultado el 21 de mayo de 2020 .
  26. ^ Rapp, David. "Observación de productos: escáneres de biblioteca". Diario de la biblioteca . Consultado el 11 de mayo de 2014 .
  27. ^ US 7508978, Lefevere, Francois-Marie & Saric, Marin, "Detección de surcos en imágenes escaneadas", publicado el 24 de marzo de 2009, asignado a Google 
  28. ^ Revelado el secreto de la máquina de escaneo de libros de Google , por Maureen Clements, 30 de abril de 2009.
  29. ^ Guizzo, Erico (17 de marzo de 2010). ""El escáner superrápido le permite digitalizar libros volteando las páginas", IEEE Spectrum, 17 de marzo de 2010". Espectro.ieee.org . Consultado el 8 de agosto de 2014 .
  30. ^ Lancaster, Don (diciembre de 2009). Algunos posibles escaneos de libros "Gutter Math" (PDF) (Reporte). Sinérgicos.

enlaces externos