stringtranslate.com

Reconocimiento óptico de caracteres

Vídeo del proceso de escaneo y reconocimiento óptico de caracteres (OCR) en tiempo real con un escáner portátil

El reconocimiento óptico de caracteres o lector óptico de caracteres ( OCR ) es la conversión electrónica o mecánica de imágenes de texto mecanografiado, escrito a mano o impreso en texto codificado por máquina, ya sea de un documento escaneado, una fotografía de un documento, una fotografía de una escena (por ejemplo la texto en carteles y vallas publicitarias en una fotografía de paisaje) o desde el texto de los subtítulos superpuesto a una imagen (por ejemplo: de una transmisión de televisión). [1]

Ampliamente utilizado como forma de entrada de datos a partir de registros de datos impresos en papel, ya sean documentos de pasaporte, facturas, extractos bancarios , recibos computarizados, tarjetas de visita, correo, datos impresos o cualquier documentación adecuada, es un método común para digitalizar textos impresos de modo que se pueden editar electrónicamente, buscar, almacenar de forma más compacta, mostrar en línea y utilizar en procesos mecánicos como la computación cognitiva , la traducción automática , la conversión de texto a voz (extraído) , los datos clave y la minería de texto . OCR es un campo de investigación en reconocimiento de patrones , inteligencia artificial y visión por computadora .

Las primeras versiones debían entrenarse con imágenes de cada personaje y trabajar en una fuente a la vez. Ahora son comunes los sistemas avanzados capaces de producir un alto grado de precisión para la mayoría de las fuentes y con soporte para una variedad de entradas de formatos de archivos de imagen . [2] Algunos sistemas son capaces de reproducir resultados formateados que se aproximan mucho a la página original, incluidas imágenes, columnas y otros componentes no textuales.

Historia

El reconocimiento óptico temprano de caracteres se remonta a tecnologías relacionadas con la telegrafía y la creación de dispositivos de lectura para ciegos. [3] En 1914, Emanuel Goldberg desarrolló una máquina que leía caracteres y los convertía en código telegráfico estándar. [4] Al mismo tiempo, Edmund Fournier d'Albe desarrolló el Optophone , un escáner de mano que, cuando se movía a través de una página impresa, producía tonos que correspondían a letras o caracteres específicos. [5]

A finales de la década de 1920 y principios de la de 1930, Emanuel Goldberg desarrolló lo que llamó una "máquina estadística" para buscar archivos de microfilmes utilizando un sistema de reconocimiento de códigos ópticos. En 1931, se le concedió la patente estadounidense número 1.838.389 por la invención. La patente fue adquirida por IBM .

Usuarios con discapacidad visual

En 1974, Ray Kurzweil fundó la empresa Kurzweil Computer Products, Inc. y continuó el desarrollo del OCR omnifuente , que podía reconocer texto impreso en prácticamente cualquier fuente. (A Kurzweil a menudo se le atribuye la invención del OCR omnifuente, pero ya lo utilizaban empresas, incluida CompuScan, a finales de los años 1960 y 1970. [3] [6] ) Kurzweil utilizó la tecnología para crear una máquina de lectura para personas ciegas. haga que una computadora les lea el texto en voz alta. El dispositivo incluía un escáner plano tipo CCD y un sintetizador de texto a voz. El 13 de enero de 1976, el producto terminado se dio a conocer durante una conferencia de prensa ampliamente difundida encabezada por Kurzweil y los líderes de la Federación Nacional de Ciegos . [ cita necesaria ] En 1978, Kurzweil Computer Products comenzó a vender una versión comercial del programa informático de reconocimiento óptico de caracteres. LexisNexis fue uno de los primeros clientes y compró el programa para cargar documentos legales y noticias en sus nacientes bases de datos en línea. Dos años más tarde, Kurzweil vendió su empresa a Xerox , que finalmente la escindió como Scansoft , que se fusionó con Nuance Communications .

En la década de 2000, el OCR estaba disponible en línea como servicio (WebOCR), en un entorno de computación en la nube y en aplicaciones móviles como la traducción en tiempo real de señales en idiomas extranjeros en un teléfono inteligente . Con la llegada de los teléfonos inteligentes y las gafas inteligentes , el OCR se puede utilizar en aplicaciones de dispositivos móviles conectados a Internet que extraen el texto capturado con la cámara del dispositivo. Estos dispositivos que no tienen funcionalidad OCR incorporada normalmente utilizarán una API de OCR para extraer el texto del archivo de imagen capturado por el dispositivo. [7] [8] La API de OCR devuelve el texto extraído, junto con información sobre la ubicación del texto detectado en la imagen original, a la aplicación del dispositivo para su posterior procesamiento (como texto a voz) o visualización.

Hay varios sistemas OCR comerciales y de código abierto disponibles para los sistemas de escritura más comunes , incluidos los caracteres latinos, cirílicos, árabes, hebreos, índicos, bengalíes (bengalíes), devanagari, tamiles, chinos, japoneses y coreanos.

Aplicaciones

Los motores de OCR se han desarrollado en aplicaciones de software especializadas en diversos temas, como recibos, facturas, cheques y documentos de facturación legales.

El software se puede utilizar para:

Tipos

El OCR es generalmente un proceso fuera de línea que analiza un documento estático. Existen servicios basados ​​en la nube que brindan un servicio API de OCR en línea. El análisis del movimiento de la escritura se puede utilizar como entrada para el reconocimiento de la escritura . [14] En lugar de simplemente utilizar las formas de glifos y palabras, esta técnica es capaz de capturar el movimiento, como el orden en el que se dibujan los segmentos , la dirección y el patrón al dejar el bolígrafo y levantarlo. Esta información adicional puede hacer que el proceso sea más preciso. Esta tecnología también se conoce como "reconocimiento de caracteres en línea", "reconocimiento de caracteres dinámico", "reconocimiento de caracteres en tiempo real" y "reconocimiento de caracteres inteligente".

Técnicas

Preprocesamiento

El software OCR a menudo preprocesa las imágenes para mejorar las posibilidades de un reconocimiento exitoso. Las técnicas incluyen: [15]

La segmentación de fuentes de paso fijo se logra de forma relativamente sencilla alineando la imagen en una cuadrícula uniforme en función de dónde las líneas verticales de la cuadrícula se cruzarán con menos frecuencia con las áreas negras. Para las fuentes proporcionales , se necesitan técnicas más sofisticadas porque los espacios en blanco entre letras a veces pueden ser mayores que entre palabras, y las líneas verticales pueden cruzar más de un carácter. [22]

Reconocimiento de texto

Hay dos tipos básicos de algoritmo OCR central, que pueden producir una lista clasificada de caracteres candidatos. [23]

Software como Cuneiform y Tesseract utilizan un enfoque de dos pasos para el reconocimiento de caracteres. La segunda pasada se conoce como reconocimiento adaptativo y utiliza las formas de las letras reconocidas con gran confianza en la primera pasada para reconocer mejor las letras restantes en la segunda pasada. Esto resulta ventajoso para fuentes inusuales o escaneos de baja calidad donde la fuente está distorsionada (por ejemplo, borrosa o descolorida). [22]

A diciembre de 2016 , el software OCR moderno incluye Google Docs OCR, ABBYY FineReader y Transym. [26] [ necesita actualización ] Otros como OCRopus y Tesseract utilizan redes neuronales que están entrenadas para reconocer líneas completas de texto en lugar de centrarse en caracteres individuales.

Una técnica conocida como OCR iterativo recorta automáticamente un documento en secciones según el diseño de la página. El OCR se realiza en las secciones individualmente utilizando umbrales de nivel de confianza de caracteres variables para maximizar la precisión del OCR a nivel de página. Se ha emitido una patente de la Oficina de Patentes de los Estados Unidos para este método. [27]

El resultado del OCR se puede almacenar en el formato ALTO estandarizado , un esquema XML dedicado mantenido por la Biblioteca del Congreso de los Estados Unidos . Otros formatos comunes incluyen hOCR y PAGE XML.

Para obtener una lista de software de reconocimiento óptico de caracteres, consulte Comparación de software de reconocimiento óptico de caracteres .

Postprocesamiento

La precisión del OCR se puede aumentar si la salida está limitada por un léxico  (una lista de palabras que pueden aparecer en un documento). [15] Esto podría ser, por ejemplo, todas las palabras del idioma inglés, o un léxico más técnico para un campo específico. Esta técnica puede resultar problemática si el documento contiene palabras que no están en el léxico, como nombres propios . Tesseract utiliza su diccionario para influir en el paso de segmentación de caracteres, para mejorar la precisión. [22]

El flujo de salida puede ser un flujo de texto sin formato o un archivo de caracteres, pero los sistemas OCR más sofisticados pueden preservar el diseño original de la página y producir, por ejemplo, un PDF anotado que incluye tanto la imagen original de la página como una representación textual con capacidad de búsqueda. .

El análisis de vecinos cercanos puede utilizar frecuencias de coocurrencia para corregir errores, al observar que ciertas palabras a menudo se ven juntas. [28] Por ejemplo, "Washington, DC" es generalmente mucho más común en inglés que "Washington DOC".

El conocimiento de la gramática del idioma que se escanea también puede ayudar a determinar si es probable que una palabra sea un verbo o un sustantivo, por ejemplo, lo que permite una mayor precisión.

El algoritmo de distancia de Levenshtein también se ha utilizado en el posprocesamiento de OCR para optimizar aún más los resultados de una API de OCR. [29]

Optimizaciones específicas de la aplicación

En los últimos años, [ ¿cuándo? ] los principales proveedores de tecnología OCR comenzaron a modificar los sistemas OCR para manejar de manera más eficiente tipos específicos de entradas. Más allá de un léxico específico de la aplicación, se puede lograr un mejor rendimiento si se tienen en cuenta las reglas comerciales, la expresión estándar, [ se necesita aclaración ] o la información rica contenida en imágenes en color. Esta estrategia se denomina "OCR orientado a aplicaciones" u "OCR personalizado" y se ha aplicado al OCR de matrículas , facturas , capturas de pantalla , tarjetas de identificación , licencias de conducir y fabricación de automóviles .

El New York Times ha adaptado la tecnología OCR a una herramienta patentada a la que denominan Document Helper , que permite a su equipo de noticias interactivo acelerar el procesamiento de documentos que deben revisarse. Señalan que les permite procesar hasta 5.400 páginas por hora en preparación para que los periodistas revisen el contenido. [30]

Soluciones alternativas

Existen varias técnicas para resolver el problema del reconocimiento de caracteres por medios distintos a los algoritmos OCR mejorados.

Forzar una mejor entrada

Las fuentes especiales como OCR-A , OCR-B o MICR , con tamaño, espaciado y formas distintivas de caracteres especificados con precisión, permiten una mayor tasa de precisión durante la transcripción en el procesamiento de cheques bancarios. Varios motores de OCR destacados fueron diseñados para capturar texto en fuentes populares como Arial o Times New Roman, y son incapaces de capturar texto en estas fuentes que son especializadas y muy diferentes de las fuentes utilizadas popularmente. Como se puede entrenar a Google Tesseract para que reconozca nuevas fuentes, puede reconocer fuentes OCR-A, OCR-B y MICR. [31]

Los campos de peine son cuadros preimpresos que alientan a los humanos a escribir de manera más legible: un glifo por cuadro. [28] A menudo se imprimen en un color omitido que el sistema OCR puede eliminar fácilmente. [28]

Palm OS utilizó un conjunto especial de glifos, conocido como Graffiti , que son similares a los caracteres impresos en inglés pero simplificados o modificados para un reconocimiento más fácil en el hardware computacionalmente limitado de la plataforma. Los usuarios tendrían que aprender a escribir estos glifos especiales.

El OCR basado en zonas restringe la imagen a una parte específica de un documento. A esto se le suele denominar Plantilla OCR .

Crowdsourcing

El crowdsourcing de humanos para realizar el reconocimiento de caracteres puede procesar rápidamente imágenes como el OCR controlado por computadora, pero con mayor precisión para reconocer imágenes que las obtenidas a través de computadoras. Los sistemas prácticos incluyen Amazon Mechanical Turk y reCAPTCHA . La Biblioteca Nacional de Finlandia ha desarrollado una interfaz en línea para que los usuarios corrijan textos con OCR en el formato ALTO estandarizado. [32] El crowdsourcing también se ha utilizado no para realizar el reconocimiento de caracteres directamente, sino para invitar a los desarrolladores de software a desarrollar algoritmos de procesamiento de imágenes, por ejemplo, mediante el uso de torneos de orden de clasificación . [33]

Exactitud

Aparición de laft y last en la base de datos n-grams de Google , en documentos en inglés de 1700 a 1900, según escaneos OCR para el corpus "English 2009"
Aparición de laft y last en la base de datos de n-grams de Google , según escaneos OCR para el corpus "English 2012" [34]
La búsqueda de palabras con una S larga en inglés de 2012 o posterior se normaliza a una S.

El Instituto de Investigación de Ciencias de la Información (ISRI), encargado por el Departamento de Energía de EE. UU. (DOE), tuvo la misión de fomentar la mejora de las tecnologías automatizadas para comprender los documentos impresos por máquinas, y llevó a cabo la prueba anual más autorizada de precisión de OCR desde 1992. a 1996. [35]

El reconocimiento de texto mecanografiado en escritura latina todavía no es 100% preciso, incluso cuando se dispone de imágenes claras. Un estudio basado en el reconocimiento de páginas de periódicos del siglo XIX y principios del XX concluyó que la precisión del OCR carácter por carácter para el software comercial de OCR variaba del 81% al 99%; [36] Se puede lograr una precisión total mediante la revisión humana o la autenticación del diccionario de datos. Otras áreas, incluido el reconocimiento de la impresión manual, la escritura cursiva y el texto impreso en otras escrituras (especialmente aquellos caracteres de idiomas del este de Asia que tienen muchos trazos para un solo carácter), siguen siendo objeto de investigación activa. La base de datos MNIST se utiliza comúnmente para probar la capacidad de los sistemas para reconocer dígitos escritos a mano.

Las tasas de precisión se pueden medir de varias maneras, y la forma en que se miden puede afectar en gran medida la tasa de precisión informada. Por ejemplo, si no se utiliza el contexto de las palabras (un léxico de palabras) para corregir el software que encuentra palabras inexistentes, una tasa de error de caracteres del 1% (99% de precisión) puede resultar en una tasa de error del 5% o peor si la medición se basa en si cada palabra completa fue reconocida sin letras incorrectas. [37] El uso de un conjunto de datos suficientemente grande es importante en las soluciones de reconocimiento de escritura a mano basadas en redes neuronales. Por otro lado, producir conjuntos de datos naturales es muy complicado y requiere mucho tiempo. [38]

Un ejemplo de las dificultades inherentes a la digitalización de texto antiguo es la incapacidad del OCR para diferenciar entre los caracteres " s largos " y "f". [39] [34]

Los sistemas OCR basados ​​en web para reconocer texto escrito a mano sobre la marcha se han vuelto muy conocidos como productos comerciales en los últimos años [ ¿cuándo? ] (ver Historial de Tablet PC ). Se pueden lograr tasas de precisión del 80% al 90% en caracteres limpios e impresos a mano mediante software de computación con lápiz , pero esa tasa de precisión aún se traduce en docenas de errores por página, lo que hace que la tecnología sea útil sólo en aplicaciones muy limitadas. [ cita necesaria ]

El reconocimiento de texto en cursiva es un área activa de investigación, con tasas de reconocimiento incluso más bajas que las del texto impreso a mano . Es probable que no sean posibles tasas más altas de reconocimiento de la escritura cursiva general sin el uso de información contextual o gramatical. Por ejemplo, reconocer palabras completas de un diccionario es más fácil que intentar analizar caracteres individuales de una escritura. Leer la línea Importe de un cheque (que siempre es un número escrito) es un ejemplo en el que el uso de un diccionario más pequeño puede aumentar considerablemente las tasas de reconocimiento. Las formas de los caracteres cursivos individuales simplemente no contienen suficiente información para reconocer con precisión (más del 98%) toda la escritura cursiva escrita a mano. [ cita necesaria ]

La mayoría de los programas permiten a los usuarios establecer "índices de confianza". Esto significa que si el software no alcanza el nivel deseado de precisión, se puede notificar al usuario para que lo revise manualmente.

Un error introducido por el escaneo OCR a veces se denomina scanno (por analogía con el término error tipográfico ). [40] [41]

Unicódigo

Los caracteres compatibles con OCR se agregaron al estándar Unicode en junio de 1993, con el lanzamiento de la versión 1.1.

Algunos de estos caracteres se asignan a partir de fuentes específicas de MICR , OCR-A u OCR-B .

Ver también

Referencias

  1. ^ Bajo demanda, HPE Haven. "Documento OCR". Archivado desde el original el 15 de abril de 2016.
  2. ^ Bajo demanda, HPE Haven. "indefinido". Archivado desde el original el 19 de abril de 2016.
  3. ^ ab Schantz, Herbert F. (1982). La historia del OCR, reconocimiento óptico de caracteres . [Manchester Center, Vt.]: Asociación de usuarios de tecnologías de reconocimiento. ISBN 9780943072012.
  4. ^ Dhavale, Sunita Vikrant (2017). Técnicas avanzadas de filtrado y detección de spam basadas en imágenes. Hershey, Pensilvania: IGI Global. pag. 91.ISBN 9781683180142.
  5. ^ d'Albe, EEF (1 de julio de 1914). "En un optófono de lectura de tipos". Actas de la Royal Society A: Ciencias Matemáticas, Físicas y de Ingeniería . 90 (619): 373–375. Código bibliográfico : 1914RSPSA..90..373D. doi :10.1098/rspa.1914.0061.
  6. ^ "La historia del OCR". Revista de Procesamiento de Datos . 12 : 46. 1970.
  7. ^ "Extracción de texto de imágenes mediante OCR en Android". 27 de junio de 2015. Archivado desde el original el 15 de marzo de 2016.
  8. ^ "[Tutorial] OCR en Google Glass". 23 de octubre de 2014. Archivado desde el original el 5 de marzo de 2016.
  9. ^ Zeng, Qing-An (2015). Comunicaciones, redes y aplicaciones inalámbricas: actas de la CMNA 2014. Springer. ISBN 978-81-322-2580-5.
  10. ^ "[javascript] Uso de OCR y extracción de entidades para la búsqueda de empresas en LinkedIn". 22 de julio de 2014. Archivado desde el original el 17 de abril de 2016.
  11. ^ "Cómo descifrar captchas". andrewt.net. 28 de junio de 2006 . Consultado el 16 de junio de 2013 .
  12. ^ "Romper un CAPTCHA visual". Cs.sfu.ca. 10 de diciembre de 2002 . Consultado el 16 de junio de 2013 .
  13. ^ Resig, John (23 de enero de 2009). "John Resig: OCR y redes neuronales en JavaScript". Ejohn.org . Consultado el 16 de junio de 2013 .
  14. ^ Tappert, CC; Suen, CY; Wakahara, T. (1990). "El estado del arte en reconocimiento de escritura a mano en línea". Transacciones IEEE sobre análisis de patrones e inteligencia artificial . 12 (8): 787. doi : 10.1109/34.57669. S2CID  42920826.
  15. ^ ab "Reconocimiento óptico de caracteres (OCR): cómo funciona". Nicomsoft.com . Consultado el 16 de junio de 2013 .
  16. ^ Sezgin, Mehmet; Sankur, Bulent (2004). "Estudio sobre técnicas de umbralización de imágenes y evaluación cuantitativa del desempeño" (PDF) . Revista de imágenes electrónicas . 13 (1): 146. Código bibliográfico : 2004JEI....13..146S. doi :10.1117/1.1631315. Archivado desde el original (PDF) el 16 de octubre de 2015 . Consultado el 2 de mayo de 2015 .
  17. ^ Gupta, Maya R.; Jacobson, Nathaniel P.; García, Eric K. (2007). "Binarización OCR y preprocesamiento de imágenes para búsqueda de documentos históricos" (PDF) . Reconocimiento de patrones . 40 (2): 389. Código bibliográfico : 2007PatRe..40..389G. doi :10.1016/j.patcog.2006.04.043. Archivado desde el original (PDF) el 16 de octubre de 2015 . Consultado el 2 de mayo de 2015 .
  18. ^ Tréveris, Oeivind Due; Jain, Anil K. (1995). "Evaluación dirigida a objetivos de métodos de binarización" (PDF) . Transacciones IEEE sobre análisis de patrones e inteligencia artificial . 17 (12): 1191-1201. doi : 10.1109/34.476511. Archivado (PDF) desde el original el 16 de octubre de 2015 . Consultado el 2 de mayo de 2015 .
  19. ^ Milyaev, Sergey; Barinova, Olga; Novikova, Tatiana; Kohli, Pushmeet; Lempitsky, Víctor (2013). "Binarización de imágenes para la comprensión del texto de un extremo a otro en imágenes naturales". 2013 XII Conferencia Internacional sobre Análisis y Reconocimiento de Documentos (PDF) . págs. 128-132. doi :10.1109/ICDAR.2013.33. ISBN 978-0-7695-4999-6. S2CID  8947361. Archivado (PDF) desde el original el 13 de noviembre de 2017 . Consultado el 2 de mayo de 2015 .
  20. ^ Pati, PB; Ramakrishnan, AG (29 de mayo de 1987). "Identificación de escritura múltiple a nivel de palabra". Letras de reconocimiento de patrones . 29 (9): 1218-1229. Código Bib : 2008PaReL..29.1218P. doi :10.1016/j.patrec.2008.01.027.
  21. ^ "OCR básico en OpenCV | Damiles". Blog.damiles.com. 20 de noviembre de 2008 . Consultado el 16 de junio de 2013 .
  22. ^ abc Smith, Ray (2007). "Una descripción general del motor OCR Tesseract" (PDF) . Archivado desde el original (PDF) el 28 de septiembre de 2010 . Consultado el 23 de mayo de 2013 .
  23. ^ "Introducción al OCR". Dataid.com . Consultado el 16 de junio de 2013 .
  24. ^ "Cómo funciona el software OCR". OCRWizard. Archivado desde el original el 16 de agosto de 2009 . Consultado el 16 de junio de 2013 .
  25. ^ "El reconocimiento y clasificación de patrones básicos con openCV | Damiles". Blog.damiles.com. 14 de noviembre de 2008 . Consultado el 16 de junio de 2013 .
  26. ^ Assefi, Mehdi (diciembre de 2016). "OCR como servicio: una evaluación experimental de Google Docs OCR, Tesseract, ABBYY FineReader y Transym". Puerta de la investigación .
  27. ^ "Cómo la mejor tecnología OCR captura el 99,91% de los datos". www.bisok.com . Consultado el 27 de mayo de 2021 .
  28. ^ abc Woodford, Chris (30 de enero de 2012). "¿Cómo funciona el escaneo de documentos OCR?". Explica esas cosas . Consultado el 16 de junio de 2013 .
  29. ^ "¿Cómo optimizar los resultados de la API de OCR al extraer texto de una imagen? - Comunidad de desarrolladores Haven OnDemand". Archivado desde el original el 22 de marzo de 2016.
  30. ^ Fehr, Tiff (26 de marzo de 2019). "Cómo revisamos 900 páginas de documentos de Cohen en menos de 10 minutos". Los New York Times . ISSN  0362-4331 . Consultado el 16 de junio de 2023 .
  31. ^ "Entrena tu Teseracto". Entrena tu Teseracto . 20 de septiembre de 2018 . Consultado el 20 de septiembre de 2018 .
  32. ^ "¿Cuál es el objetivo de un editor de texto OCR interactivo en línea? - Fenno-Ugrica". 21 de febrero de 2014.
  33. ^ Riedl, C.; Zanibbi, R.; Hearst, MA; Zhu, S.; Menietti, M.; Crusan, J.; Metelsky, I.; Lakhani, K. (20 de febrero de 2016). "Detección de figuras y etiquetas de piezas en patentes: desarrollo de algoritmos de procesamiento de imágenes basado en la competencia". Revista Internacional de Análisis y Reconocimiento de Documentos . 19 (2): 155. arXiv : 1410.6751 . doi :10.1007/s10032-016-0260-8. S2CID  11873638.
  34. ^ ab "Visor de Ngram de Google Libros". libros.google.com . Consultado el 20 de julio de 2023 . Cuando generamos los corpus originales de Ngram Viewer en 2009, nuestro OCR no era tan bueno […]. Esto era especialmente obvio en el inglés anterior al siglo XIX, donde la s medial alargada (ſ) a menudo se interpretaba como una f, […]. Aquí hay evidencia de las mejoras que hemos realizado desde entonces, utilizando el operador de corpus para comparar las versiones 2009, 2012 y 2019 […]
  35. ^ "Código y datos para evaluar la precisión del OCR, originalmente de UNLV/ISRI". Archivo de códigos de Google.
  36. ^ Holley, Rose (abril de 2009). "¿Qué tan bueno puede ser? Análisis y mejora de la precisión del OCR en programas de digitalización de periódicos históricos a gran escala". Revista D-Lib . Consultado el 5 de enero de 2014 .
  37. ^ Suen, CY; Plamondón, R.; Tappert, A.; Thomassen, A.; Ward, JR; Yamamoto, K. (29 de mayo de 1987). Desafíos futuros en escritura a mano y aplicaciones informáticas. 3er Simposio Internacional sobre Escritura y Aplicaciones Informáticas, Montreal, 29 de mayo de 1987 . Consultado el 3 de octubre de 2008 .
  38. ^ Mohseni, Ayda; Azmi, Reza; Maleki, Arvin y Layeghi, Kamran (2019). Comparación de conjuntos de datos naturales y sintetizados en soluciones de escritura a mano basadas en redes neuronales. TIC.{{cite book}}: Mantenimiento CS1: varios nombres: lista de autores ( enlace )
  39. ^ Kapidakis, Sarantos; Mazurek, Cezary y Werla, Marcin (2015). Investigación y Tecnología Avanzada para Bibliotecas Digitales. Saltador. pag. 257.ISBN 9783319245928.{{cite book}}: Mantenimiento CS1: varios nombres: lista de autores ( enlace )
  40. ^ Atkinson, Kristine H. (2015). "Reinventar la literatura distinta de las patentes para el patentamiento farmacéutico". Analista de Patentes Farmacéuticas . 4 (5): 371–375. doi :10.4155/ppa.15.21. PMID  26389649.
  41. ^ http://www.hoopoes.com/jargon/entry/scanno.shtml Enlace muerto

enlaces externos