Reconocimiento óptico de caracteres

Vídeo del proceso de escaneo y reconocimiento óptico de caracteres (OCR) en tiempo real con un escáner portátil

El reconocimiento óptico de caracteres o lector óptico de caracteres ( OCR ) es la conversión electrónica o mecánica de imágenes de texto mecanografiado, escrito a mano o impreso en texto codificado por máquina, ya sea de un documento escaneado, una fotografía de un documento, una fotografía de una escena (por ejemplo, el texto de carteles y vallas publicitarias en una fotografía de un paisaje) o de un texto de subtítulos superpuesto a una imagen (por ejemplo: de una transmisión de televisión). ^[1]

Ampliamente utilizado como una forma de entrada de datos a partir de registros de datos en papel impreso (ya sean documentos de pasaporte, facturas, extractos bancarios , recibos computarizados, tarjetas de presentación, correo, datos impresos o cualquier documentación adecuada), es un método común para digitalizar textos impresos para que puedan editarse electrónicamente, buscarse, almacenarse de manera más compacta, mostrarse en línea y usarse en procesos de máquina como computación cognitiva , traducción automática , texto a voz (extraído) , datos clave y minería de texto . El OCR es un campo de investigación en reconocimiento de patrones , inteligencia artificial y visión por computadora .

Las primeras versiones debían entrenarse con imágenes de cada carácter y trabajar con una fuente a la vez. Hoy en día, son comunes los sistemas avanzados capaces de producir un alto grado de precisión para la mayoría de las fuentes y que admiten una variedad de formatos de archivo de imagen . ^[2] Algunos sistemas son capaces de reproducir una salida formateada que se aproxima mucho a la página original, incluidas imágenes, columnas y otros componentes no textuales.

Historia

Los primeros sistemas de reconocimiento óptico de caracteres se remontan a tecnologías que incluían la telegrafía y la creación de dispositivos de lectura para ciegos. ^[3] En 1914, Emanuel Goldberg desarrolló una máquina que leía caracteres y los convertía en un código telegráfico estándar. ^[4] Al mismo tiempo, Edmund Fournier d'Albe desarrolló el Optophone , un escáner portátil que, al moverse sobre una página impresa, producía tonos que correspondían a letras o caracteres específicos. ^[5]

A finales de la década de 1920 y principios de la de 1930, Emanuel Goldberg desarrolló lo que llamó una "máquina estadística" para buscar archivos de microfilmes utilizando un sistema de reconocimiento de código óptico. En 1931, se le concedió la patente estadounidense número 1.838.389 por la invención. La patente fue adquirida por IBM .

Usuarios con discapacidad visual

En 1974, Ray Kurzweil fundó la empresa Kurzweil Computer Products, Inc. y continuó el desarrollo del OCR omni -font , que podía reconocer texto impreso en prácticamente cualquier fuente. (A Kurzweil se le atribuye a menudo la invención del OCR omni-font, pero ya lo utilizaban empresas, incluida CompuScan, a finales de los años 1960 y 1970. ^[3]^[6] ) Kurzweil utilizó la tecnología para crear una máquina de lectura para que las personas ciegas tuvieran una computadora que les leyera el texto en voz alta. El dispositivo incluía un escáner plano tipo CCD y un sintetizador de texto a voz. El 13 de enero de 1976, el producto terminado se dio a conocer durante una conferencia de prensa ampliamente difundida encabezada por Kurzweil y los líderes de la Federación Nacional de Ciegos . ^[^{cita requerida}^] En 1978, Kurzweil Computer Products comenzó a vender una versión comercial del programa informático de reconocimiento óptico de caracteres. LexisNexis fue uno de los primeros clientes y compró el programa para cargar documentos legales y de noticias en sus incipientes bases de datos en línea. Dos años después, Kurzweil vendió su empresa a Xerox , que finalmente la escindió como Scansoft , que se fusionó con Nuance Communications .

En la década de 2000, el OCR se puso a disposición en línea como un servicio (WebOCR), en un entorno de computación en la nube y en aplicaciones móviles como la traducción en tiempo real de signos en idiomas extranjeros en un teléfono inteligente . Con la llegada de los teléfonos inteligentes y las gafas inteligentes , el OCR se puede utilizar en aplicaciones de dispositivos móviles conectados a Internet que extraen texto capturado con la cámara del dispositivo. Estos dispositivos que no tienen una funcionalidad de OCR incorporada normalmente utilizarán una API de OCR para extraer el texto del archivo de imagen capturado por el dispositivo. ^[7]^[8] La API de OCR devuelve el texto extraído, junto con información sobre la ubicación del texto detectado en la imagen original a la aplicación del dispositivo para su posterior procesamiento (como texto a voz) o visualización.

Hay varios sistemas de OCR comerciales y de código abierto disponibles para los sistemas de escritura más comunes , incluidos los caracteres latinos, cirílicos, árabes, hebreos, índicos, bengalíes (bangla), devanagari, tamiles, chinos, japoneses y coreanos.

Aplicaciones

Los motores de OCR se han desarrollado en aplicaciones de software especializadas en diversos temas, como recibos, facturas, cheques y documentos de facturación legal.

El software se puede utilizar para:

Introducción de datos para documentos comerciales, por ejemplo , cheques , pasaportes, facturas, extractos bancarios y recibos.
Reconocimiento automático de matrículas
Reconocimiento de pasaportes y extracción de información en aeropuertos
Extracción automática de información clave de documentos de seguros ^{[ cita requerida ]}
Reconocimiento de señales de tráfico ^[9]
Extracción de información de tarjetas de presentación en una lista de contactos ^[10]
Creación de versiones textuales de documentos impresos, por ejemplo, escaneo de libros para el Proyecto Gutenberg
Hacer que las imágenes electrónicas de documentos impresos se puedan buscar, por ejemplo, en Google Books
Convertir la escritura a mano en tiempo real para controlar una computadora ( computación con lápiz )
Derrotar o probar la solidez de los sistemas anti-bots CAPTCHA , aunque estos están diseñados específicamente para prevenir el OCR. ^[11]^[12]^[13]
Tecnología de asistencia para usuarios ciegos y con discapacidad visual
Redactar instrucciones para vehículos mediante la identificación de imágenes CAD en una base de datos que sean apropiadas para el diseño del vehículo a medida que cambia en tiempo real
Cómo hacer que los documentos escaneados se puedan buscar convirtiéndolos en archivos PDF

Tipos

Reconocimiento óptico de caracteres (OCR): se enfoca en texto escrito a máquina, un glifo o carácter a la vez.
Reconocimiento óptico de palabras: se enfoca en texto escrito a máquina, palabra por palabra (para idiomas que usan un espacio como separador de palabras ). Generalmente se lo denomina "OCR".
Reconocimiento inteligente de caracteres (ICR): también se enfoca en textos manuscritos impresos o cursivos , un glifo o carácter a la vez, generalmente con aprendizaje automático .
Reconocimiento inteligente de palabras (IWR): también se enfoca en textos manuscritos impresos o cursivos , una palabra a la vez. Esto es especialmente útil para idiomas en los que los glifos no están separados en la escritura cursiva.

El OCR es generalmente un proceso offline, que analiza un documento estático. Existen servicios basados en la nube que proporcionan un servicio API de OCR online. El análisis del movimiento de la escritura a mano se puede utilizar como entrada para el reconocimiento de la escritura a mano . ^[14] En lugar de utilizar simplemente las formas de los glifos y las palabras, esta técnica puede capturar el movimiento, como el orden en el que se dibujan los segmentos , la dirección y el patrón de colocar y levantar el lápiz. Esta información adicional puede hacer que el proceso sea más preciso. Esta tecnología también se conoce como "reconocimiento de caracteres online", "reconocimiento dinámico de caracteres", "reconocimiento de caracteres en tiempo real" y "reconocimiento inteligente de caracteres".

Técnicas

Preprocesamiento

El software de OCR suele preprocesar las imágenes para mejorar las posibilidades de un reconocimiento exitoso. Las técnicas incluyen: ^[15]

Inclinación : si el documento no se alineó correctamente al escanearlo, es posible que sea necesario inclinarlo unos pocos grados en el sentido de las agujas del reloj o en sentido contrario para que las líneas de texto queden perfectamente horizontales o verticales.
Desmoteado : eliminación de puntos positivos y negativos, suavizado de bordes.
Binarización: conversión de una imagen de color o escala de grises a blanco y negro (denominada imagen binaria porque hay dos colores). La tarea se realiza como una forma sencilla de separar el texto (o cualquier otro componente de la imagen deseado) del fondo. ^[16] La tarea de binarización es necesaria ya que la mayoría de los algoritmos de reconocimiento comerciales funcionan solo con imágenes binarias, ya que es más sencillo hacerlo. ^[17] Además, la eficacia de la binarización influye en gran medida en la calidad del reconocimiento de caracteres, y se toman decisiones cuidadosas en la elección de la binarización empleada para un tipo de imagen de entrada determinado; ya que la calidad del método utilizado para obtener el resultado binario depende del tipo de imagen (documento escaneado, imagen de texto de una escena , documento histórico degradado, etc.). ^[18]^[19]
Eliminación de líneas: limpieza de cuadros y líneas que no son glifos
Análisis de diseño o zonificación: identificación de columnas, párrafos, títulos, etc. como bloques distintos. Especialmente importante en diseños de varias columnas y tablas .
Detección de líneas y palabras: establecimiento de una línea base para formas de palabras y caracteres, separando palabras según sea necesario.
Reconocimiento de escritura: en documentos multilingües, la escritura puede cambiar a nivel de las palabras y, por lo tanto, es necesaria la identificación de la escritura antes de poder invocar el OCR correcto para manejar la escritura específica. ^[20]
Aislamiento o segmentación de caracteres: para el OCR por carácter, se deben separar varios caracteres que están conectados debido a artefactos de imagen; los caracteres individuales que están divididos en varias partes debido a artefactos se deben conectar.
Normalización de la relación de aspecto y la escala ^[21]

La segmentación de fuentes de paso fijo se logra de manera relativamente sencilla alineando la imagen con una cuadrícula uniforme en función del lugar donde las líneas de cuadrícula verticales intersectan con menor frecuencia las áreas negras. Para las fuentes proporcionales , se necesitan técnicas más sofisticadas porque el espacio en blanco entre letras a veces puede ser mayor que entre palabras y las líneas verticales pueden intersectar más de un carácter. ^[22]

Reconocimiento de texto

Hay dos tipos básicos de algoritmos de OCR centrales, que pueden producir una lista clasificada de caracteres candidatos. ^[23]

La comparación de matrices implica comparar una imagen con un glifo almacenado píxel por píxel; también se conoce como comparación de patrones , reconocimiento de patrones o correlación de imágenes . Esto se basa en que el glifo de entrada esté correctamente aislado del resto de la imagen y que el glifo almacenado tenga una fuente similar y la misma escala. Esta técnica funciona mejor con texto escrito a máquina y no funciona bien cuando se encuentran nuevas fuentes. Esta es la técnica que los primeros OCR basados en fotocélulas físicas implementaron de forma bastante directa.
La extracción de características descompone los glifos en "características" como líneas, bucles cerrados, dirección de línea e intersecciones de línea. Las características de extracción reducen la dimensionalidad de la representación y hacen que el proceso de reconocimiento sea computacionalmente eficiente. Estas características se comparan con una representación abstracta de un carácter similar a un vector, que podría reducirse a uno o más prototipos de glifo. Las técnicas generales de detección de características en visión artificial son aplicables a este tipo de OCR, que se ve comúnmente en el reconocimiento de escritura a mano "inteligente" y en la mayoría del software de OCR moderno. ^[24] Los clasificadores de vecinos más cercanos, como el algoritmo de k vecinos más cercanos, se utilizan para comparar las características de la imagen con las características de glifo almacenadas y elegir la coincidencia más cercana. ^[25]

Los programas informáticos como Cuneiform y Tesseract utilizan un método de dos pasadas para el reconocimiento de caracteres. La segunda pasada se conoce como reconocimiento adaptativo y utiliza las formas de las letras reconocidas con alta confianza en la primera pasada para reconocer mejor las letras restantes en la segunda pasada. Esto resulta ventajoso para fuentes inusuales o escaneos de baja calidad en los que la fuente está distorsionada (por ejemplo, borrosa o descolorida). ^[22]

A partir de diciembre de 2016 ^[actualizar], el software de OCR moderno incluye Google Docs OCR, ABBYY FineReader y Transym. ^[26]^{[ necesita actualización ]} Otros como OCRopus y Tesseract utilizan redes neuronales que están entrenadas para reconocer líneas completas de texto en lugar de centrarse en caracteres individuales.

Una técnica conocida como OCR iterativo recorta automáticamente un documento en secciones según el diseño de la página. Luego, el OCR se realiza en cada sección individualmente utilizando umbrales de nivel de confianza de caracteres variables para maximizar la precisión del OCR a nivel de página. La Oficina de Patentes de los Estados Unidos ha expedido una patente para este método. ^[27]

El resultado del OCR se puede almacenar en el formato estandarizado ALTO , un esquema XML dedicado que mantiene la Biblioteca del Congreso de los Estados Unidos . Otros formatos comunes son hOCR y PAGE XML.

Para obtener una lista de software de reconocimiento óptico de caracteres, consulte Comparación de software de reconocimiento óptico de caracteres .

Posprocesamiento

La precisión del OCR se puede aumentar si el resultado está limitado por un léxico , una lista de palabras que pueden aparecer en un documento. ^[15] Esto podría ser, por ejemplo, todas las palabras del idioma inglés o un léxico más técnico para un campo específico. Esta técnica puede ser problemática si el documento contiene palabras que no están en el léxico, como nombres propios . Tesseract usa su diccionario para influir en el paso de segmentación de caracteres, para mejorar la precisión. ^[22]

El flujo de salida puede ser un flujo de texto simple o un archivo de caracteres, pero los sistemas de OCR más sofisticados pueden preservar el diseño original de la página y producir, por ejemplo, un PDF anotado que incluye tanto la imagen original de la página como una representación textual que se puede buscar.

El análisis de vecinos cercanos puede utilizar frecuencias de coocurrencia para corregir errores, al observar que ciertas palabras suelen verse juntas. ^[28] Por ejemplo, "Washington, DC" es generalmente mucho más común en inglés que "Washington DOC".

El conocimiento de la gramática del idioma que se está escaneando también puede ayudar a determinar si es probable que una palabra sea un verbo o un sustantivo, por ejemplo, lo que permite una mayor precisión.

El algoritmo de distancia de Levenshtein también se ha utilizado en el posprocesamiento de OCR para optimizar aún más los resultados de una API de OCR. ^[29]

Optimizaciones específicas de la aplicación

En los últimos años, ^los^{principales proveedores} de tecnología OCR comenzaron a ajustar los sistemas OCR para que pudieran manejar de manera más eficiente tipos específicos de datos de entrada. Más allá de un léxico específico de la aplicación, se puede lograr un mejor rendimiento si se tienen en cuenta las reglas comerciales, expresiones estándar, ^{[ aclaración necesaria ]} o información enriquecida contenida en imágenes en color. Esta estrategia se denomina "OCR orientado a la aplicación" u "OCR personalizado", y se ha aplicado al OCR de matrículas , facturas , capturas de pantalla , tarjetas de identificación , licencias de conducir y fabricación de automóviles .

El New York Times ha adaptado la tecnología OCR a una herramienta propia, llamada Document Helper , que permite a su equipo de noticias interactivas acelerar el procesamiento de documentos que necesitan ser revisados. Señalan que les permite procesar hasta 5.400 páginas por hora para que los periodistas revisen el contenido.^[30]

Soluciones alternativas

Existen varias técnicas para resolver el problema del reconocimiento de caracteres por medios distintos a los algoritmos de OCR mejorados.

Forzar una mejor entrada

Las fuentes especiales como las fuentes OCR-A , OCR-B o MICR , con tamaños, espaciados y formas de caracteres distintivos especificados con precisión, permiten una mayor tasa de precisión durante la transcripción en el procesamiento de cheques bancarios. Varios motores de OCR destacados fueron diseñados para capturar texto en fuentes populares como Arial o Times New Roman, y son incapaces de capturar texto en estas fuentes que son especializadas y muy diferentes de las fuentes de uso popular. Como Google Tesseract se puede entrenar para reconocer nuevas fuentes, puede reconocer fuentes OCR-A, OCR-B y MICR. ^[31]

Los campos de peine son cuadros preimpresos que alientan a los humanos a escribir de manera más legible: un glifo por cuadro. ^[28] Estos suelen estar impresos en un color que se puede eliminar fácilmente mediante el sistema de OCR. ^[28]

Palm OS utilizaba un conjunto especial de glifos, conocido como Graffiti , que son similares a los caracteres impresos en inglés, pero simplificados o modificados para facilitar su reconocimiento en el hardware computacionalmente limitado de la plataforma. Los usuarios debían aprender a escribir estos glifos especiales.

El OCR basado en zonas restringe la imagen a una parte específica de un documento. Esto suele denominarse OCR de plantilla .

Colaboración colectiva

El crowdsourcing de personas para realizar el reconocimiento de caracteres puede procesar imágenes rápidamente como el OCR controlado por computadora, pero con mayor precisión para reconocer imágenes que la obtenida a través de computadoras. Los sistemas prácticos incluyen Amazon Mechanical Turk y reCAPTCHA . La Biblioteca Nacional de Finlandia ha desarrollado una interfaz en línea para que los usuarios corrijan textos OCR en el formato estandarizado ALTO. ^[32] El crowdsourcing también se ha utilizado no para realizar el reconocimiento de caracteres directamente sino para invitar a los desarrolladores de software a desarrollar algoritmos de procesamiento de imágenes, por ejemplo, mediante el uso de torneos de orden de clasificación . ^[33]

Exactitud

Encargado por el Departamento de Energía de los EE. UU. (DOE), el Instituto de Investigación en Ciencias de la Información (ISRI) tuvo la misión de fomentar la mejora de las tecnologías automatizadas para comprender los documentos impresos por máquinas, y llevó a cabo la prueba anual más confiable de precisión de OCR entre 1992 y 1996. ^[35]

El reconocimiento de texto escrito a máquina en latín aún no es 100% preciso, incluso cuando se dispone de imágenes claras. Un estudio basado en el reconocimiento de páginas de periódicos del siglo XIX y principios del XX concluyó que la precisión de OCR carácter por carácter para el software de OCR comercial variaba del 81% al 99%; ^[36] la precisión total se puede lograr mediante revisión humana o autenticación de diccionario de datos. Otras áreas, incluido el reconocimiento de impresión a mano, escritura cursiva y texto impreso en otras escrituras (especialmente aquellos caracteres de idiomas del este asiático que tienen muchos trazos para un solo carácter), aún son objeto de investigación activa. La base de datos MNIST se usa comúnmente para probar la capacidad de los sistemas para reconocer dígitos escritos a mano.

Las tasas de precisión se pueden medir de varias maneras, y la forma en que se miden puede afectar en gran medida la tasa de precisión informada. Por ejemplo, si no se utiliza el contexto de la palabra (un léxico de palabras) para corregir el software que encuentra palabras inexistentes, una tasa de error de caracteres del 1 % (99 % de precisión) puede resultar en una tasa de error del 5 % o peor si la medición se basa en si se reconoció cada palabra completa sin letras incorrectas. ^[37] El uso de un conjunto de datos lo suficientemente grande es importante en las soluciones de reconocimiento de escritura a mano basadas en redes neuronales. Por otro lado, producir conjuntos de datos naturales es muy complicado y requiere mucho tiempo. ^[38]

Un ejemplo de las dificultades inherentes a la digitalización de texto antiguo es la incapacidad del OCR para diferenciar entre los caracteres " s larga " y "f". ^[39]^[34]

Los sistemas de OCR basados en la Web para reconocer textos escritos a mano al vuelo se han vuelto muy conocidos como productos comerciales en los últimos años ^{[ ¿cuándo? ]} (ver Historia de las Tablet PC ). Se pueden lograr índices de precisión del 80% al 90% en caracteres escritos a mano limpios y prolijos mediante software de computación con lápiz , pero ese índice de precisión todavía se traduce en docenas de errores por página, lo que hace que la tecnología sea útil solo en aplicaciones muy limitadas. ^{[ cita requerida ]}

El reconocimiento de textos en cursiva es un área de investigación activa, con índices de reconocimiento incluso más bajos que los de textos escritos a mano . Probablemente no será posible alcanzar índices más altos de reconocimiento de la escritura cursiva general sin el uso de información contextual o gramatical. Por ejemplo, reconocer palabras completas de un diccionario es más fácil que intentar analizar caracteres individuales de la escritura. Leer la línea de monto de un cheque (que siempre es un número escrito) es un ejemplo en el que el uso de un diccionario más pequeño puede aumentar considerablemente los índices de reconocimiento. Las formas de los caracteres cursivos individuales simplemente no contienen suficiente información para reconocer con precisión (más del 98 %) toda la escritura cursiva escrita a mano. ^{[ cita requerida ]}

La mayoría de los programas permiten a los usuarios establecer "índices de confianza". Esto significa que si el software no alcanza el nivel de precisión deseado, se puede notificar al usuario para que lo revise manualmente.

Un error introducido por el escaneo OCR a veces se denomina scanno (por analogía con el término typo ). ^[40]^[41]

Unicode

Los caracteres compatibles con OCR se agregaron al estándar Unicode en junio de 1993, con el lanzamiento de la versión 1.1.

Algunos de estos caracteres están asignados a fuentes específicas de MICR , OCR-A u OCR-B .

Véase también

Referencias

^ OnDemand, HPE Haven. "Documento OCR". Archivado desde el original el 15 de abril de 2016.
^ OnDemand, HPE Haven. "undefined". Archivado desde el original el 19 de abril de 2016.
^ ab Schantz, Herbert F. (1982). La historia del OCR, reconocimiento óptico de caracteres . [Manchester Center, Vt.]: Asociación de usuarios de tecnologías de reconocimiento. ISBN 9780943072012.
^ Dhavale, Sunita Vikrant (2017). Técnicas avanzadas de filtrado y detección de spam basadas en imágenes. Hershey, Pensilvania: IGI Global. pag. 91.ISBN 9781683180142.
^ d'Albe, EEF (1 de julio de 1914). "Sobre un optófono lector de tipos". Actas de la Royal Society A: Ciencias matemáticas, físicas e ingeniería . 90 (619): 373–375. Bibcode :1914RSPSA..90..373D. doi :10.1098/rspa.1914.0061.
^ "La historia del OCR". Revista de procesamiento de datos . 12 : 46. 1970.
^ "Extracción de texto de imágenes mediante OCR en Android". 27 de junio de 2015. Archivado desde el original el 15 de marzo de 2016.
^ "[Tutorial] OCR en Google Glass". 23 de octubre de 2014. Archivado desde el original el 5 de marzo de 2016.
^ Zeng, Qing-An (2015). Comunicaciones inalámbricas, redes y aplicaciones: actas de la WCNA 2014. Springer. ISBN 978-81-322-2580-5.
^ "[javascript] Uso de OCR y extracción de entidades para la búsqueda de empresas en LinkedIn". 22 de julio de 2014. Archivado desde el original el 17 de abril de 2016.
^ "Cómo descifrar captchas". andrewt.net. 28 de junio de 2006. Consultado el 16 de junio de 2013 .
^ "Cómo descifrar un CAPTCHA visual". Cs.sfu.ca. 10 de diciembre de 2002. Consultado el 16 de junio de 2013 .
^ Resig, John (23 de enero de 2009). "John Resig – OCR and Neural Nets in JavaScript". Ejohn.org . Consultado el 16 de junio de 2013 .
^ Tappert, CC; Suen, CY; Wakahara, T. (1990). "El estado del arte en el reconocimiento de escritura a mano en línea". IEEE Transactions on Pattern Analysis and Machine Intelligence . 12 (8): 787. doi :10.1109/34.57669. S2CID 42920826.
^ ab "Reconocimiento óptico de caracteres (OCR): cómo funciona". Nicomsoft.com . Consultado el 16 de junio de 2013 .
^ Sezgin, Mehmet; Sankur, Bulent (2004). "Estudio sobre técnicas de umbralización de imágenes y evaluación cuantitativa del rendimiento" (PDF) . Journal of Electronic Imaging . 13 (1): 146. Bibcode :2004JEI....13..146S. doi :10.1117/1.1631315. Archivado desde el original (PDF) el 16 de octubre de 2015 . Consultado el 2 de mayo de 2015 .
^ Gupta, Maya R.; Jacobson, Nathaniel P.; Garcia, Eric K. (2007). "Binarización OCR y preprocesamiento de imágenes para la búsqueda de documentos históricos" (PDF) . Reconocimiento de patrones . 40 (2): 389. Código bibliográfico :2007PatRe..40..389G. doi :10.1016/j.patcog.2006.04.043. Archivado desde el original (PDF) el 16 de octubre de 2015 . Consultado el 2 de mayo de 2015 .
^ Trier, Oeivind Due; Jain, Anil K. (1995). "Evaluación dirigida a objetivos de métodos de binarización" (PDF) . IEEE Transactions on Pattern Analysis and Machine Intelligence . 17 (12): 1191–1201. doi :10.1109/34.476511. Archivado (PDF) desde el original el 16 de octubre de 2015. Consultado el 2 de mayo de 2015 .
^ Milyaev, Sergey; Barinova, Olga; Novikova, Tatiana; Kohli, Pushmeet; Lempitsky, Victor (2013). "Binarización de imágenes para la comprensión de texto de extremo a extremo en imágenes naturales". 2013 12th International Conference on Document Analysis and Recognition (PDF) . págs. 128–132. doi :10.1109/ICDAR.2013.33. ISBN 978-0-7695-4999-6. S2CID 8947361. Archivado (PDF) del original el 13 de noviembre de 2017 . Consultado el 2 de mayo de 2015 .
^ Pati, PB; Ramakrishnan, AG (29 de mayo de 1987). "Identificación de múltiples escrituras a nivel de palabra". Pattern Recognition Letters . 29 (9): 1218–1229. Bibcode :2008PaReL..29.1218P. doi :10.1016/j.patrec.2008.01.027.
^ "OCR básico en OpenCV | Damiles". Blog.damiles.com. 20 de noviembre de 2008. Consultado el 16 de junio de 2013 .
^ abc Smith, Ray (2007). «An Overview of the Tesseract OCR Engine» (PDF) . Archivado desde el original (PDF) el 28 de septiembre de 2010. Consultado el 23 de mayo de 2013 .
^ "Introducción al OCR". Dataid.com . Consultado el 16 de junio de 2013 .
^ "Cómo funciona el software de OCR". OCRWizard. Archivado desde el original el 16 de agosto de 2009. Consultado el 16 de junio de 2013 .
^ "Reconocimiento y clasificación de patrones básicos con openCV | Damiles". Blog.damiles.com. 14 de noviembre de 2008. Consultado el 16 de junio de 2013 .
^ Assefi, Mehdi (diciembre de 2016). "OCR como servicio: una evaluación experimental de Google Docs OCR, Tesseract, ABBYY FineReader y Transym". ResearchGate .
^ "Cómo la mejor tecnología de OCR captura el 99,91 % de los datos". www.bisok.com . Consultado el 27 de mayo de 2021 .
^ abc Woodford, Chris (30 de enero de 2012). "¿Cómo funciona el escaneo de documentos con OCR?". Explain that Stuff . Consultado el 16 de junio de 2013 .
^ "¿Cómo optimizar los resultados de la API de OCR al extraer texto de una imagen? - Comunidad de desarrolladores de Haven OnDemand". Archivado desde el original el 22 de marzo de 2016.
^ Fehr, Tiff (26 de marzo de 2019). «Cómo leímos 900 páginas de documentos de Cohen en menos de 10 minutos». The New York Times . ISSN 0362-4331 . Consultado el 16 de junio de 2023 .
^ "Entrena tu Tesseract". Entrena tu Tesseract . 20 de septiembre de 2018. Consultado el 20 de septiembre de 2018 .
^ "¿Qué sentido tiene un editor de textos interactivo con reconocimiento óptico de caracteres en línea? - Fenno-Ugrica". 21 de febrero de 2014.
^ Riedl, C.; Zanibbi, R.; Hearst, MA; Zhu, S.; Menietti, M.; Crusan, J.; Metelsky, I.; Lakhani, K. (20 de febrero de 2016). "Detección de figuras y etiquetas de piezas en patentes: desarrollo basado en la competencia de algoritmos de procesamiento de imágenes". Revista internacional sobre análisis y reconocimiento de documentos . 19 (2): 155. arXiv : 1410.6751 . doi :10.1007/s10032-016-0260-8. S2CID 11873638.
^ ab "Visor de Ngram de Google Books". books.google.com . Consultado el 20 de julio de 2023 . Cuando generamos los corpus originales de Ngram Viewer en 2009, nuestro OCR no era tan bueno […]. Esto era especialmente obvio en el inglés anterior al siglo XIX, donde la s medial alargada (ſ) a menudo se interpretaba como una f, […]. Aquí hay evidencia de las mejoras que hemos realizado desde entonces, utilizando el operador de corpus para comparar las versiones de 2009, 2012 y 2019 […]
^ "Código y datos para evaluar la precisión del reconocimiento óptico de caracteres, originalmente de UNLV/ISRI". Archivo de códigos de Google.
^ Holley, Rose (abril de 2009). "¿Qué tan bueno puede llegar a ser? Análisis y mejora de la precisión del OCR en programas de digitalización de periódicos históricos a gran escala". Revista D-Lib . Consultado el 5 de enero de 2014 .
^ Suen, CY; Plamondon, R.; Tappert, A.; Thomassen, A.; Ward, JR; Yamamoto, K. (29 de mayo de 1987). Desafíos futuros en escritura a mano y aplicaciones informáticas. 3.er Simposio internacional sobre escritura a mano y aplicaciones informáticas, Montreal, 29 de mayo de 1987. Consultado el 3 de octubre de 2008 .
^ Mohseni, Maedeh Haji Agha; Azmi, Reza; Layeghi, Kamran; Maleki, Sajad (2019). Comparación de conjuntos de datos sintetizados y naturales en soluciones de escritura a mano basadas en redes neuronales. ITCT – vía Civilica.
^ Kapidakis, Sarantos; Mazurek, Cezary y Werla, Marcin (2015). Investigación y tecnología avanzada para bibliotecas digitales. Springer. pág. 257. ISBN 9783319245928.{{cite book}}: CS1 maint: varios nombres: lista de autores ( enlace )
^ Atkinson, Kristine H. (2015). "Reinventar la literatura no patentaria para el patentamiento farmacéutico". Pharmaceutical Patent Analyst . 4 (5): 371–375. doi :10.4155/ppa.15.21. PMID 26389649.
^ "escanear". Abubillas . Mayo de 2001.

Enlaces externos

Wikimedia Commons tiene medios relacionados con Reconocimiento óptico de caracteres .

Reconocimiento óptico de caracteres Unicode: rango hexadecimal: 2440-245F
Bibliografía comentada de referencias al reconocimiento de caracteres escritos a mano y computación con lápiz