Reconocimiento óptico de caracteres

Vídeo del proceso de escaneo y reconocimiento óptico de caracteres (OCR) en tiempo real con un escáner portátil

El reconocimiento óptico de caracteres o lector óptico de caracteres ( OCR ) es la conversión electrónica o mecánica de imágenes de texto mecanografiado, escrito a mano o impreso en texto codificado por máquina, ya sea de un documento escaneado, una fotografía de un documento, una fotografía de una escena (por ejemplo la texto en carteles y vallas publicitarias en una fotografía de paisaje) o desde el texto de los subtítulos superpuesto a una imagen (por ejemplo: de una transmisión de televisión). ^[1]

Ampliamente utilizado como forma de entrada de datos a partir de registros de datos impresos en papel, ya sean documentos de pasaporte, facturas, extractos bancarios , recibos computarizados, tarjetas de visita, correo, datos impresos o cualquier documentación adecuada, es un método común para digitalizar textos impresos de modo que se pueden editar electrónicamente, buscar, almacenar de forma más compacta, mostrar en línea y utilizar en procesos mecánicos como la computación cognitiva , la traducción automática , la conversión de texto a voz (extraído) , los datos clave y la minería de texto . OCR es un campo de investigación en reconocimiento de patrones , inteligencia artificial y visión por computadora .

Las primeras versiones debían entrenarse con imágenes de cada personaje y trabajar en una fuente a la vez. Ahora son comunes los sistemas avanzados capaces de producir un alto grado de precisión para la mayoría de las fuentes y con soporte para una variedad de entradas de formatos de archivos de imagen . ^[2] Algunos sistemas son capaces de reproducir resultados formateados que se aproximan mucho a la página original, incluidas imágenes, columnas y otros componentes no textuales.

Historia

El reconocimiento óptico temprano de caracteres se remonta a tecnologías relacionadas con la telegrafía y la creación de dispositivos de lectura para ciegos. ^[3] En 1914, Emanuel Goldberg desarrolló una máquina que leía caracteres y los convertía en código telegráfico estándar. ^[4] Al mismo tiempo, Edmund Fournier d'Albe desarrolló el Optophone , un escáner de mano que, cuando se movía a través de una página impresa, producía tonos que correspondían a letras o caracteres específicos. ^[5]

A finales de la década de 1920 y principios de la de 1930, Emanuel Goldberg desarrolló lo que llamó una "máquina estadística" para buscar archivos de microfilmes utilizando un sistema de reconocimiento de códigos ópticos. En 1931, se le concedió la patente estadounidense número 1.838.389 por la invención. La patente fue adquirida por IBM .

Usuarios con discapacidad visual

En 1974, Ray Kurzweil fundó la empresa Kurzweil Computer Products, Inc. y continuó el desarrollo del OCR omnifuente , que podía reconocer texto impreso en prácticamente cualquier fuente. (A Kurzweil a menudo se le atribuye la invención del OCR omnifuente, pero ya lo utilizaban empresas, incluida CompuScan, a finales de los años 1960 y 1970. ^[3]^[6] ) Kurzweil utilizó la tecnología para crear una máquina de lectura para personas ciegas. haga que una computadora les lea el texto en voz alta. El dispositivo incluía un escáner plano tipo CCD y un sintetizador de texto a voz. El 13 de enero de 1976, el producto terminado se dio a conocer durante una conferencia de prensa ampliamente difundida encabezada por Kurzweil y los líderes de la Federación Nacional de Ciegos . ^[^{cita necesaria}^] En 1978, Kurzweil Computer Products comenzó a vender una versión comercial del programa informático de reconocimiento óptico de caracteres. LexisNexis fue uno de los primeros clientes y compró el programa para cargar documentos legales y noticias en sus nacientes bases de datos en línea. Dos años más tarde, Kurzweil vendió su empresa a Xerox , que finalmente la escindió como Scansoft , que se fusionó con Nuance Communications .

En la década de 2000, el OCR estaba disponible en línea como servicio (WebOCR), en un entorno de computación en la nube y en aplicaciones móviles como la traducción en tiempo real de señales en idiomas extranjeros en un teléfono inteligente . Con la llegada de los teléfonos inteligentes y las gafas inteligentes , el OCR se puede utilizar en aplicaciones de dispositivos móviles conectados a Internet que extraen el texto capturado con la cámara del dispositivo. Estos dispositivos que no tienen funcionalidad OCR incorporada normalmente utilizarán una API de OCR para extraer el texto del archivo de imagen capturado por el dispositivo. ^[7]^[8] La API de OCR devuelve el texto extraído, junto con información sobre la ubicación del texto detectado en la imagen original, a la aplicación del dispositivo para su posterior procesamiento (como texto a voz) o visualización.

Hay varios sistemas OCR comerciales y de código abierto disponibles para los sistemas de escritura más comunes , incluidos los caracteres latinos, cirílicos, árabes, hebreos, índicos, bengalíes (bengalíes), devanagari, tamiles, chinos, japoneses y coreanos.

Aplicaciones

Los motores de OCR se han desarrollado en aplicaciones de software especializadas en diversos temas, como recibos, facturas, cheques y documentos de facturación legales.

El software se puede utilizar para:

Introducción de datos para documentos comerciales, por ejemplo , cheques , pasaportes, facturas, extractos bancarios y recibos.
Reconocimiento automático de matrículas
Reconocimiento de pasaportes y extracción de información en aeropuertos
Extracción automática de información clave de los documentos del seguro ^{[ cita necesaria ]}
Reconocimiento de señales de tráfico ^[9]
Extraer información de tarjetas de presentación a una lista de contactos ^[10]
Creación de versiones textuales de documentos impresos, por ejemplo, escaneo de libros para el Proyecto Gutenberg.
Hacer que se puedan realizar búsquedas en imágenes electrónicas de documentos impresos, por ejemplo, Google Books
Conversión de escritura a mano en tiempo real para controlar una computadora ( pen computing )
Derrotar o probar la solidez de los sistemas anti-bot CAPTCHA , aunque están diseñados específicamente para evitar el OCR. ^[11]^[12]^[13]
Tecnología de asistencia para usuarios ciegos y con discapacidad visual
Escribir instrucciones para vehículos mediante la identificación de imágenes CAD en una base de datos que sean apropiadas para el diseño del vehículo a medida que cambia en tiempo real.
Hacer que los documentos escaneados puedan buscarse convirtiéndolos a PDF

Tipos

Reconocimiento óptico de caracteres (OCR): apunta a texto escrito a máquina, un glifo o carácter a la vez.
Reconocimiento óptico de palabras: apunta al texto escrito a máquina, una palabra a la vez (para idiomas que utilizan un espacio como divisor de palabras ). Generalmente se llama simplemente "OCR".
Reconocimiento inteligente de caracteres (ICR): también apunta a textos escritos a mano o en cursiva , un glifo o carácter a la vez, lo que generalmente implica aprendizaje automático .
Reconocimiento inteligente de palabras (IWR): también apunta a texto escrito a mano o en cursiva , una palabra a la vez. Esto es especialmente útil para idiomas donde los glifos no están separados en la escritura cursiva.

El OCR es generalmente un proceso fuera de línea que analiza un documento estático. Existen servicios basados en la nube que brindan un servicio API de OCR en línea. El análisis del movimiento de la escritura se puede utilizar como entrada para el reconocimiento de la escritura . ^[14] En lugar de simplemente utilizar las formas de glifos y palabras, esta técnica es capaz de capturar el movimiento, como el orden en el que se dibujan los segmentos , la dirección y el patrón al dejar el bolígrafo y levantarlo. Esta información adicional puede hacer que el proceso sea más preciso. Esta tecnología también se conoce como "reconocimiento de caracteres en línea", "reconocimiento de caracteres dinámico", "reconocimiento de caracteres en tiempo real" y "reconocimiento de caracteres inteligente".

Técnicas

Preprocesamiento

El software OCR a menudo preprocesa las imágenes para mejorar las posibilidades de un reconocimiento exitoso. Las técnicas incluyen: ^[15]

Corrección de inclinación : si el documento no estaba alineado correctamente cuando se escaneó, es posible que sea necesario inclinarlo unos cuantos grados en el sentido de las agujas del reloj o en el sentido contrario a las agujas del reloj para que las líneas de texto queden perfectamente horizontales o verticales.
Despeckling : eliminación de puntos positivos y negativos, alisado de bordes.
Binarización: conversión de una imagen de color o escala de grises a blanco y negro (llamada imagen binaria porque hay dos colores). La tarea se realiza como una forma sencilla de separar el texto (o cualquier otro componente de imagen deseado) del fondo. ^[16] La tarea de binarización es necesaria ya que la mayoría de los algoritmos de reconocimiento comerciales funcionan sólo con imágenes binarias, ya que es más sencillo hacerlo. ^[17] Además, la efectividad de la binarización influye en gran medida en la calidad del reconocimiento de caracteres, y se toman decisiones cuidadosas en la elección de la binarización empleada para un tipo de imagen de entrada determinado; ya que la calidad del método utilizado para obtener el resultado binario depende del tipo de imagen (documento escaneado, imagen de texto de escena , documento histórico degradado, etc.). ^[18]^[19]
Eliminación de líneas: limpieza de cuadros y líneas que no son glifos
Análisis de diseño o zonificación: identificación de columnas, párrafos, títulos, etc. como bloques distintos. Especialmente importante en diseños y tablas de varias columnas .
Detección de líneas y palabras: establecimiento de una línea de base para las formas de palabras y caracteres, separando las palabras según sea necesario.
Reconocimiento de secuencias de comandos: en documentos multilingües, la secuencia de comandos puede cambiar al nivel de las palabras y, por lo tanto, es necesaria la identificación de la secuencia de comandos antes de poder invocar el OCR correcto para manejar la secuencia de comandos específica. ^[20]
Aislamiento o segmentación de caracteres: para OCR por carácter, se deben separar varios caracteres que están conectados debido a artefactos de la imagen; Los personajes individuales que se dividen en varias piezas debido a artefactos deben estar conectados.
Normalización de relación de aspecto y escala ^[21]

La segmentación de fuentes de paso fijo se logra de forma relativamente sencilla alineando la imagen en una cuadrícula uniforme en función de dónde las líneas verticales de la cuadrícula se cruzarán con menos frecuencia con las áreas negras. Para las fuentes proporcionales , se necesitan técnicas más sofisticadas porque los espacios en blanco entre letras a veces pueden ser mayores que entre palabras, y las líneas verticales pueden cruzar más de un carácter. ^[22]

Reconocimiento de texto

Hay dos tipos básicos de algoritmo OCR central, que pueden producir una lista clasificada de caracteres candidatos. ^[23]

La coincidencia de matrices implica comparar una imagen con un glifo almacenado píxel por píxel; también se conoce como coincidencia de patrones , reconocimiento de patrones o correlación de imágenes . Esto depende de que el glifo de entrada esté correctamente aislado del resto de la imagen y que el glifo almacenado tenga una fuente similar y la misma escala. Esta técnica funciona mejor con texto mecanografiado y no funciona bien cuando se encuentran nuevas fuentes. Esta es la técnica que se implementó en los primeros tiempos de OCR físico basado en fotocélulas, de forma bastante directa.
La extracción de características descompone los glifos en "características" como líneas, bucles cerrados, dirección de línea e intersecciones de líneas. Las características de extracción reducen la dimensionalidad de la representación y hacen que el proceso de reconocimiento sea computacionalmente eficiente. Estas características se comparan con una representación vectorial abstracta de un carácter, que podría reducirse a uno o más prototipos de glifos. Las técnicas generales de detección de características en visión por computadora son aplicables a este tipo de OCR, que se ve comúnmente en el reconocimiento de escritura "inteligente" y en la mayoría de los software de OCR modernos. ^[24] Los clasificadores de vecinos más cercanos , como el algoritmo de k vecinos más cercanos, se utilizan para comparar características de la imagen con características de glifos almacenados y elegir la coincidencia más cercana. ^[25]

Software como Cuneiform y Tesseract utilizan un enfoque de dos pasos para el reconocimiento de caracteres. La segunda pasada se conoce como reconocimiento adaptativo y utiliza las formas de las letras reconocidas con gran confianza en la primera pasada para reconocer mejor las letras restantes en la segunda pasada. Esto resulta ventajoso para fuentes inusuales o escaneos de baja calidad donde la fuente está distorsionada (por ejemplo, borrosa o descolorida). ^[22]

A diciembre de 2016 ^[actualizar], el software OCR moderno incluye Google Docs OCR, ABBYY FineReader y Transym. ^[26]^{[ necesita actualización ]} Otros como OCRopus y Tesseract utilizan redes neuronales que están entrenadas para reconocer líneas completas de texto en lugar de centrarse en caracteres individuales.

Una técnica conocida como OCR iterativo recorta automáticamente un documento en secciones según el diseño de la página. El OCR se realiza en las secciones individualmente utilizando umbrales de nivel de confianza de caracteres variables para maximizar la precisión del OCR a nivel de página. Se ha emitido una patente de la Oficina de Patentes de los Estados Unidos para este método. ^[27]

El resultado del OCR se puede almacenar en el formato ALTO estandarizado , un esquema XML dedicado mantenido por la Biblioteca del Congreso de los Estados Unidos . Otros formatos comunes incluyen hOCR y PAGE XML.

Para obtener una lista de software de reconocimiento óptico de caracteres, consulte Comparación de software de reconocimiento óptico de caracteres .

Postprocesamiento

La precisión del OCR se puede aumentar si la salida está limitada por un léxico (una lista de palabras que pueden aparecer en un documento). ^[15] Esto podría ser, por ejemplo, todas las palabras del idioma inglés, o un léxico más técnico para un campo específico. Esta técnica puede resultar problemática si el documento contiene palabras que no están en el léxico, como nombres propios . Tesseract utiliza su diccionario para influir en el paso de segmentación de caracteres, para mejorar la precisión. ^[22]

El flujo de salida puede ser un flujo de texto sin formato o un archivo de caracteres, pero los sistemas OCR más sofisticados pueden preservar el diseño original de la página y producir, por ejemplo, un PDF anotado que incluye tanto la imagen original de la página como una representación textual con capacidad de búsqueda. .

El análisis de vecinos cercanos puede utilizar frecuencias de coocurrencia para corregir errores, al observar que ciertas palabras a menudo se ven juntas. ^[28] Por ejemplo, "Washington, DC" es generalmente mucho más común en inglés que "Washington DOC".

El conocimiento de la gramática del idioma que se escanea también puede ayudar a determinar si es probable que una palabra sea un verbo o un sustantivo, por ejemplo, lo que permite una mayor precisión.

El algoritmo de distancia de Levenshtein también se ha utilizado en el posprocesamiento de OCR para optimizar aún más los resultados de una API de OCR. ^[29]

Optimizaciones específicas de la aplicación

En los últimos años, ^{[ ¿cuándo? ]} los principales proveedores de tecnología OCR comenzaron a modificar los sistemas OCR para manejar de manera más eficiente tipos específicos de entradas. Más allá de un léxico específico de la aplicación, se puede lograr un mejor rendimiento si se tienen en cuenta las reglas comerciales, la expresión estándar, ^{[ se necesita aclaración ]} o la información rica contenida en imágenes en color. Esta estrategia se denomina "OCR orientado a aplicaciones" u "OCR personalizado" y se ha aplicado al OCR de matrículas , facturas , capturas de pantalla , tarjetas de identificación , licencias de conducir y fabricación de automóviles .

El New York Times ha adaptado la tecnología OCR a una herramienta patentada a la que denominan Document Helper , que permite a su equipo de noticias interactivo acelerar el procesamiento de documentos que deben revisarse. Señalan que les permite procesar hasta 5.400 páginas por hora en preparación para que los periodistas revisen el contenido. ^[30]

Soluciones alternativas

Existen varias técnicas para resolver el problema del reconocimiento de caracteres por medios distintos a los algoritmos OCR mejorados.

Forzar una mejor entrada

Las fuentes especiales como OCR-A , OCR-B o MICR , con tamaño, espaciado y formas distintivas de caracteres especificados con precisión, permiten una mayor tasa de precisión durante la transcripción en el procesamiento de cheques bancarios. Varios motores de OCR destacados fueron diseñados para capturar texto en fuentes populares como Arial o Times New Roman, y son incapaces de capturar texto en estas fuentes que son especializadas y muy diferentes de las fuentes utilizadas popularmente. Como se puede entrenar a Google Tesseract para que reconozca nuevas fuentes, puede reconocer fuentes OCR-A, OCR-B y MICR. ^[31]

Los campos de peine son cuadros preimpresos que alientan a los humanos a escribir de manera más legible: un glifo por cuadro. ^[28] A menudo se imprimen en un color omitido que el sistema OCR puede eliminar fácilmente. ^[28]

Palm OS utilizó un conjunto especial de glifos, conocido como Graffiti , que son similares a los caracteres impresos en inglés pero simplificados o modificados para un reconocimiento más fácil en el hardware computacionalmente limitado de la plataforma. Los usuarios tendrían que aprender a escribir estos glifos especiales.

El OCR basado en zonas restringe la imagen a una parte específica de un documento. A esto se le suele denominar Plantilla OCR .

Crowdsourcing

El crowdsourcing de humanos para realizar el reconocimiento de caracteres puede procesar rápidamente imágenes como el OCR controlado por computadora, pero con mayor precisión para reconocer imágenes que las obtenidas a través de computadoras. Los sistemas prácticos incluyen Amazon Mechanical Turk y reCAPTCHA . La Biblioteca Nacional de Finlandia ha desarrollado una interfaz en línea para que los usuarios corrijan textos con OCR en el formato ALTO estandarizado. ^[32] El crowdsourcing también se ha utilizado no para realizar el reconocimiento de caracteres directamente, sino para invitar a los desarrolladores de software a desarrollar algoritmos de procesamiento de imágenes, por ejemplo, mediante el uso de torneos de orden de clasificación . ^[33]

Exactitud

El Instituto de Investigación de Ciencias de la Información (ISRI), encargado por el Departamento de Energía de EE. UU. (DOE), tuvo la misión de fomentar la mejora de las tecnologías automatizadas para comprender los documentos impresos por máquinas, y llevó a cabo la prueba anual más autorizada de precisión de OCR desde 1992. a 1996. ^[35]

El reconocimiento de texto mecanografiado en escritura latina todavía no es 100% preciso, incluso cuando se dispone de imágenes claras. Un estudio basado en el reconocimiento de páginas de periódicos del siglo XIX y principios del XX concluyó que la precisión del OCR carácter por carácter para el software comercial de OCR variaba del 81% al 99%; ^[36] Se puede lograr una precisión total mediante la revisión humana o la autenticación del diccionario de datos. Otras áreas, incluido el reconocimiento de la impresión manual, la escritura cursiva y el texto impreso en otras escrituras (especialmente aquellos caracteres de idiomas del este de Asia que tienen muchos trazos para un solo carácter), siguen siendo objeto de investigación activa. La base de datos MNIST se utiliza comúnmente para probar la capacidad de los sistemas para reconocer dígitos escritos a mano.

Las tasas de precisión se pueden medir de varias maneras, y la forma en que se miden puede afectar en gran medida la tasa de precisión informada. Por ejemplo, si no se utiliza el contexto de las palabras (un léxico de palabras) para corregir el software que encuentra palabras inexistentes, una tasa de error de caracteres del 1% (99% de precisión) puede resultar en una tasa de error del 5% o peor si la medición se basa en si cada palabra completa fue reconocida sin letras incorrectas. ^[37] El uso de un conjunto de datos suficientemente grande es importante en las soluciones de reconocimiento de escritura a mano basadas en redes neuronales. Por otro lado, producir conjuntos de datos naturales es muy complicado y requiere mucho tiempo. ^[38]

Un ejemplo de las dificultades inherentes a la digitalización de texto antiguo es la incapacidad del OCR para diferenciar entre los caracteres " s largos " y "f". ^[39]^[34]

Los sistemas OCR basados en web para reconocer texto escrito a mano sobre la marcha se han vuelto muy conocidos como productos comerciales en los últimos años ^{[ ¿cuándo? ]} (ver Historial de Tablet PC ). Se pueden lograr tasas de precisión del 80% al 90% en caracteres limpios e impresos a mano mediante software de computación con lápiz , pero esa tasa de precisión aún se traduce en docenas de errores por página, lo que hace que la tecnología sea útil sólo en aplicaciones muy limitadas. ^{[ cita necesaria ]}

El reconocimiento de texto en cursiva es un área activa de investigación, con tasas de reconocimiento incluso más bajas que las del texto impreso a mano . Es probable que no sean posibles tasas más altas de reconocimiento de la escritura cursiva general sin el uso de información contextual o gramatical. Por ejemplo, reconocer palabras completas de un diccionario es más fácil que intentar analizar caracteres individuales de una escritura. Leer la línea Importe de un cheque (que siempre es un número escrito) es un ejemplo en el que el uso de un diccionario más pequeño puede aumentar considerablemente las tasas de reconocimiento. Las formas de los caracteres cursivos individuales simplemente no contienen suficiente información para reconocer con precisión (más del 98%) toda la escritura cursiva escrita a mano. ^{[ cita necesaria ]}

La mayoría de los programas permiten a los usuarios establecer "índices de confianza". Esto significa que si el software no alcanza el nivel deseado de precisión, se puede notificar al usuario para que lo revise manualmente.

Un error introducido por el escaneo OCR a veces se denomina scanno (por analogía con el término error tipográfico ). ^[40]^[41]

Unicódigo

Los caracteres compatibles con OCR se agregaron al estándar Unicode en junio de 1993, con el lanzamiento de la versión 1.1.

Algunos de estos caracteres se asignan a partir de fuentes específicas de MICR , OCR-A u OCR-B .

Ver también

Referencias

^ Bajo demanda, HPE Haven. "Documento OCR". Archivado desde el original el 15 de abril de 2016.
^ Bajo demanda, HPE Haven. "indefinido". Archivado desde el original el 19 de abril de 2016.
^ ab Schantz, Herbert F. (1982). La historia del OCR, reconocimiento óptico de caracteres . [Manchester Center, Vt.]: Asociación de usuarios de tecnologías de reconocimiento. ISBN 9780943072012.
^ Dhavale, Sunita Vikrant (2017). Técnicas avanzadas de filtrado y detección de spam basadas en imágenes. Hershey, Pensilvania: IGI Global. pag. 91.ISBN 9781683180142.
^ d'Albe, EEF (1 de julio de 1914). "En un optófono de lectura de tipos". Actas de la Royal Society A: Ciencias Matemáticas, Físicas y de Ingeniería . 90 (619): 373–375. Código bibliográfico : 1914RSPSA..90..373D. doi :10.1098/rspa.1914.0061.
^ "La historia del OCR". Revista de Procesamiento de Datos . 12 : 46. 1970.
^ "Extracción de texto de imágenes mediante OCR en Android". 27 de junio de 2015. Archivado desde el original el 15 de marzo de 2016.
^ "[Tutorial] OCR en Google Glass". 23 de octubre de 2014. Archivado desde el original el 5 de marzo de 2016.
^ Zeng, Qing-An (2015). Comunicaciones, redes y aplicaciones inalámbricas: actas de la CMNA 2014. Springer. ISBN 978-81-322-2580-5.
^ "[javascript] Uso de OCR y extracción de entidades para la búsqueda de empresas en LinkedIn". 22 de julio de 2014. Archivado desde el original el 17 de abril de 2016.
^ "Cómo descifrar captchas". andrewt.net. 28 de junio de 2006 . Consultado el 16 de junio de 2013 .
^ "Romper un CAPTCHA visual". Cs.sfu.ca. 10 de diciembre de 2002 . Consultado el 16 de junio de 2013 .
^ Resig, John (23 de enero de 2009). "John Resig: OCR y redes neuronales en JavaScript". Ejohn.org . Consultado el 16 de junio de 2013 .
^ Tappert, CC; Suen, CY; Wakahara, T. (1990). "El estado del arte en reconocimiento de escritura a mano en línea". Transacciones IEEE sobre análisis de patrones e inteligencia artificial . 12 (8): 787. doi : 10.1109/34.57669. S2CID 42920826.
^ ab "Reconocimiento óptico de caracteres (OCR): cómo funciona". Nicomsoft.com . Consultado el 16 de junio de 2013 .
^ Sezgin, Mehmet; Sankur, Bulent (2004). "Estudio sobre técnicas de umbralización de imágenes y evaluación cuantitativa del desempeño" (PDF) . Revista de imágenes electrónicas . 13 (1): 146. Código bibliográfico : 2004JEI....13..146S. doi :10.1117/1.1631315. Archivado desde el original (PDF) el 16 de octubre de 2015 . Consultado el 2 de mayo de 2015 .
^ Gupta, Maya R.; Jacobson, Nathaniel P.; García, Eric K. (2007). "Binarización OCR y preprocesamiento de imágenes para búsqueda de documentos históricos" (PDF) . Reconocimiento de patrones . 40 (2): 389. Código bibliográfico : 2007PatRe..40..389G. doi :10.1016/j.patcog.2006.04.043. Archivado desde el original (PDF) el 16 de octubre de 2015 . Consultado el 2 de mayo de 2015 .
^ Tréveris, Oeivind Due; Jain, Anil K. (1995). "Evaluación dirigida a objetivos de métodos de binarización" (PDF) . Transacciones IEEE sobre análisis de patrones e inteligencia artificial . 17 (12): 1191-1201. doi : 10.1109/34.476511. Archivado (PDF) desde el original el 16 de octubre de 2015 . Consultado el 2 de mayo de 2015 .
^ Milyaev, Sergey; Barinova, Olga; Novikova, Tatiana; Kohli, Pushmeet; Lempitsky, Víctor (2013). "Binarización de imágenes para la comprensión del texto de un extremo a otro en imágenes naturales". 2013 XII Conferencia Internacional sobre Análisis y Reconocimiento de Documentos (PDF) . págs. 128-132. doi :10.1109/ICDAR.2013.33. ISBN 978-0-7695-4999-6. S2CID 8947361. Archivado (PDF) desde el original el 13 de noviembre de 2017 . Consultado el 2 de mayo de 2015 .
^ Pati, PB; Ramakrishnan, AG (29 de mayo de 1987). "Identificación de escritura múltiple a nivel de palabra". Letras de reconocimiento de patrones . 29 (9): 1218-1229. Código Bib : 2008PaReL..29.1218P. doi :10.1016/j.patrec.2008.01.027.
^ "OCR básico en OpenCV | Damiles". Blog.damiles.com. 20 de noviembre de 2008 . Consultado el 16 de junio de 2013 .
^ abc Smith, Ray (2007). "Una descripción general del motor OCR Tesseract" (PDF) . Archivado desde el original (PDF) el 28 de septiembre de 2010 . Consultado el 23 de mayo de 2013 .
^ "Introducción al OCR". Dataid.com . Consultado el 16 de junio de 2013 .
^ "Cómo funciona el software OCR". OCRWizard. Archivado desde el original el 16 de agosto de 2009 . Consultado el 16 de junio de 2013 .
^ "El reconocimiento y clasificación de patrones básicos con openCV | Damiles". Blog.damiles.com. 14 de noviembre de 2008 . Consultado el 16 de junio de 2013 .
^ Assefi, Mehdi (diciembre de 2016). "OCR como servicio: una evaluación experimental de Google Docs OCR, Tesseract, ABBYY FineReader y Transym". Puerta de la investigación .
^ "Cómo la mejor tecnología OCR captura el 99,91% de los datos". www.bisok.com . Consultado el 27 de mayo de 2021 .
^ abc Woodford, Chris (30 de enero de 2012). "¿Cómo funciona el escaneo de documentos OCR?". Explica esas cosas . Consultado el 16 de junio de 2013 .
^ "¿Cómo optimizar los resultados de la API de OCR al extraer texto de una imagen? - Comunidad de desarrolladores Haven OnDemand". Archivado desde el original el 22 de marzo de 2016.
^ Fehr, Tiff (26 de marzo de 2019). "Cómo revisamos 900 páginas de documentos de Cohen en menos de 10 minutos". Los New York Times . ISSN 0362-4331 . Consultado el 16 de junio de 2023 .
^ "Entrena tu Teseracto". Entrena tu Teseracto . 20 de septiembre de 2018 . Consultado el 20 de septiembre de 2018 .
^ "¿Cuál es el objetivo de un editor de texto OCR interactivo en línea? - Fenno-Ugrica". 21 de febrero de 2014.
^ Riedl, C.; Zanibbi, R.; Hearst, MA; Zhu, S.; Menietti, M.; Crusan, J.; Metelsky, I.; Lakhani, K. (20 de febrero de 2016). "Detección de figuras y etiquetas de piezas en patentes: desarrollo de algoritmos de procesamiento de imágenes basado en la competencia". Revista Internacional de Análisis y Reconocimiento de Documentos . 19 (2): 155. arXiv : 1410.6751 . doi :10.1007/s10032-016-0260-8. S2CID 11873638.
^ ab "Visor de Ngram de Google Libros". libros.google.com . Consultado el 20 de julio de 2023 . Cuando generamos los corpus originales de Ngram Viewer en 2009, nuestro OCR no era tan bueno […]. Esto era especialmente obvio en el inglés anterior al siglo XIX, donde la s medial alargada (ſ) a menudo se interpretaba como una f, […]. Aquí hay evidencia de las mejoras que hemos realizado desde entonces, utilizando el operador de corpus para comparar las versiones 2009, 2012 y 2019 […]
^ "Código y datos para evaluar la precisión del OCR, originalmente de UNLV/ISRI". Archivo de códigos de Google.
^ Holley, Rose (abril de 2009). "¿Qué tan bueno puede ser? Análisis y mejora de la precisión del OCR en programas de digitalización de periódicos históricos a gran escala". Revista D-Lib . Consultado el 5 de enero de 2014 .
^ Suen, CY; Plamondón, R.; Tappert, A.; Thomassen, A.; Ward, JR; Yamamoto, K. (29 de mayo de 1987). Desafíos futuros en escritura a mano y aplicaciones informáticas. 3er Simposio Internacional sobre Escritura y Aplicaciones Informáticas, Montreal, 29 de mayo de 1987 . Consultado el 3 de octubre de 2008 .
^ Mohseni, Ayda; Azmi, Reza; Maleki, Arvin y Layeghi, Kamran (2019). Comparación de conjuntos de datos naturales y sintetizados en soluciones de escritura a mano basadas en redes neuronales. TIC.{{cite book}}: Mantenimiento CS1: varios nombres: lista de autores ( enlace )
^ Kapidakis, Sarantos; Mazurek, Cezary y Werla, Marcin (2015). Investigación y Tecnología Avanzada para Bibliotecas Digitales. Saltador. pag. 257.ISBN 9783319245928.{{cite book}}: Mantenimiento CS1: varios nombres: lista de autores ( enlace )
^ Atkinson, Kristine H. (2015). "Reinventar la literatura distinta de las patentes para el patentamiento farmacéutico". Analista de Patentes Farmacéuticas . 4 (5): 371–375. doi :10.4155/ppa.15.21. PMID 26389649.
^ http://www.hoopoes.com/jargon/entry/scanno.shtml Enlace muerto

enlaces externos

Wikimedia Commons tiene medios relacionados con el reconocimiento óptico de caracteres .

Unicode OCR – Rango hexadecimal: 2440-245F Reconocimiento óptico de caracteres en Unicode
Bibliografía comentada de referencias sobre el reconocimiento de caracteres escritos a mano y la computación con lápiz.