stringtranslate.com

Reconocimiento de escritura a mano

Firma de la estrella del country Tex Williams

El reconocimiento de escritura a mano ( HWR ), también conocido como reconocimiento de texto escrito a mano ( HTR ), es la capacidad de una computadora para recibir e interpretar una entrada manuscrita inteligible de fuentes como documentos en papel , fotografías , pantallas táctiles y otros dispositivos. [1] [2] La imagen del texto escrito puede detectarse "fuera de línea" desde una hoja de papel mediante escaneo óptico ( reconocimiento óptico de caracteres ) o reconocimiento inteligente de palabras . Alternativamente, los movimientos de la punta del lápiz pueden detectarse "en línea", por ejemplo, mediante la superficie de la pantalla de una computadora basada en lápiz, una tarea generalmente más fácil ya que hay más pistas disponibles. Un sistema de reconocimiento de escritura a mano maneja el formato, realiza la segmentación correcta en caracteres y encuentra la mayor cantidad de palabras posibles.

Reconocimiento offline

El reconocimiento de escritura a mano sin conexión implica la conversión automática del texto de una imagen en códigos de letras que se pueden utilizar en aplicaciones informáticas y de procesamiento de texto. Los datos obtenidos de esta forma se consideran una representación estática de la escritura a mano. El reconocimiento de escritura a mano sin conexión es comparativamente difícil, ya que cada persona tiene un estilo de escritura diferente. Y, a día de hoy, los motores de OCR se centran principalmente en el texto impreso a máquina y el ICR en el texto "impreso" a mano (escrito en letras mayúsculas).

Técnicas tradicionales

Extracción de caracteres

El reconocimiento de caracteres sin conexión suele implicar el escaneo de un formulario o documento. Esto significa que será necesario extraer los caracteres individuales contenidos en la imagen escaneada. Existen herramientas capaces de realizar este paso. [3] Sin embargo, existen varias imperfecciones comunes en este paso. La más común es cuando los caracteres que están conectados se devuelven como una sola subimagen que contiene ambos caracteres. Esto causa un problema importante en la etapa de reconocimiento. Sin embargo, existen muchos algoritmos disponibles que reducen el riesgo de caracteres conectados.

Reconocimiento de caracteres

Una vez extraídos los caracteres individuales, se utiliza un motor de reconocimiento para identificar el carácter informático correspondiente. Actualmente existen varias técnicas de reconocimiento diferentes.

Extracción de características

La extracción de características funciona de manera similar a los reconocedores de redes neuronales. Sin embargo, los programadores deben determinar manualmente las propiedades que consideran importantes. Este enfoque le otorga al reconocedor más control sobre las propiedades utilizadas en la identificación. Sin embargo, cualquier sistema que utilice este enfoque requiere un tiempo de desarrollo sustancialmente mayor que una red neuronal porque las propiedades no se aprenden automáticamente.

Técnicas modernas

Mientras que las técnicas tradicionales se centran en la segmentación de caracteres individuales para su reconocimiento, las técnicas modernas se centran en el reconocimiento de todos los caracteres en una línea de texto segmentada. En particular, se centran en técnicas de aprendizaje automático que pueden aprender características visuales, evitando la ingeniería de características limitante utilizada anteriormente. Los métodos de última generación utilizan redes convolucionales para extraer características visuales en varias ventanas superpuestas de una imagen de línea de texto que una red neuronal recurrente utiliza para producir probabilidades de caracteres. [4]

Reconocimiento en línea

El reconocimiento de escritura a mano en línea implica la conversión automática del texto tal como se escribe en un digitalizador especial o PDA , donde un sensor detecta los movimientos de la punta del lápiz, así como el cambio de lápiz hacia arriba o hacia abajo. Este tipo de datos se conoce como tinta digital y puede considerarse una representación digital de la escritura a mano. La señal obtenida se convierte en códigos de letras que se pueden utilizar en aplicaciones informáticas y de procesamiento de texto.

Los elementos de una interfaz de reconocimiento de escritura a mano en línea generalmente incluyen:

El proceso de reconocimiento de escritura a mano en línea se puede dividir en algunos pasos generales:

El propósito del preprocesamiento es descartar información irrelevante en los datos de entrada, que puede afectar negativamente el reconocimiento. [5] Esto se refiere a la velocidad y precisión. El preprocesamiento generalmente consiste en binarización, normalización, muestreo, suavizado y eliminación de ruido. [6] El segundo paso es la extracción de características. Del campo vectorial bidimensional o superior recibido de los algoritmos de preprocesamiento, se extraen datos de mayor dimensión. El propósito de este paso es resaltar información importante para el modelo de reconocimiento. Estos datos pueden incluir información como la presión del lápiz, la velocidad o los cambios de dirección de escritura. El último gran paso es la clasificación. En este paso, se utilizan varios modelos para asignar las características extraídas a diferentes clases y, así, identificar los caracteres o palabras que representan las características.

Hardware

A principios de los años 1980 se introdujeron productos comerciales que incorporaban el reconocimiento de escritura a mano como reemplazo de la entrada mediante teclado. Algunos ejemplos incluyen terminales de escritura a mano como Pencept Penpad [7] y el terminal de punto de venta Inforite [8] . Con la llegada del gran mercado de consumo de computadoras personales, se introdujeron varios productos comerciales para reemplazar el teclado y el mouse en una computadora personal con un solo sistema de apuntado/escritura a mano, como los de Pencept, [9] CIC [10] y otros. La primera computadora portátil tipo tableta disponible comercialmente fue GRiDPad de GRiD Systems , lanzada en septiembre de 1989. Su sistema operativo se basaba en MS-DOS .

A principios de los años 90, los fabricantes de hardware, entre ellos NCR , IBM y EO, lanzaron al mercado tabletas que ejecutaban el sistema operativo PenPoint, desarrollado por GO Corp. PenPoint utilizaba reconocimiento de escritura a mano y gestos en todo momento y proporcionaba las funciones a software de terceros. La tableta de IBM fue la primera en utilizar el nombre ThinkPad y utilizó el reconocimiento de escritura a mano de IBM. Este sistema de reconocimiento se trasladó posteriormente a Microsoft Windows para Pen Computing y a Pen de IBM para OS/2. Ninguno de estos sistemas tuvo éxito comercial.

Los avances en electrónica permitieron que la potencia de cálculo necesaria para el reconocimiento de escritura a mano cupiera en un factor de forma más pequeño que las computadoras tipo tableta, y el reconocimiento de escritura a mano se usa a menudo como método de entrada para PDA portátiles . El primer PDA que proporcionaba entrada escrita fue Apple Newton , que expuso al público a la ventaja de una interfaz de usuario optimizada. Sin embargo, el dispositivo no fue un éxito comercial, debido a la poca fiabilidad del software, que intentaba aprender los patrones de escritura del usuario. En el momento del lanzamiento de Newton OS 2.0, en el que el reconocimiento de escritura a mano se mejoró enormemente, incluyendo características únicas que todavía no se encuentran en los sistemas de reconocimiento actuales, como la corrección de errores sin modo, la primera impresión en gran medida negativa ya había sido causada. Después de la discontinuación de Apple Newton , la característica se incorporó en Mac OS X 10.2 y más tarde como Inkwell .

Más tarde, Palm lanzó una exitosa serie de PDA basados ​​en el sistema de reconocimiento de Graffiti . Graffiti mejoró la usabilidad al definir un conjunto de "unistrokes", o formas de un solo trazo, para cada carácter. Esto redujo la posibilidad de entrada errónea, aunque la memorización de los patrones de trazo aumentó la curva de aprendizaje para el usuario. Se descubrió que el reconocimiento de escritura a mano de Graffiti infringía una patente de Xerox, y Palm reemplazó a Graffiti con una versión con licencia del reconocimiento de escritura a mano CIC que, si bien también admitía formas de un solo trazo, era anterior a la patente de Xerox. La sentencia de infracción del tribunal fue revocada en apelación, y luego revocada nuevamente en una apelación posterior. Posteriormente, las partes involucradas negociaron un acuerdo sobre esta y otras patentes.

Una Tablet PC es una computadora portátil con una tableta digitalizadora y un lápiz óptico, que permite al usuario escribir texto a mano en la pantalla de la unidad. El sistema operativo reconoce la escritura a mano y la convierte en texto. Windows Vista y Windows 7 incluyen funciones de personalización que aprenden los patrones de escritura o el vocabulario del usuario en inglés, japonés, chino tradicional, chino simplificado y coreano. Las funciones incluyen un "asistente de personalización" que solicita muestras de la escritura a mano del usuario y las utiliza para volver a entrenar el sistema para un reconocimiento más preciso. Este sistema es distinto del sistema de reconocimiento de escritura a mano menos avanzado empleado en su sistema operativo Windows Mobile para PDA.

Aunque el reconocimiento de escritura a mano es una forma de entrada a la que el público se ha acostumbrado, no se ha generalizado su uso ni en ordenadores de sobremesa ni en portátiles. Todavía se acepta en general que la entrada mediante teclado es más rápida y fiable. A partir de 2006 , muchos PDA ofrecen entrada mediante escritura a mano, a veces incluso aceptan la escritura cursiva natural, pero la precisión sigue siendo un problema y algunas personas todavía consideran que incluso un simple teclado en pantalla es más eficiente.

Software

Los primeros programas informáticos podían entender la escritura a mano en letra de imprenta en la que los caracteres estaban separados; sin embargo, la escritura cursiva con caracteres conectados presentaba la paradoja de Sayre , una dificultad relacionada con la segmentación de caracteres. En 1962, Shelia Guberman , que entonces se encontraba en Moscú, escribió el primer programa de reconocimiento de patrones aplicado. [11] Los ejemplos comerciales vinieron de empresas como Communications Intelligence Corporation e IBM.

A principios de los años 90, dos empresas (ParaGraph International y Lexicus) idearon sistemas capaces de reconocer la escritura cursiva. ParaGraph tenía su sede en Rusia y fue fundada por el informático Stepan Pachikov, mientras que Lexicus fue fundada por Ronjon Nag y Chris Kortge, estudiantes de la Universidad de Stanford. El sistema ParaGraph CalliGrapher se implementó en los sistemas Newton de Apple, y el sistema Lexicus Longhand se comercializó para PenPoint y el sistema operativo Windows. Lexicus fue adquirida por Motorola en 1993 y se dedicó a desarrollar sistemas de reconocimiento de escritura china y de texto predictivo para Motorola. ParaGraph fue adquirida en 1997 por SGI y su equipo de reconocimiento de escritura formó una división P&I, que más tarde fue adquirida de SGI por Vadem . Microsoft adquirió el reconocimiento de escritura a mano CalliGrapher y otras tecnologías de tinta digital desarrolladas por P&I de Vadem en 1999.

Wolfram Mathematica (8.0 o posterior) también proporciona una función de reconocimiento de texto o escritura a mano: TextRecognize.

Investigación

Método utilizado para explotar la información contextual en el primer sistema de interpretación de direcciones manuscritas desarrollado por Sargur Srihari y Jonathan Hull [12]

El reconocimiento de escritura a mano cuenta con una comunidad activa de académicos que lo estudian. Las conferencias más importantes sobre reconocimiento de escritura a mano son la Conferencia Internacional sobre Fronteras en Reconocimiento de Escritura a Mano (ICFHR), que se lleva a cabo en años pares, y la Conferencia Internacional sobre Análisis y Reconocimiento de Documentos (ICDAR), que se lleva a cabo en años impares. Ambas conferencias están avaladas por el IEEE y la IAPR . En 2021, las actas de la ICDAR serán publicadas por LNCS , Springer.

Las áreas de investigación activas incluyen:

Resultados desde 2009

Desde 2009, las redes neuronales recurrentes y las redes neuronales de propagación hacia adelante desarrolladas en el grupo de investigación de Jürgen Schmidhuber en el Swiss AI Lab IDSIA han ganado varias competiciones internacionales de escritura a mano. [13] En particular, la memoria a largo plazo bidireccional y multidimensional (LSTM) [14] [15] de Alex Graves et al. ganó tres competiciones de reconocimiento de escritura a mano conectada en la Conferencia Internacional sobre Análisis y Reconocimiento de Documentos (ICDAR) de 2009, sin ningún conocimiento previo sobre los tres idiomas diferentes (francés, árabe, persa ) que se deben aprender. Los recientes métodos de aprendizaje profundo basados ​​en GPU para redes de propagación hacia adelante de Dan Ciresan y colegas en IDSIA ganaron el concurso de reconocimiento de escritura a mano china fuera de línea ICDAR 2011; sus redes neuronales también fueron los primeros reconocedores de patrones artificiales en lograr un rendimiento competitivo para los humanos [16] en el famoso problema de dígitos escritos a mano MNIST [17] de Yann LeCun y colegas en NYU .

Benjamin Graham, de la Universidad de Warwick , ganó un concurso de reconocimiento de escritura china en 2013, con una tasa de error de solo el 2,61 %, utilizando un enfoque de redes neuronales convolucionales que evolucionaron (en 2017) a "redes neuronales convolucionales dispersas". [18] [19]

Véase también

Liza

Referencias

  1. ^ Förstner, Wolfgang (1999). Mustererkennung 1999 : 21. Simposio DAGM Bonn, 15-17. Septiembre de 1999. Joachim M. Buhmann, Annett Faber, Petko Faber. Berlín, Heidelberg: Springer Berlín Heidelberg. ISBN 978-3-642-60243-6.OCLC 913706869  .
  2. ^ Schenk, Joaquín (2010). Mensch-maschine-kommunikation: grundlagen von sprach- und bildbasierten benutzerschnittstellen. Gerhard Rigoll. Heidelberg: Springer. ISBN 978-3-642-05457-0.OCLC 609418875  .
  3. ^ Java OCR, 5 de junio de 2010. Consultado el 5 de junio de 2010.
  4. ^ Puigcerver, Joan. "¿Son realmente necesarias las capas recurrentes multidimensionales para el reconocimiento de textos manuscritos?". Document Analysis and Recognition (ICDAR), 2017, 14.ª Conferencia Internacional de la IAPR sobre. Vol. 1. IEEE, 2017.
  5. ^ Huang, B.; Zhang, Y. y Kechadi, M.; Técnicas de preprocesamiento para el reconocimiento de escritura a mano en línea. Categorización y agrupamiento inteligente de textos , Springer Berlin Heidelberg, 2009, vol. 164, "Estudios en inteligencia computacional", págs. 25-45.
  6. ^ Holzinger, A.; Stocker, C.; Peischl, B. y Simonic, K.-M.; Sobre el uso de la entropía para mejorar el preprocesamiento de la escritura a mano , Entropy 2012, 14, págs. 2324–2350.
  7. ^ Literatura del producto Pencept Penpad (TM) 200, Pencept, Inc., 15 de agosto de 1982
  8. ^ Terminal de reconocimiento de caracteres manuales Inforite, Cadre Systems Limited, Inglaterra, 15 de agosto de 1982
  9. ^ Manual del usuario de Penpad 320, Pencept, Inc., 15 de junio de 1984
  10. ^ Sistema de escritura a mano GrafText (TM) modelo GT-5000, Communication Intelligence Corporation, 15 de enero de 1985
  11. ^ Guberman es el inventor de la tecnología de reconocimiento de escritura a mano que utiliza Microsoft en la actualidad en Windows CE. Fuente: Comunicación In-Q-Tel, 3 de junio de 2003
  12. ^ SN Srihari y EJ Keubert, "Integración de la tecnología de interpretación de direcciones manuscritas en el sistema de lectura remota por computadora del Servicio Postal de los Estados Unidos" Proc. Int. Conf. Document Analysis and Recognition (ICDAR) 1997, IEEE-CS Press, págs. 892-896
  13. ^ Entrevista a Kurzweil AI de 2012 Archivado el 31 de agosto de 2018 en Wayback Machine con Jürgen Schmidhuber sobre las ocho competiciones ganadas por su equipo de Deep Learning entre 2009 y 2012
  14. ^ Graves, Alex; y Schmidhuber, Jürgen; Reconocimiento de escritura a mano sin conexión con redes neuronales recurrentes multidimensionales , en Bengio, Yoshua; Schuurmans, Dale; Lafferty, John; Williams, Chris KI; y Culotta, Aron (eds.), Advances in Neural Information Processing Systems 22 (NIPS'22), 7 al 10 de diciembre de 2009, Vancouver, BC , Neural Information Processing Systems (NIPS) Foundation, 2009, págs. 545–552
  15. ^ A. Graves, M. Liwicki, S. Fernandez, R. Bertolami, H. Bunke, J. Schmidhuber . Un nuevo sistema conexionista para mejorar el reconocimiento de escritura a mano sin restricciones. IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 31, núm. 5, 2009.
  16. ^ DC Ciresan, U. Meier, J. Schmidhuber . Redes neuronales profundas multicolumna para clasificación de imágenes. Conferencia IEEE sobre visión artificial y reconocimiento de patrones CVPR 2012.
  17. ^ LeCun, Y. , Bottou, L., Bengio, Y., y Haffner, P. (1998). Aprendizaje basado en gradientes aplicado al reconocimiento de documentos. Proc. IEEE, 86, págs. 2278–2324.
  18. ^ "Las redes dispersas vienen en ayuda de la gran física". Revista Quanta . Junio ​​de 2023. Consultado el 17 de junio de 2023 .
  19. ^ Graham, Benjamin. "Redes neuronales convolucionales espacialmente dispersas". Preimpresión de arXiv arXiv:1409.6070 (2014).

Enlaces externos