stringtranslate.com

La paradoja de Sayre

La paradoja de Sayre es un dilema que se presenta en el diseño de sistemas automatizados de reconocimiento de escritura a mano . Una afirmación estándar de la paradoja es que una palabra escrita en cursiva no puede reconocerse sin ser segmentada y no puede segmentarse sin ser reconocida. [1] [2] La paradoja fue articulada por primera vez en una publicación de 1973 por Kenneth M. Sayre , en cuyo honor recibió el nombre. [3]

Naturaleza del problema

Es relativamente fácil diseñar sistemas automatizados capaces de reconocer palabras inscritas en un formato impreso. Dichas palabras se segmentan en letras por el mismo acto de escribirlas en la página. Dadas plantillas que coinciden con las formas típicas de las letras en un idioma determinado, las letras individuales pueden identificarse con un alto grado de probabilidad. En casos de ambigüedad, las secuencias probables de letras pueden compararse con una selección de palabras correctamente escritas en ese idioma (llamado léxico ). [4] Si es necesario, se pueden aplicar características sintácticas del idioma para brindar una identificación generalmente precisa de las palabras en cuestión. [5] Los sistemas de reconocimiento de caracteres impresos de este tipo se utilizan comúnmente en el procesamiento de formularios gubernamentales estandarizados, en la clasificación del correo por código postal, etc.

Sin embargo, en la escritura cursiva, las letras que componen una palabra dada suelen fluir secuencialmente sin espacios entre ellas. A diferencia de una secuencia de letras impresas, las letras conectadas en cursiva no están segmentadas de antemano. Aquí es donde entra en juego la paradoja de Sayre. A menos que la palabra ya esté segmentada en letras, no se pueden aplicar técnicas de comparación de plantillas como las descritas anteriormente. Es decir, la segmentación es un requisito previo para el reconocimiento de palabras. Pero no existen técnicas fiables para segmentar una palabra en letras a menos que se haya identificado la palabra en sí. El reconocimiento de palabras requiere la segmentación de letras, y la segmentación de letras requiere el reconocimiento de palabras. No hay forma de que un sistema de reconocimiento de escritura cursiva que emplee técnicas estándar de comparación de plantillas pueda hacer ambas cosas simultáneamente.

Entre las ventajas que se pueden obtener con el uso de sistemas automatizados de reconocimiento de escritura cursiva se incluyen el enrutamiento del correo con direcciones escritas a mano, la lectura de cheques bancarios escritos a mano y la digitalización automática de documentos escritos a mano. [1] Estos son incentivos prácticos para encontrar formas de eludir la paradoja de Sayre.

Evitando la paradoja

Una forma de mejorar los efectos adversos de la paradoja es normalizar las inscripciones de las palabras que se van a reconocer. La normalización equivale a eliminar idiosincrasias en la caligrafía del escritor, como la inclinación inusual de las letras y la inclinación inusual de la línea cursiva. [4] Este procedimiento puede aumentar la probabilidad de una coincidencia correcta con una plantilla de letras, lo que resulta en una mejora incremental en la tasa de éxito del sistema. Sin embargo, dado que la mejora de este tipo todavía depende de una segmentación precisa, sigue estando sujeta a las limitaciones de la paradoja de Sayre. Los investigadores se han dado cuenta de que la única forma de evitar la paradoja es mediante el uso de procedimientos que no dependen de una segmentación precisa. [1]

Direcciones de la investigación actual

La segmentación es precisa en la medida en que coincide con las distinciones entre las letras en las inscripciones reales presentadas al sistema para su reconocimiento (los datos de entrada). Esto a veces se denomina “segmentación explícita”. [4] La “segmentación implícita”, por el contrario, es la división de la línea cursiva en más partes que la cantidad de letras reales en la línea cursiva en sí. El procesamiento de estas “partes implícitas” para lograr la identificación final de palabras requiere procedimientos estadísticos específicos que involucran modelos ocultos de Markov (HMM).

Un modelo de Markov es una representación estadística de un proceso aleatorio, es decir, un proceso en el que los estados futuros son independientes de los estados que se produjeron antes del presente. En un proceso de este tipo, un estado determinado depende únicamente de la probabilidad condicional de que siga al estado inmediatamente anterior. Un ejemplo es una serie de resultados de lanzamientos sucesivos de un dado. Un HMM es un modelo de Markov cuyos estados individuales no se conocen por completo. Las probabilidades condicionales entre estados siguen siendo determinadas, pero las identidades de los estados individuales no se revelan por completo.

El reconocimiento se realiza mediante la comparación de los HMM de las palabras que se van a reconocer con los HMM de palabras del léxico previamente preparados. La mejor coincidencia en un caso determinado se toma para indicar la identidad de la palabra manuscrita en cuestión. Al igual que con los sistemas basados ​​en la segmentación explícita, los sistemas de reconocimiento automático basados ​​en la segmentación implícita se juzgan más o menos exitosos según el porcentaje de identificaciones correctas que logren.

En lugar de técnicas de segmentación explícitas, la mayoría de los sistemas automatizados de reconocimiento de escritura a mano actuales emplean una segmentación implícita junto con procedimientos de comparación basados ​​en HMM. [1] Las restricciones ejemplificadas por la paradoja de Sayre son en gran medida responsables de este cambio de enfoque.

Referencias

  1. ^ abcd Vinciarelli, Alessandro (abril de 2003). Escritura cursiva sin conexión: del reconocimiento de palabras al de texto (PhD). IDIAP.
  2. ^ Fischer, Andreas; Frinken, Volkmar; Bunke, Horst (2013). "Capítulo 17 - Modelos ocultos de Markov para el reconocimiento de escritura cursiva fuera de línea". En Rao, CR ; Govindaraju, Venu (eds.). Handbook of Statistics . Elsevier. págs. 421–442. doi :10.1016/B978-0-444-53859-8.00017-5. ISBN 9780444538598. ISSN  0169-7161.
  3. ^ Sayre, Kenneth M. (1973). "Reconocimiento automático de palabras escritas a mano: informe de un proyecto". Reconocimiento de patrones . 5 (3). Pergamon Press: 213–228. Bibcode :1973PatRe...5..213S. doi :10.1016/0031-3203(73)90044-7. ISSN  0031-3203.
  4. ^ abc Vinciarelli, Alessandro (julio de 2002). "Una encuesta sobre el reconocimiento de palabras cursivas fuera de línea". Reconocimiento de patrones . 35 (7): 1433–1446. Bibcode :2002PatRe..35.1433V. doi :10.1016/S0031-3203(01)00129-7. ISSN  0031-3203.
  5. ^ Maroneze, André O.; Coüasnon, Bertrand; Lemaitre, Aurélie (24 de enero de 2011). Agam, Gady; Viard-Gaudin, Christian (eds.). Introducción de información estadística en un analizador sintáctico para el reconocimiento de imágenes de documentos. Reconocimiento y recuperación de documentos XVIII. Vol. 7874. SPIE. págs. 28–38. doi :10.1117/12.873393.

Enlaces externos