stringtranslate.com

Procesamiento de formularios

El procesamiento de formularios es un proceso mediante el cual se puede capturar información ingresada en campos de datos y convertirla a un formato electrónico. Esto se puede hacer de forma manual o automática, pero el proceso general es que los datos impresos son completados por personas y luego "capturados" de sus respectivos campos e ingresados ​​en una base de datos u otro formato electrónico.

Descripción general

En el sentido más amplio, los sistemas de procesamiento de formularios pueden abarcar desde el procesamiento de pequeños formularios de solicitud hasta formularios de encuestas a gran escala con varias páginas. Existen varios problemas comunes relacionados con el procesamiento de formularios cuando se realiza de forma manual. Se trata de un proceso que requiere mucho esfuerzo humano, los datos introducidos por el usuario pueden dar lugar a errores tipográficos y muchas horas de trabajo. Si los formularios se procesan mediante aplicaciones controladas por software informático , estos problemas comunes se pueden resolver y minimizar en gran medida. La mayoría de los métodos de procesamiento de formularios abordan las siguientes áreas.

Entrada manual de datos

Este método de procesamiento de datos implica que los operadores humanos ingresen los datos que se encuentran en el formulario. El proceso manual de ingreso de datos tiene muchas desventajas en cuanto a velocidad, precisión y costo. Basándose en las velocidades promedio de mecanógrafo profesional de 50 a 80 ppm, [1] se podría estimar generosamente alrededor de doscientas páginas por hora para formularios con quince campos de una palabra (sin contar el tiempo de lectura y clasificación de las páginas). En contraste, los escáneres comerciales modernos pueden escanear y digitalizar hasta 200 páginas por minuto . [2] La segunda desventaja importante del ingreso manual de datos es la probabilidad de errores tipográficos . Al tener en cuenta el costo de la mano de obra y el espacio de trabajo, el ingreso manual de datos es un proceso muy ineficiente.

Procesamiento automatizado de formularios

Este método permite automatizar el procesamiento de datos mediante el uso de plantillas y configuraciones predefinidas. En este caso, una plantilla sería un mapa del documento que detalle dónde se encuentran los campos de datos dentro del formulario o documento. En comparación con el proceso de ingreso manual de datos, los sistemas de ingreso automático de formularios son preferibles, ya que ayudan a reducir los problemas que surgen durante el procesamiento manual de datos.

Los sistemas de ingreso automático de formularios utilizan diferentes tipos de métodos de reconocimiento, como el reconocimiento óptico de caracteres (OCR) para impresión a máquina, la lectura óptica de marcas (OMR) para casillas de verificación/marcas, el reconocimiento de códigos de barras (BCR) para códigos de barras y el reconocimiento inteligente de caracteres (ICR) para impresión a mano.

Con la tecnología del sistema de procesamiento de formularios automatizado, los usuarios pueden procesar documentos desde sus imágenes escaneadas a un formato legible por computadora como ANSI, XML, CSV, PDF o ingresarlos directamente en una base de datos.

El procesamiento de formularios ha evolucionado más allá de la captura básica de datos. El procesamiento de formularios no solo abarca un proceso de reconocimiento, sino que también ayuda a gestionar el ciclo de vida completo de los documentos, que comienza desde el escaneo del documento hasta la extracción de los datos y, a menudo, hasta la entrega a un sistema de back-end. En algunos casos, también puede incluir el procesamiento o la generación de resultados bien formateados mediante cálculos y análisis. Un sistema de procesamiento de formularios automatizado puede ser valioso si existe la necesidad de procesar cientos o miles de imágenes todos los días.

Primer paso: evaluación de la estructura del formulario

El primer paso para comprender el procesamiento automatizado de formularios es analizar el tipo de formulario del que se desea extraer datos. Los formularios se pueden clasificar en una de dos categorías de alto nivel para el propósito de extraer datos. Se han propuesto cuatro categorías [3] , sin embargo, la industria de captura de documentos ha establecido estas dos:

  1. Formularios fijos. Este tipo de formulario se define como aquel en el que los datos a extraer se encuentran siempre en la misma posición absoluta en una página. Esto permite aplicar una especie de cuadrícula de lentes al documento y a cada ocurrencia posterior de este documento para extraer los datos. Un ejemplo de formulario fijo es un formulario de solicitud de crédito típico. [4]
  2. Formulario semiestructurado (o no estructurado). Este tipo de documento es aquel en el que la ubicación de los datos y los campos que los contienen varían de un documento a otro. Este tipo de documento se define quizás más fácilmente por el hecho de que no es un formato fijo. En la industria de captura de documentos, un formulario semiestructurado también se denomina formulario no estructurado. Algunos ejemplos de este tipo de formularios incluyen cartas, contratos y facturas. Según un estudio de AIIM, aproximadamente el 80% de los documentos de una organización se incluyen en la definición de semiestructurados. [5]

Aunque los componentes (descritos a continuación) utilizados para la extracción de datos de cada tipo de formulario son los mismos, la forma en que se aplican varía considerablemente según el tipo de documento.

Componentes

Varios componentes incluidos en el procesamiento de datos mediante un sistema de ingreso automático de formularios incluyen:

  1. OCR – Reconocimiento óptico de caracteres
  2. OMR – Reconocimiento óptico de marcas
  3. ICR – Reconocimiento inteligente de caracteres
  4. BCR – Reconocimiento de códigos de barras
  5. MICR – Reconocimiento de caracteres de tinta magnética

El OCR reconoce caracteres alfabéticos, numéricos y acentuados en mayúsculas y minúsculas impresos por máquina, muchos símbolos monetarios , dígitos, símbolos aritméticos, caracteres de puntuación expandidos y más.

ICR reconoce caracteres americanos y europeos escritos a mano utilizando conjuntos de caracteres predefinidos: mayúsculas, minúsculas, alfabetos con combinación de mayúsculas y minúsculas , dígitos, moneda (incluidos $ (dólar), ¢ (centavo), € (euro), £ (libra), ¥ (yen)), caracteres aritméticos y de puntuación (incluidos punto, coma, comilla simple , comilla doble, ! & ( ) ? @ { } \ # % * + – / : ; < = >)

MICR es una tecnología de reconocimiento que facilita el procesamiento de las fuentes MICR de los cheques. Esto minimiza las posibilidades de errores en la compensación de cheques. También es útil para una transferencia de fondos más fácil y rápida. MICR proporciona un método seguro y de alta velocidad para escanear y procesar información.

El reconocimiento óptico de marcas (OMR) identifica burbujas rellenadas a mano o casillas de verificación en formularios impresos. Por lo general, el OMR admite el reconocimiento de marcas simples y múltiples. Los campos que se reconocerán se pueden especificar como cuadrículas (filas por columnas) o burbujas individuales.

El reconocimiento de códigos de barras puede leer más de 20 códigos de barras 1D y 2D de la industria, incluidos Code39, CODABAR, Interleaved 2 of 5 , Code93 y más. Detecta automáticamente todos los códigos de barras en una imagen o en un área específica dentro de la imagen.

Proceso

El proceso de procesamiento automatizado de formularios normalmente incluye los siguientes pasos:

  1. Se escanea un lote de formularios completados utilizando un escáner de alta velocidad.
  2. Las imágenes se limpian con algoritmos de procesamiento de imágenes de documentos para mejorar la precisión.
  3. Los formularios se clasifican según los formularios de plantilla originales y los campos se extraen utilizando los componentes de reconocimiento adecuados.
  4. Los campos que el sistema marcó con baja confianza se ponen en cola para verificación por parte de un operador humano.
  5. Los datos verificados se guardan en una base de datos o se exportan a un formato de texto que permite realizar búsquedas, como CSV, XML o PDF.

Prerrequisitos

Si bien el procesamiento automático de formularios tiene muchas ventajas sobre la introducción manual de datos, aún tiene algunas limitaciones. Para lograr la mayor precisión posible, se deben cumplir algunos requisitos previos.

  1. Formato de escaneo: incluye el formato del archivo escaneado, resolución y DPI, modo de color
  2. Configuración: El diseño de la imagen escaneada debe configurarse para esta automatización.
  3. Reconocimiento: Los formatos de salida predefinidos
  4. Resultado/análisis: Cualquier formato específico de presentación de datos del resultado del valor de captura.

Un factor muy importante a tener en cuenta es la indexación, que determina los metadatos que se utilizarán para describir los datos contenidos en los documentos. Este atributo es quizás el que impulsa la solución de procesamiento de formularios más que cualquier otro.

Enlaces externos

Referencias

  1. ^ Teresia R. Ostrach (1997), Velocidad de mecanografía: ¿Qué tan rápido es el promedio? (PDF) , archivado desde el original (PDF) el 2 de mayo de 2012
  2. ^ "Kodak presenta el escáner comercial i1860 con capacidad para 200 páginas por minuto". Engadget . Consultado el 4 de noviembre de 2011 .
  3. ^ Kuznetsov, Sergei O.; Mandal, Deba P.; Kundu, Malay K.; Pal, Sankar Kumar (25 de junio de 2011). Reconocimiento de patrones e inteligencia artificial: 4.ª conferencia internacional, PReMI 2011, Moscú, Rusia, 27 de junio - 1 de julio de 2011, Actas. Springer. ISBN 9783642217869.
  4. ^ Vassylyev, Artur (10 de junio de 2008). "CAPTURA DE FORMULARIOS Y DOCUMENTOS SEMIESTRUCTURADOS: DESAFÍOS Y TECNOLOGÍAS DISPONIBLES" (PDF) . Archivado desde el original (PDF) el 28 de abril de 2017. Consultado el 4 de abril de 2017 .
  5. ^ "Procesamiento de formularios: experiencias de usuario de reconocimiento de texto y escritura a mano (OCR/ICR)" (PDF) . Archivado desde el original (PDF) el 28 de abril de 2017 . Consultado el 4 de abril de 2017 .