El procesamiento de formularios es un proceso mediante el cual se puede capturar información ingresada en campos de datos y convertirla a un formato electrónico. Esto se puede hacer de forma manual o automática, pero el proceso general es que los datos impresos son completados por personas y luego "capturados" de sus respectivos campos e ingresados en una base de datos u otro formato electrónico.
En el sentido más amplio, los sistemas de procesamiento de formularios pueden abarcar desde el procesamiento de pequeños formularios de solicitud hasta formularios de encuestas a gran escala con varias páginas. Existen varios problemas comunes relacionados con el procesamiento de formularios cuando se realiza de forma manual. Se trata de un proceso que requiere mucho esfuerzo humano, los datos introducidos por el usuario pueden dar lugar a errores tipográficos y muchas horas de trabajo. Si los formularios se procesan mediante aplicaciones controladas por software informático , estos problemas comunes se pueden resolver y minimizar en gran medida. La mayoría de los métodos de procesamiento de formularios abordan las siguientes áreas.
Este método de procesamiento de datos implica que los operadores humanos ingresen los datos que se encuentran en el formulario. El proceso manual de ingreso de datos tiene muchas desventajas en cuanto a velocidad, precisión y costo. Basándose en las velocidades promedio de mecanógrafo profesional de 50 a 80 ppm, [1] se podría estimar generosamente alrededor de doscientas páginas por hora para formularios con quince campos de una palabra (sin contar el tiempo de lectura y clasificación de las páginas). En contraste, los escáneres comerciales modernos pueden escanear y digitalizar hasta 200 páginas por minuto . [2] La segunda desventaja importante del ingreso manual de datos es la probabilidad de errores tipográficos . Al tener en cuenta el costo de la mano de obra y el espacio de trabajo, el ingreso manual de datos es un proceso muy ineficiente.
Este método permite automatizar el procesamiento de datos mediante el uso de plantillas y configuraciones predefinidas. En este caso, una plantilla sería un mapa del documento que detalle dónde se encuentran los campos de datos dentro del formulario o documento. En comparación con el proceso de ingreso manual de datos, los sistemas de ingreso automático de formularios son preferibles, ya que ayudan a reducir los problemas que surgen durante el procesamiento manual de datos.
Los sistemas de ingreso automático de formularios utilizan diferentes tipos de métodos de reconocimiento, como el reconocimiento óptico de caracteres (OCR) para impresión a máquina, la lectura óptica de marcas (OMR) para casillas de verificación/marcas, el reconocimiento de códigos de barras (BCR) para códigos de barras y el reconocimiento inteligente de caracteres (ICR) para impresión a mano.
Con la tecnología del sistema de procesamiento de formularios automatizado, los usuarios pueden procesar documentos desde sus imágenes escaneadas a un formato legible por computadora como ANSI, XML, CSV, PDF o ingresarlos directamente en una base de datos.
El procesamiento de formularios ha evolucionado más allá de la captura básica de datos. El procesamiento de formularios no solo abarca un proceso de reconocimiento, sino que también ayuda a gestionar el ciclo de vida completo de los documentos, que comienza desde el escaneo del documento hasta la extracción de los datos y, a menudo, hasta la entrega a un sistema de back-end. En algunos casos, también puede incluir el procesamiento o la generación de resultados bien formateados mediante cálculos y análisis. Un sistema de procesamiento de formularios automatizado puede ser valioso si existe la necesidad de procesar cientos o miles de imágenes todos los días.
El primer paso para comprender el procesamiento automatizado de formularios es analizar el tipo de formulario del que se desea extraer datos. Los formularios se pueden clasificar en una de dos categorías de alto nivel para el propósito de extraer datos. Se han propuesto cuatro categorías [3] , sin embargo, la industria de captura de documentos ha establecido estas dos:
Aunque los componentes (descritos a continuación) utilizados para la extracción de datos de cada tipo de formulario son los mismos, la forma en que se aplican varía considerablemente según el tipo de documento.
Varios componentes incluidos en el procesamiento de datos mediante un sistema de ingreso automático de formularios incluyen:
El OCR reconoce caracteres alfabéticos, numéricos y acentuados en mayúsculas y minúsculas impresos por máquina, muchos símbolos monetarios , dígitos, símbolos aritméticos, caracteres de puntuación expandidos y más.
ICR reconoce caracteres americanos y europeos escritos a mano utilizando conjuntos de caracteres predefinidos: mayúsculas, minúsculas, alfabetos con combinación de mayúsculas y minúsculas , dígitos, moneda (incluidos $ (dólar), ¢ (centavo), € (euro), £ (libra), ¥ (yen)), caracteres aritméticos y de puntuación (incluidos punto, coma, comilla simple , comilla doble, ! & ( ) ? @ { } \ # % * + – / : ; < = >)
MICR es una tecnología de reconocimiento que facilita el procesamiento de las fuentes MICR de los cheques. Esto minimiza las posibilidades de errores en la compensación de cheques. También es útil para una transferencia de fondos más fácil y rápida. MICR proporciona un método seguro y de alta velocidad para escanear y procesar información.
El reconocimiento óptico de marcas (OMR) identifica burbujas rellenadas a mano o casillas de verificación en formularios impresos. Por lo general, el OMR admite el reconocimiento de marcas simples y múltiples. Los campos que se reconocerán se pueden especificar como cuadrículas (filas por columnas) o burbujas individuales.
El reconocimiento de códigos de barras puede leer más de 20 códigos de barras 1D y 2D de la industria, incluidos Code39, CODABAR, Interleaved 2 of 5 , Code93 y más. Detecta automáticamente todos los códigos de barras en una imagen o en un área específica dentro de la imagen.
El proceso de procesamiento automatizado de formularios normalmente incluye los siguientes pasos:
Si bien el procesamiento automático de formularios tiene muchas ventajas sobre la introducción manual de datos, aún tiene algunas limitaciones. Para lograr la mayor precisión posible, se deben cumplir algunos requisitos previos.
Un factor muy importante a tener en cuenta es la indexación, que determina los metadatos que se utilizarán para describir los datos contenidos en los documentos. Este atributo es quizás el que impulsa la solución de procesamiento de formularios más que cualquier otro.