El procesamiento de documentos es un campo de investigación y un conjunto de procesos de producción destinados a convertir un documento analógico en digital. El procesamiento de documentos no tiene como objetivo simplemente fotografiar o escanear un documento para obtener una imagen digital , sino también hacerlo digitalmente inteligible. Esto incluye extraer la estructura del documento o el diseño y luego el contenido, que puede tomar forma de texto o imágenes. El proceso puede involucrar algoritmos tradicionales de visión por computadora , redes neuronales convolucionales o trabajo manual. Los problemas abordados están relacionados con la segmentación semántica , la detección de objetos , el reconocimiento óptico de caracteres (OCR) , el reconocimiento de texto escrito a mano (HTR) y, más ampliamente, la transcripción , ya sea automática o no. [1] El término también puede incluir la fase de digitalización del documento utilizando un escáner y la fase de interpretación del documento, por ejemplo utilizando procesamiento del lenguaje natural (NLP) o tecnologías de clasificación de imágenes . Se aplica en muchos campos industriales y científicos para la optimización de procesos administrativos, procesamiento de correo y digitalización de archivos analógicos y documentos históricos.
Inicialmente, el procesamiento de documentos era, y hasta cierto punto sigue siendo, una especie de trabajo en línea de producción que se ocupaba del tratamiento de documentos , como cartas y paquetes, con el objetivo de clasificar, extraer o extraer datos en masa. Este trabajo podría realizarse internamente o mediante subcontratación de procesos comerciales . [2] [3] De hecho, el procesamiento de documentos puede implicar algún tipo de trabajo manual externalizado, como el turco mecánico .
Como ejemplo de procesamiento manual de documentos, relativamente reciente en 2007, [4] el procesamiento de documentos para "millones de solicitudes de visa y ciudadanía" implicaba el uso de "aproximadamente 1.000 trabajadores subcontratados" que trabajaban para "administrar la sala de correo y la entrada de datos ".
Si bien el procesamiento de documentos implicaba la entrada de datos a través del teclado mucho antes del uso de un mouse o un escáner de computadora , un artículo de 1990 en The New York Times sobre lo que llamó la " oficina sin papel " afirmaba que "el procesamiento de documentos comienza con el escáner". [5] En este contexto, un ex vicepresidente de Xerox , Paul Strassman, expresó una opinión crítica, afirmando que los ordenadores añaden, en lugar de reducir, el volumen de papel en una oficina. [5] Se decía que los documentos de ingeniería y mantenimiento de un avión pesan "más que el propio avión" [ cita requerida ] .
A medida que avanzó el estado de la técnica , el procesamiento de documentos pasó a manejar "componentes de documentos... como entidades de bases de datos". [6]
Una tecnología llamada procesamiento automático de documentos o, a veces, procesamiento inteligente de documentos (ID), surgió como una forma específica de automatización inteligente de procesos ( IPA ), que combina inteligencia artificial como el aprendizaje automático (ML), el procesamiento del lenguaje natural (NLP) o el reconocimiento inteligente de caracteres (ICE). ) para extraer datos de varios tipos de documentos. [7] [8]
El procesamiento automático de documentos se aplica a una amplia gama de documentos, ya sean estructurados o no. Por ejemplo, en el mundo de los negocios y las finanzas, se pueden utilizar tecnologías para procesar facturas, formularios, órdenes de compra, contratos y billetes en papel. [9] Las instituciones financieras utilizan el procesamiento inteligente de documentos para procesar grandes volúmenes de formularios, como formularios reglamentarios o documentos de préstamos. ID utiliza IA para extraer y clasificar datos de documentos, reemplazando la entrada manual de datos. [10]
En medicina, se han desarrollado métodos de procesamiento de documentos para facilitar el seguimiento de los pacientes y agilizar los procedimientos administrativos, en particular mediante la digitalización de informes médicos o de análisis de laboratorio. El objetivo también es estandarizar las bases de datos médicas. [11] Los algoritmos también se utilizan directamente para ayudar a los médicos en el diagnóstico médico, por ejemplo, mediante el análisis de imágenes de resonancia magnética , [12] [13] o imágenes microscópicas . [14]
El procesamiento de documentos también es muy utilizado en humanidades y humanidades digitales , con el fin de extraer big data históricos de archivos o colecciones patrimoniales. Se desarrollaron enfoques específicos para diversas fuentes, incluidos documentos textuales, como hemerotecas, [15] pero también imágenes, [16] o mapas. [17] [18]
Si, a partir de la década de 1980, los algoritmos tradicionales de visión por computadora se utilizaron ampliamente para resolver problemas de procesamiento de documentos, [19] [20] estos han sido reemplazados gradualmente por tecnologías de redes neuronales en la década de 2010. [21] Sin embargo, en algunos sectores todavía se utilizan tecnologías tradicionales de visión por computadora, a veces junto con redes neuronales.
Muchas tecnologías apoyan el desarrollo del procesamiento de documentos, en particular el reconocimiento óptico de caracteres (OCR) y el reconocimiento de texto escrito a mano (HTR), que permiten la transcripción automática del texto. Los segmentos de texto como tales se identifican mediante algoritmos de detección de instancias u objetos , que en ocasiones también pueden utilizarse para detectar la estructura del documento. La resolución de este último problema a veces también utiliza algoritmos de segmentación semántica .
Estas tecnologías suelen formar el núcleo del procesamiento de documentos. Sin embargo, otros algoritmos pueden intervenir antes o después de estos procesos. De hecho, también intervienen tecnologías de digitalización de documentos , ya sea en forma de escaneo clásico o tridimensional. [22] La digitalización de documentos 3D puede recurrir, en particular, a derivados de la fotogrametría . En ocasiones, también es necesario desarrollar escáneres 2D específicos para adaptarse al tamaño de los documentos o por motivos de ergonomía de escaneo. [16] El procesamiento de documentos también depende de la codificación digital de los documentos en un formato de archivo adecuado . Además, el procesamiento de bases de datos heterogéneas puede depender de tecnologías de clasificación de imágenes .
En el otro extremo de la cadena se encuentran varios algoritmos de finalización de imágenes, extrapolación o limpieza de datos. Para documentos textuales, la interpretación puede utilizar tecnologías de procesamiento del lenguaje natural (NLP).
{{cite book}}
: Mantenimiento CS1: varios nombres: lista de autores ( enlace )