Extracción de datos

La extracción de datos es el acto o proceso de recuperar datos de fuentes de datos (generalmente no estructuradas o mal estructuradas) para su posterior procesamiento o almacenamiento ( migración de datos ). Por lo tanto, la importación al sistema de extracción intermedio suele ir seguida de una transformación de los datos y, posiblemente, de la adición de metadatos antes de la exportación a otra etapa del flujo de trabajo de datos .

Por lo general, el término extracción de datos se aplica cuando los datos ( experimentales ) se importan por primera vez a una computadora desde fuentes primarias, como dispositivos de medición o registro . Los dispositivos electrónicos actuales suelen presentar un conector eléctrico (por ejemplo, USB ) a través del cual se pueden transmitir " datos sin procesar " a una computadora personal .

Fuentes de datos

Las fuentes de datos no estructurados más comunes incluyen páginas web , correos electrónicos , documentos, archivos PDF , redes sociales, texto escaneado, informes de mainframe, archivos spool, archivos multimedia, etc. La extracción de datos de estas fuentes no estructuradas se ha convertido en un desafío técnico considerable, ya que, si bien históricamente la extracción de datos ha tenido que lidiar con cambios en los formatos de hardware físico, la mayoría de la extracción de datos actual se ocupa de la extracción de datos de estas fuentes de datos no estructurados y de diferentes formatos de software. Este creciente proceso de extracción de datos de la web se conoce como "extracción de datos web" o " web scraping ".

Estructura imponente

El acto de agregar estructura a datos no estructurados adopta varias formas.

Usar la coincidencia de patrones de texto, como expresiones regulares, para identificar estructuras de pequeña o gran escala, por ejemplo, registros en un informe y sus datos asociados de encabezados y pies de página;
Utilizando un enfoque basado en tablas para identificar secciones comunes dentro de un dominio limitado, por ejemplo, en currículos enviados por correo electrónico, identificando habilidades, experiencia laboral previa, calificaciones, etc. utilizando un conjunto estándar de encabezados de uso común (estos diferirían de un idioma a otro), por ejemplo, Educación se puede encontrar en Educación/Calificación/Cursos;
Utilizar el análisis de texto para intentar comprender el texto y vincularlo con otra información

Véase también

Minería de datos , descubrimiento de patrones en grandes conjuntos de datos utilizando estadísticas, conocimiento de bases de datos o aprendizaje automático.
Recuperación de datos , obtención de datos de un sistema de gestión de bases de datos, a menudo utilizando una consulta con un conjunto de criterios.
Extraer, transformar, cargar (ETL), procedimiento para copiar datos de una o más fuentes, transformar los datos en el sistema de origen y copiarlos en un sistema de destino
Extracción de información , extracción automatizada de información estructurada a partir de datos no estructurados o semiestructurados legibles por máquina, como por ejemplo utilizando el procesamiento del lenguaje natural para extraer contenido de imágenes, audio o documentos.

Extracción de datos

Fuentes de datos

Estructura imponente

Véase también

Referencias