La extracción de datos es el acto o proceso de recuperar datos de fuentes de datos (generalmente no estructuradas o mal estructuradas) para su posterior procesamiento o almacenamiento ( migración de datos ). Por lo tanto, la importación al sistema de extracción intermedio suele ir seguida de una transformación de los datos y, posiblemente, de la adición de metadatos antes de la exportación a otra etapa del flujo de trabajo de datos .
Por lo general, el término extracción de datos se aplica cuando los datos ( experimentales ) se importan por primera vez a una computadora desde fuentes primarias, como dispositivos de medición o registro . Los dispositivos electrónicos actuales suelen presentar un conector eléctrico (por ejemplo, USB ) a través del cual se pueden transmitir " datos sin procesar " a una computadora personal .
Las fuentes de datos no estructurados más comunes incluyen páginas web , correos electrónicos , documentos, archivos PDF , redes sociales, texto escaneado, informes de mainframe, archivos spool, archivos multimedia, etc. La extracción de datos de estas fuentes no estructuradas se ha convertido en un desafío técnico considerable, ya que, si bien históricamente la extracción de datos ha tenido que lidiar con cambios en los formatos de hardware físico, la mayoría de la extracción de datos actual se ocupa de la extracción de datos de estas fuentes de datos no estructurados y de diferentes formatos de software. Este creciente proceso de extracción de datos de la web se conoce como "extracción de datos web" o " web scraping ".
El acto de agregar estructura a datos no estructurados adopta varias formas.