Un lago de datos es un sistema o depósito de datos almacenados en su formato natural/sin procesar, [1] generalmente objetos o archivos. Un lago de datos suele ser un único almacén de datos que incluye copias sin procesar de datos del sistema de origen, datos de sensores, datos sociales, etc. [2] y datos transformados utilizados para tareas como informes , visualización , análisis avanzados y aprendizaje automático . Un lago de datos puede incluir datos estructurados de bases de datos relacionales (filas y columnas), datos semiestructurados ( CSV , registros, XML , JSON ), datos no estructurados ( correos electrónicos , documentos, PDF ) y datos binarios (imágenes, audio , vídeo). [3] Un lago de datos se puede establecer "en las instalaciones" (dentro de los centros de datos de una organización) o "en la nube" (utilizando servicios en la nube de proveedores como Amazon , Microsoft , Oracle Cloud o Google ).
James Dixon, entonces director de tecnología de Pentaho , acuñó el término en 2011 [4] para contrastarlo con el data mart , que es un depósito más pequeño de atributos interesantes derivados de datos sin procesar. [5] Al promover los lagos de datos, argumentó que los mercados de datos tienen varios problemas inherentes, como el aislamiento de la información . PricewaterhouseCoopers (PwC) afirmó que los lagos de datos podrían "poner fin a los silos de datos". [6] En su estudio sobre lagos de datos, observaron que las empresas estaban "comenzando a extraer y colocar datos para análisis en un único repositorio basado en Hadoop".
Muchas empresas utilizan servicios de almacenamiento en la nube como Google Cloud Storage y Amazon S3 o un sistema de archivos distribuido como el sistema de archivos distribuido Apache Hadoop (HDFS). [7] Existe un interés académico gradual en el concepto de lagos de datos. Por ejemplo, el Personal DataLake de la Universidad de Cardiff es un nuevo tipo de lago de datos cuyo objetivo es gestionar big data de usuarios individuales proporcionando un punto único para recopilar, organizar y compartir datos personales. [8]
Un lago de datos anterior (Hadoop 1.0) tenía capacidades limitadas con su procesamiento orientado por lotes ( Map Reduce ) y era el único paradigma de procesamiento asociado con él. Interactuar con el lago de datos significaba tener experiencia en Java con reducción de mapas y herramientas de nivel superior como Apache Pig , Apache Spark y Apache Hive (que por sí solos estaban originalmente orientados por lotes).
Los lagos de datos mal administrados han sido llamados jocosamente pantanos de datos. [9]
En junio de 2015, David Needle caracterizó los "llamados lagos de datos" como "una de las formas más controvertidas de gestionar big data ". [10] PwC también tuvo cuidado de señalar en su investigación que no todas las iniciativas de lagos de datos tienen éxito. Citan a Sean Martin, CTO de Cambridge Semantics :
Vemos a clientes creando grandes cementerios de datos, volcando todo en el sistema de archivos distribuido Hadoop (HDFS) y esperando hacer algo con ello en el futuro. Pero luego simplemente pierden la noción de lo que hay allí. El principal desafío no es crear un lago de datos, sino aprovechar las oportunidades que presenta. [6]
Describen que las empresas que construyen lagos de datos exitosos maduran gradualmente su lago a medida que descubren qué datos y metadatos son importantes para la organización.
Otra crítica es que el término "lago de datos" no es útil porque se utiliza de muchas maneras diferentes. [11] Puede usarse para referirse, por ejemplo: a cualquier herramienta o práctica de gestión de datos que no sean almacenes de datos ; una tecnología particular para su implementación; un depósito de datos sin procesar; un centro para descarga ETL ; o un centro central para análisis de autoservicio.
Si bien las críticas a los lagos de datos están justificadas, en muchos casos también se aplican a otros proyectos de datos. [12] Por ejemplo, la definición de “almacén de datos” también es cambiante y no todos los esfuerzos de almacenamiento de datos han tenido éxito. En respuesta a varias críticas, McKinsey señaló [13] que el lago de datos debe verse como un modelo de servicio para entregar valor comercial dentro de la empresa, no como un resultado tecnológico.
Los lagos de datos son un enfoque híbrido que puede absorber una variedad de formatos de datos sin procesar como un lago de datos, pero al mismo tiempo proporcionar transacciones ACID y hacer cumplir la calidad de los datos como un almacén de datos . [14] [15] Una arquitectura de data lakehouse intenta abordar varias críticas de los data lakes agregando capacidades de almacenamiento de datos como soporte de transacciones, aplicación de esquemas, gobernanza y soporte para diversas cargas de trabajo. Según Oracle, los data lakehouses combinan el "almacenamiento flexible de datos no estructurados de un lago de datos y las funciones y herramientas de gestión de los almacenes de datos". [dieciséis]
Si piensa en un datamart como un almacén de agua embotellada (limpia, envasada y estructurada para un fácil consumo), el lago de datos es una gran masa de agua en un estado más natural. El contenido del lago de datos fluye desde una fuente para llenar el lago, y varios usuarios del lago pueden venir a examinarlo, bucear o tomar muestras.
Walter Maguire, jefe de tecnología de campo de la Unidad de Negocios Big Data de HP, analizó una de las formas más controvertidas de gestionar big data, los llamados lagos de datos.[ enlace muerto permanente ]
3