Un lago de datos es un sistema o repositorio de datos almacenados en su formato natural/sin procesar, [1] generalmente blobs de objetos o archivos. Un lago de datos suele ser un único almacén de datos que incluye copias sin procesar de datos del sistema de origen, datos de sensores, datos sociales, etc., [2] y datos transformados que se utilizan para tareas como informes , visualización , análisis avanzados y aprendizaje automático . Un lago de datos puede incluir datos estructurados de bases de datos relacionales (filas y columnas), datos semiestructurados ( CSV , registros, XML , JSON ), datos no estructurados ( correos electrónicos , documentos, PDF ) y datos binarios (imágenes, audio , video). [3] Un lago de datos se puede establecer en las instalaciones (dentro de los centros de datos de una organización) o en la nube (utilizando servicios en la nube ).
James Dixon, entonces director de tecnología de Pentaho , acuñó el término en 2011 [4] para contrastarlo con el data mart , que es un repositorio más pequeño de atributos interesantes derivados de datos sin procesar. [5] Al promover los data lakes, argumentó que los data marts tienen varios problemas inherentes, como el aislamiento de la información . PricewaterhouseCoopers (PwC) dijo que los data lakes podrían "poner fin a los silos de datos". [6] En su estudio sobre data lakes, señalaron que las empresas estaban "comenzando a extraer y colocar datos para análisis en un único repositorio basado en Hadoop".
Muchas empresas utilizan servicios de almacenamiento en la nube, como Google Cloud Storage y Amazon S3 , o un sistema de archivos distribuido, como el sistema de archivos distribuido Apache Hadoop (HDFS). [7] Existe un interés académico gradual en el concepto de lagos de datos. Por ejemplo, Personal DataLake de la Universidad de Cardiff es un nuevo tipo de lago de datos que tiene como objetivo gestionar grandes volúmenes de datos de usuarios individuales proporcionando un único punto de recopilación, organización y uso compartido de datos personales. [8]
Los primeros lagos de datos, como Hadoop 1.0, tenían capacidades limitadas porque solo admitían el procesamiento orientado a lotes ( Map Reduce ). Para interactuar con ellos se necesitaban conocimientos de Java, Map Reduce y herramientas de nivel superior como Apache Pig , Apache Spark y Apache Hive (que también estaban originalmente orientadas a lotes).
A los lagos de datos mal gestionados se los ha llamado jocosamente pantanos de datos. [9]
En junio de 2015, David Needle describió los denominados lagos de datos como "una de las formas más controvertidas de gestionar los grandes datos ". [10] PwC también tuvo cuidado de señalar en su investigación que no todas las iniciativas de lagos de datos tienen éxito. Citan a Sean Martin, director de tecnología de Cambridge Semantics :
Vemos que los clientes crean grandes cementerios de datos, vuelcan todo en el sistema de archivos distribuido Hadoop (HDFS) y esperan hacer algo con ello en el futuro. Pero luego pierden la noción de lo que hay allí. El principal desafío no es crear un lago de datos, sino aprovechar las oportunidades que presenta. [6]
Describen a las empresas que construyen lagos de datos exitosos como aquellas que maduran gradualmente sus lagos a medida que descubren qué datos y metadatos son importantes para la organización.
Otra crítica es que el término lago de datos no es útil porque se utiliza de muchas maneras diferentes. [11] Puede utilizarse para referirse, por ejemplo, a: cualquier herramienta o práctica de gestión de datos que no sean almacenes de datos ; una tecnología particular para la implementación; un depósito de datos sin procesar; un centro para la descarga de ETL ; o un centro central para análisis de autoservicio.
Si bien las críticas a los lagos de datos están justificadas, en muchos casos también se aplican a otros proyectos de datos. [12] Por ejemplo, la definición de almacén de datos también es cambiante y no todos los esfuerzos de almacenamiento de datos han tenido éxito. En respuesta a varias críticas, McKinsey señaló [13] que el lago de datos debería verse como un modelo de servicio para brindar valor comercial dentro de la empresa, no como un resultado tecnológico.
Los data lakehouses son un enfoque híbrido que puede ingerir una variedad de formatos de datos sin procesar como un data lake, pero proporcionar transacciones ACID y hacer cumplir la calidad de los datos como un almacén de datos . [14] [15] Una arquitectura de data lakehouse intenta abordar varias críticas a los data lakes agregando capacidades de almacenamiento de datos, como soporte de transacciones, cumplimiento de esquemas, gobernanza y soporte para diversas cargas de trabajo. Según Oracle, los data lakehouses combinan el "almacenamiento flexible de datos no estructurados de un data lake y las características y herramientas de administración de los almacenes de datos". [16]
Si piensa en un datamart como un almacén de agua embotellada (limpia, empaquetada y estructurada para un consumo fácil), el lago de datos es una gran masa de agua en un estado más natural. El contenido del lago de datos fluye desde una fuente para llenar el lago, y varios usuarios del lago pueden venir a examinarlo, sumergirse en él o tomar muestras.
Walter Maguire, tecnólogo jefe de campo de la unidad de negocios de macrodatos de HP, analizó una de las formas más controvertidas de gestionar los macrodatos, los denominados lagos de datos.[ enlace muerto permanente ]