Lago de datos

Un lago de datos es un sistema o repositorio de datos almacenados en su formato natural/sin procesar, ^[1] generalmente blobs de objetos o archivos. Un lago de datos suele ser un único almacén de datos que incluye copias sin procesar de datos del sistema de origen, datos de sensores, datos sociales, etc., ^[2] y datos transformados que se utilizan para tareas como informes , visualización , análisis avanzados y aprendizaje automático . Un lago de datos puede incluir datos estructurados de bases de datos relacionales (filas y columnas), datos semiestructurados ( CSV , registros, XML , JSON ), datos no estructurados ( correos electrónicos , documentos, PDF ) y datos binarios (imágenes, audio , video). ^[3] Un lago de datos se puede establecer en las instalaciones (dentro de los centros de datos de una organización) o en la nube (utilizando servicios en la nube ).

Fondo

James Dixon, entonces director de tecnología de Pentaho , acuñó el término en 2011 ^[4] para contrastarlo con el data mart , que es un repositorio más pequeño de atributos interesantes derivados de datos sin procesar. ^[5] Al promover los data lakes, argumentó que los data marts tienen varios problemas inherentes, como el aislamiento de la información . PricewaterhouseCoopers (PwC) dijo que los data lakes podrían "poner fin a los silos de datos". ^[6] En su estudio sobre data lakes, señalaron que las empresas estaban "comenzando a extraer y colocar datos para análisis en un único repositorio basado en Hadoop".

Ejemplos

Muchas empresas utilizan servicios de almacenamiento en la nube, como Google Cloud Storage y Amazon S3 , o un sistema de archivos distribuido, como el sistema de archivos distribuido Apache Hadoop (HDFS). ^[7] Existe un interés académico gradual en el concepto de lagos de datos. Por ejemplo, Personal DataLake de la Universidad de Cardiff es un nuevo tipo de lago de datos que tiene como objetivo gestionar grandes volúmenes de datos de usuarios individuales proporcionando un único punto de recopilación, organización y uso compartido de datos personales. ^[8]

Los primeros lagos de datos, como Hadoop 1.0, tenían capacidades limitadas porque solo admitían el procesamiento orientado a lotes ( Map Reduce ). Para interactuar con ellos se necesitaban conocimientos de Java, Map Reduce y herramientas de nivel superior como Apache Pig , Apache Spark y Apache Hive (que también estaban originalmente orientadas a lotes).

Crítica

A los lagos de datos mal gestionados se los ha llamado jocosamente pantanos de datos. ^[9]

En junio de 2015, David Needle describió los denominados lagos de datos como "una de las formas más controvertidas de gestionar los grandes datos ". ^[10] PwC también tuvo cuidado de señalar en su investigación que no todas las iniciativas de lagos de datos tienen éxito. Citan a Sean Martin, director de tecnología de Cambridge Semantics :

Vemos que los clientes crean grandes cementerios de datos, vuelcan todo en el sistema de archivos distribuido Hadoop (HDFS) y esperan hacer algo con ello en el futuro. Pero luego pierden la noción de lo que hay allí. El principal desafío no es crear un lago de datos, sino aprovechar las oportunidades que presenta. ^[6]

Describen a las empresas que construyen lagos de datos exitosos como aquellas que maduran gradualmente sus lagos a medida que descubren qué datos y metadatos son importantes para la organización.

Otra crítica es que el término lago de datos no es útil porque se utiliza de muchas maneras diferentes. ^[11] Puede utilizarse para referirse, por ejemplo, a: cualquier herramienta o práctica de gestión de datos que no sean almacenes de datos ; una tecnología particular para la implementación; un depósito de datos sin procesar; un centro para la descarga de ETL ; o un centro central para análisis de autoservicio.

Si bien las críticas a los lagos de datos están justificadas, en muchos casos también se aplican a otros proyectos de datos. ^[12] Por ejemplo, la definición de almacén de datos también es cambiante y no todos los esfuerzos de almacenamiento de datos han tenido éxito. En respuesta a varias críticas, McKinsey señaló ^[13] que el lago de datos debería verse como un modelo de servicio para brindar valor comercial dentro de la empresa, no como un resultado tecnológico.

Lagos de datos

Los data lakehouses son un enfoque híbrido que puede ingerir una variedad de formatos de datos sin procesar como un data lake, pero proporcionar transacciones ACID y hacer cumplir la calidad de los datos como un almacén de datos . ^[14]^[15] Una arquitectura de data lakehouse intenta abordar varias críticas a los data lakes agregando capacidades de almacenamiento de datos, como soporte de transacciones, cumplimiento de esquemas, gobernanza y soporte para diversas cargas de trabajo. Según Oracle, los data lakehouses combinan el "almacenamiento flexible de datos no estructurados de un data lake y las características y herramientas de administración de los almacenes de datos". ^[16]

Véase también

Lago de datos de Azure

Referencias

^ "La creciente importancia de la calidad de los macrodatos". The Data Roundtable . 21 de noviembre de 2016 . Consultado el 1 de junio de 2020 .
^ "¿Qué es un lago de datos?". aws.amazon.com . Consultado el 12 de octubre de 2020 .
^ Campbell, Chris. "Las cinco principales diferencias entre los almacenes de datos y los lagos de datos". Blue-Granite.com . Archivado desde el original el 14 de marzo de 2016.
^ Woods, Dan (21 de julio de 2011). "Los macrodatos requieren una gran arquitectura". Forbes .
^ Dixon, James (14 de octubre de 2010). "Pentaho, Hadoop y lagos de datos". Blog de James Dixon . James Dixon . Consultado el 7 de noviembre de 2015 . Si piensa en un datamart como un almacén de agua embotellada (limpia, empaquetada y estructurada para un consumo fácil), el lago de datos es una gran masa de agua en un estado más natural. El contenido del lago de datos fluye desde una fuente para llenar el lago, y varios usuarios del lago pueden venir a examinarlo, sumergirse en él o tomar muestras.
^ ab Stein, Brian; Morrison, Alan (2014). Data lakes and the promise of no siloed data (PDF) (Informe). Pronóstico tecnológico: replanteando la integración. PricewaterhouseCoopers.
^ Tuulos, Ville (22 de septiembre de 2015). "Canalizaciones de datos a escala de petabytes con Docker, Luigi y Elastic Spot Instances". NextRoll .
^ Walker, Coral; Alrehamy, Hassan (2015). "Lago de datos personales con atracción gravitatoria de datos". Quinta conferencia internacional IEEE de 2015 sobre big data y computación en la nube . págs. 160–167. doi :10.1109/BDCloud.2015.62. ISBN 978-1-4673-7183-4.S2CID18024161 .
^ Olavsrud, Thor (8 de junio de 2017). «3 claves para evitar que su lago de datos se convierta en un pantano de datos». CIO . Consultado el 4 de enero de 2021 .
^ Needle, David (10 de junio de 2015). "Hadoop Summit: Wrangling Big Data Requires Novel Tools, Techniques" (Cumbre Hadoop: gestionar los macrodatos requiere nuevas herramientas y técnicas). Aplicaciones empresariales. eWeek . Consultado el 1 de noviembre de 2015. Walter Maguire, tecnólogo jefe de campo de la unidad de negocios de macrodatos de HP, analizó una de las formas más controvertidas de gestionar los macrodatos, los denominados lagos de datos.^{[ enlace muerto permanente ]}
^ "¿Son los lagos de datos una noticia falsa?". Sonra . 8 de agosto de 2017 . Consultado el 10 de agosto de 2017 .
^ Belov, Vladimir; Kosenkov, Alexander N.; Nikulchev, Evgeny (2021). "Estudio experimental de las características de los formatos de almacenamiento de datos para el desarrollo de data marts dentro de data lakes". Applied Sciences . 11 (18): 8651. doi : 10.3390/app11188651 .
^ "Una forma más inteligente de adentrarse en los lagos de datos". McKinsey . 1 de agosto de 2017.
^ ¿ Qué es un Data Lakehouse? | Databricks
^ ¿Qué es un Data Lakehouse? | Copo de nieve
^ ¿Qué es un Data Lakehouse? | Oracle