stringtranslate.com

lago de datos

Ejemplo de una base de datos que puede ser utilizada por un lago de datos (en este caso, datos estructurados)

Un lago de datos es un sistema o depósito de datos almacenados en su formato natural/sin procesar, [1] generalmente objetos o archivos. Un lago de datos suele ser un único almacén de datos que incluye copias sin procesar de datos del sistema de origen, datos de sensores, datos sociales, etc. [2] y datos transformados utilizados para tareas como informes , visualización , análisis avanzados y aprendizaje automático . Un lago de datos puede incluir datos estructurados de bases de datos relacionales (filas y columnas), datos semiestructurados ( CSV , registros, XML , JSON ), datos no estructurados ( correos electrónicos , documentos, PDF ) y datos binarios (imágenes, audio , vídeo). [3] Un lago de datos se puede establecer "en las instalaciones" (dentro de los centros de datos de una organización) o "en la nube" (utilizando servicios en la nube de proveedores como Amazon , Microsoft , Oracle Cloud o Google ).

Fondo

James Dixon, entonces director de tecnología de Pentaho , acuñó el término en 2011 [4] para contrastarlo con el data mart , que es un depósito más pequeño de atributos interesantes derivados de datos sin procesar. [5] Al promover los lagos de datos, argumentó que los mercados de datos tienen varios problemas inherentes, como el aislamiento de la información . PricewaterhouseCoopers (PwC) afirmó que los lagos de datos podrían "poner fin a los silos de datos". [6] En su estudio sobre lagos de datos, observaron que las empresas estaban "comenzando a extraer y colocar datos para análisis en un único repositorio basado en Hadoop".

Ejemplos

Muchas empresas utilizan servicios de almacenamiento en la nube como Google Cloud Storage y Amazon S3 o un sistema de archivos distribuido como el sistema de archivos distribuido Apache Hadoop (HDFS). [7] Existe un interés académico gradual en el concepto de lagos de datos. Por ejemplo, el Personal DataLake de la Universidad de Cardiff es un nuevo tipo de lago de datos cuyo objetivo es gestionar big data de usuarios individuales proporcionando un punto único para recopilar, organizar y compartir datos personales. [8]

Un lago de datos anterior (Hadoop 1.0) tenía capacidades limitadas con su procesamiento orientado por lotes ( Map Reduce ) y era el único paradigma de procesamiento asociado con él. Interactuar con el lago de datos significaba tener experiencia en Java con reducción de mapas y herramientas de nivel superior como Apache Pig , Apache Spark y Apache Hive (que por sí solos estaban originalmente orientados por lotes).

Crítica

Los lagos de datos mal administrados han sido llamados jocosamente pantanos de datos. [9]

En junio de 2015, David Needle caracterizó los "llamados lagos de datos" como "una de las formas más controvertidas de gestionar big data ". [10] PwC también tuvo cuidado de señalar en su investigación que no todas las iniciativas de lagos de datos tienen éxito. Citan a Sean Martin, CTO de Cambridge Semantics :

Vemos a clientes creando grandes cementerios de datos, volcando todo en el sistema de archivos distribuido Hadoop (HDFS) y esperando hacer algo con ello en el futuro. Pero luego simplemente pierden la noción de lo que hay allí. El principal desafío no es crear un lago de datos, sino aprovechar las oportunidades que presenta. [6]

Describen que las empresas que construyen lagos de datos exitosos maduran gradualmente su lago a medida que descubren qué datos y metadatos son importantes para la organización.

Otra crítica es que el término "lago de datos" no es útil porque se utiliza de muchas maneras diferentes. [11] Puede usarse para referirse, por ejemplo: a cualquier herramienta o práctica de gestión de datos que no sean almacenes de datos ; una tecnología particular para su implementación; un depósito de datos sin procesar; un centro para descarga ETL ; o un centro central para análisis de autoservicio.

Si bien las críticas a los lagos de datos están justificadas, en muchos casos también se aplican a otros proyectos de datos. [12] Por ejemplo, la definición de “almacén de datos” también es cambiante y no todos los esfuerzos de almacenamiento de datos han tenido éxito. En respuesta a varias críticas, McKinsey señaló [13] que el lago de datos debe verse como un modelo de servicio para entregar valor comercial dentro de la empresa, no como un resultado tecnológico.

Lagos de datos

Los lagos de datos son un enfoque híbrido que puede absorber una variedad de formatos de datos sin procesar como un lago de datos, pero al mismo tiempo proporcionar transacciones ACID y hacer cumplir la calidad de los datos como un almacén de datos . [14] [15] Una arquitectura de data lakehouse intenta abordar varias críticas de los data lakes agregando capacidades de almacenamiento de datos como soporte de transacciones, aplicación de esquemas, gobernanza y soporte para diversas cargas de trabajo. Según Oracle, los data lakehouses combinan el "almacenamiento flexible de datos no estructurados de un lago de datos y las funciones y herramientas de gestión de los almacenes de datos". [dieciséis]

Ver también

Referencias

  1. ^ "La creciente importancia de la calidad del big data". La Mesa Redonda de Datos . 21 de noviembre de 2016 . Consultado el 1 de junio de 2020 .
  2. ^ "¿Qué es un lago de datos?". aws.amazon.com . Consultado el 12 de octubre de 2020 .
  3. ^ Campbell, Chris. "Las cinco diferencias principales entre DataWarehouses y Data Lakes". Granito Azul.com . Archivado desde el original el 14 de marzo de 2016.
  4. ^ Woods, Dan (21 de julio de 2011). "Big data requiere una gran arquitectura". Forbes .
  5. ^ Dixon, James (14 de octubre de 2010). "Pentaho, Hadoop y Data Lakes". Blog de James Dixon . James Dixon . Consultado el 7 de noviembre de 2015 . Si piensa en un datamart como un almacén de agua embotellada (limpia, envasada y estructurada para un fácil consumo), el lago de datos es una gran masa de agua en un estado más natural. El contenido del lago de datos fluye desde una fuente para llenar el lago, y varios usuarios del lago pueden venir a examinarlo, bucear o tomar muestras.
  6. ^ ab Stein, Brian; Morrison, Alan (2014). Lagos de datos y la promesa de datos no aislados (PDF) (Reporte). Pronóstico tecnológico: repensar la integración. PricewaterhouseCoopers.
  7. ^ Tuulos, Ville (22 de septiembre de 2015). "Canalizaciones de datos a escala de petabytes con instancias de Docker, Luigi y Elastic Spot". SiguienteRoll .
  8. ^ Caminante, Coral; Alrehamy, Hassan (2015). "Lago de datos personales con extracción por gravedad de datos". 2015 Quinta Conferencia Internacional del IEEE sobre Big Data y Computación en la Nube . págs. 160-167. doi :10.1109/BDCloud.2015.62. ISBN 978-1-4673-7183-4. S2CID  18024161.
  9. ^ Olavsrud, Thor (8 de junio de 2017). "Tres claves para evitar que su lago de datos se convierta en un pantano de datos". CIO . Consultado el 4 de enero de 2021 .
  10. ^ Needle, David (10 de junio de 2015). "Cumbre de Hadoop: la gestión de Big Data requiere herramientas y técnicas novedosas". Aplicaciones empresariales. Semana electrónica . Consultado el 1 de noviembre de 2015 . Walter Maguire, jefe de tecnología de campo de la Unidad de Negocios Big Data de HP, analizó una de las formas más controvertidas de gestionar big data, los llamados lagos de datos.[ enlace muerto permanente ]
  11. ^ "¿Son noticias falsas los lagos de datos?". Sonra . 8 de agosto de 2017 . Consultado el 10 de agosto de 2017 .
  12. ^ Belov, Vladimir; Kosenkov, Alexander N.; Nikulchev, Evgeny (2021). "Estudio de características experimentales de formatos de almacenamiento de datos para el desarrollo de Data Marts dentro de Data Lakes". Ciencias Aplicadas . 11 (18): 8651. doi : 10.3390/app11188651 .
  13. ^ "Una forma más inteligente de acceder a lagos de datos". McKinsey . 1 de agosto de 2017.
  14. ^ ¿Qué es un Data Lakehouse? | Ladrillos de datos
  15. ^ ¿Qué es un Data Lakehouse? | Copo de nieve
  16. ^ ¿Qué es un Data Lakehouse? | Oráculo

3