Operaciones de datos

DataOps es un conjunto de prácticas, procesos y tecnologías que combina una perspectiva integrada y orientada a procesos sobre los datos con la automatización y los métodos de la ingeniería de software ágil para mejorar la calidad, la velocidad y la colaboración y promover una cultura de mejora continua en el área de análisis de datos . ^[1] Si bien DataOps comenzó como un conjunto de mejores prácticas, ahora ha madurado para convertirse en un enfoque nuevo e independiente para el análisis de datos. ^[2] DataOps se aplica a todo el ciclo de vida de los datos ^[3] desde la preparación de los datos hasta la generación de informes, y reconoce la naturaleza interconectada del equipo de análisis de datos y las operaciones de tecnología de la información. ^[4]

DataOps incorpora la metodología Agile para acortar el tiempo del ciclo de desarrollo de análisis en alineación con los objetivos del negocio. ^[3]

DevOps se centra en la entrega continua aprovechando los recursos de TI bajo demanda y automatizando las pruebas y la implementación de software. Esta fusión del desarrollo de software y las operaciones de TI ha mejorado la velocidad, la calidad, la previsibilidad y la escala de la ingeniería y la implementación de software. Tomando prestados los métodos de DevOps, DataOps busca incorporar estas mismas mejoras al análisis de datos. ^[4]

DataOps utiliza el control estadístico de procesos (CEP) para supervisar y controlar el flujo de análisis de datos. Con el CEP implementado, los datos que fluyen a través de un sistema operativo se supervisan y verifican constantemente para comprobar que funcionan. Si se produce una anomalía, el equipo de análisis de datos puede recibir una notificación mediante una alerta automática. ^[5]

DataOps no está vinculado a una tecnología, arquitectura, herramienta, lenguaje o marco en particular. Las herramientas que respaldan DataOps promueven la colaboración, la orquestación, la calidad, la seguridad, el acceso y la facilidad de uso. ^[6]

Historia

DataOps fue presentado por primera vez por Lenny Liebmann, editor colaborador de InformationWeek , en una publicación de blog en IBM Big Data & Analytics Hub titulada "3 razones por las que DataOps es esencial para el éxito de big data " el 19 de junio de 2014. ^[7] El término DataOps fue popularizado más tarde por Andy Palmer de Tamr y Steph Locke. ^[8]^[4] DataOps es un apodo para "Operaciones de datos". ^[3] 2017 fue un año importante para DataOps con un desarrollo significativo del ecosistema, cobertura de analistas, aumento de búsquedas de palabras clave, encuestas, publicaciones y proyectos de código abierto. ^[9] Gartner nombró a DataOps en el Hype Cycle for Data Management en 2018. ^[10]

Herencia de DataOps de DevOps, Agile y fabricación

Objetivos y filosofía

Se prevé que el volumen de datos crezca a una tasa del 32% CAGR a 180 Zettabytes para el año 2025 (Fuente: IDC). ^[6] DataOps busca proporcionar las herramientas, los procesos y las estructuras organizativas para hacer frente a este aumento significativo de datos. ^[6] La automatización agiliza las demandas diarias de gestión de grandes bases de datos integradas, liberando al equipo de datos para desarrollar nuevos análisis de una manera más eficiente y eficaz. ^[11]^[4] DataOps busca aumentar la velocidad, la confiabilidad y la calidad de los análisis de datos. ^[12] Enfatiza la comunicación, la colaboración, la integración, la automatización, la medición y la cooperación entre científicos de datos , analistas, ingenieros de datos/ETL ( extracción, transformación, carga ), tecnología de la información (TI) y garantía de calidad/gobernanza.

Implementación

Toph Whitmore de Blue Hill Research ofrece estos principios de liderazgo de DataOps para el departamento de tecnología de la información : ^[2]

“Establecer mediciones de progreso y rendimiento en cada etapa del flujo de datos. Siempre que sea posible, comparar los tiempos del ciclo del flujo de datos.
Defina reglas para una capa semántica abstracta. Asegúrese de que todos “hablen el mismo idioma” y estén de acuerdo sobre qué son y qué no son los datos (y los metadatos).
Validar con la “prueba visual”: incluir ciclos de retroalimentación humana orientados a la mejora continua. Los consumidores deben poder confiar en los datos, y eso solo se puede lograr con una validación incremental.
Automatice tantas etapas del flujo de datos como sea posible, incluida BI, ciencia de datos y análisis.
Utilizando información de rendimiento comparativa, identifique los cuellos de botella y luego optimice para solucionarlos. Esto puede requerir una inversión en hardware comercial o la automatización de un paso de ciencia de datos que antes lo proporcionaban personas.
Establecer una disciplina de gobernanza, con especial atención al control de datos bidireccional, la propiedad de los datos, la transparencia y el seguimiento integral del linaje de datos a lo largo de todo el flujo de trabajo.
Proceso de diseño para el crecimiento y la extensibilidad. El modelo de flujo de datos debe estar diseñado para adaptarse al volumen y la variedad de datos. Asegúrese de que las tecnologías habilitadoras tengan un precio asequible para adaptarse al crecimiento de los datos de la empresa”.

Eventos

Datos Opticon ^[13]
Cumbre de operaciones de datos ^[14]
Campeón de operaciones de datos en línea ^[15]

Referencias

^ Ereth, Julian (2018). "DataOps: hacia una definición" (PDF) . Actas de LWDA 2018 : 109.
^ ab "DataOps – It's a Secret" (DataOps: es un secreto). www.datasciencecentral.com . Consultado el 5 de abril de 2017 .
^ abc "¿Qué es DataOps (operaciones de datos)? - Definición de WhatIs.com". SearchDataManagement . Consultado el 5 de abril de 2017 .
^ abcd "De DevOps a DataOps, por Andy Palmer - Tamr Inc". Tamr Inc. 7 de mayo de 2015. Archivado desde el original el 12 de julio de 2018. Consultado el 21 de marzo de 2017 .
^ DataKitchen (7 de marzo de 2017). "Secretos de manufactura esbelta que puedes aplicar al análisis de datos". Medium . Consultado el 24 de agosto de 2017 .
^ abc "¿Qué es DataOps? | Nexla: Plataforma escalable de operaciones de datos para la era del aprendizaje automático". www.nexla.com . Consultado el 7 de septiembre de 2017 .
^ "3 razones por las que DataOps es esencial para el éxito de Big Data". IBM Big Data & Analytics Hub . Consultado el 10 de agosto de 2018 .
^ Mango Solutions: #DataOps: es una cosa (en serio) , consultado el 28 de junio de 2021
^ DataKitchen (19 de diciembre de 2017). «2017: El año de DataOps». data-ops . Consultado el 24 de enero de 2018 .
^ "El ciclo de Gartner para la gestión de datos sitúa a tres tecnologías en la fase de activación de la innovación en 2018". Gartner . Consultado el 19 de julio de 2019 .
^ "5 tendencias que impulsarán el Big Data en 2017". CIO Dive . Consultado el 7 de septiembre de 2017 .
^ "Unravel Data mejora la gestión del rendimiento de aplicaciones para Big Data". Tendencias y aplicaciones de bases de datos . 2017-03-10 . Consultado el 2017-09-07 .
^ "DataOpticon - YouTube". www.youtube.com . Consultado el 28 de junio de 2021 .
^ "DataOps Summit". www.dataopssummit-sf.com . Archivado desde el original el 2021-07-02 . Consultado el 2021-06-28 .
^ Inteligencia, Corinium Global. "DataOps Champions Online 2021 | Corinium". dco-dataops.coriniumintelligence.com . Consultado el 28 de junio de 2021 .