DataOps es un conjunto de prácticas, procesos y tecnologías que combina una perspectiva integrada y orientada a procesos sobre los datos con la automatización y los métodos de la ingeniería de software ágil para mejorar la calidad, la velocidad y la colaboración y promover una cultura de mejora continua en el área de análisis de datos . [1] Si bien DataOps comenzó como un conjunto de mejores prácticas, ahora ha madurado para convertirse en un enfoque nuevo e independiente para el análisis de datos. [2] DataOps se aplica a todo el ciclo de vida de los datos [3] desde la preparación de los datos hasta la generación de informes, y reconoce la naturaleza interconectada del equipo de análisis de datos y las operaciones de tecnología de la información. [4]
DataOps incorpora la metodología Agile para acortar el tiempo del ciclo de desarrollo de análisis en alineación con los objetivos del negocio. [3]
DevOps se centra en la entrega continua aprovechando los recursos de TI bajo demanda y automatizando las pruebas y la implementación de software. Esta fusión del desarrollo de software y las operaciones de TI ha mejorado la velocidad, la calidad, la previsibilidad y la escala de la ingeniería y la implementación de software. Tomando prestados los métodos de DevOps, DataOps busca incorporar estas mismas mejoras al análisis de datos. [4]
DataOps utiliza el control estadístico de procesos (CEP) para supervisar y controlar el flujo de análisis de datos. Con el CEP implementado, los datos que fluyen a través de un sistema operativo se supervisan y verifican constantemente para comprobar que funcionan. Si se produce una anomalía, el equipo de análisis de datos puede recibir una notificación mediante una alerta automática. [5]
DataOps no está vinculado a una tecnología, arquitectura, herramienta, lenguaje o marco en particular. Las herramientas que respaldan DataOps promueven la colaboración, la orquestación, la calidad, la seguridad, el acceso y la facilidad de uso. [6]
DataOps fue presentado por primera vez por Lenny Liebmann, editor colaborador de InformationWeek , en una publicación de blog en IBM Big Data & Analytics Hub titulada "3 razones por las que DataOps es esencial para el éxito de big data " el 19 de junio de 2014. [7] El término DataOps fue popularizado más tarde por Andy Palmer de Tamr y Steph Locke. [8] [4] DataOps es un apodo para "Operaciones de datos". [3] 2017 fue un año importante para DataOps con un desarrollo significativo del ecosistema, cobertura de analistas, aumento de búsquedas de palabras clave, encuestas, publicaciones y proyectos de código abierto. [9] Gartner nombró a DataOps en el Hype Cycle for Data Management en 2018. [10]
Se prevé que el volumen de datos crezca a una tasa del 32% CAGR a 180 Zettabytes para el año 2025 (Fuente: IDC). [6] DataOps busca proporcionar las herramientas, los procesos y las estructuras organizativas para hacer frente a este aumento significativo de datos. [6] La automatización agiliza las demandas diarias de gestión de grandes bases de datos integradas, liberando al equipo de datos para desarrollar nuevos análisis de una manera más eficiente y eficaz. [11] [4] DataOps busca aumentar la velocidad, la confiabilidad y la calidad de los análisis de datos. [12] Enfatiza la comunicación, la colaboración, la integración, la automatización, la medición y la cooperación entre científicos de datos , analistas, ingenieros de datos/ETL ( extracción, transformación, carga ), tecnología de la información (TI) y garantía de calidad/gobernanza.
Toph Whitmore de Blue Hill Research ofrece estos principios de liderazgo de DataOps para el departamento de tecnología de la información : [2]