Impala apache

Apache Impala es un motor de consulta SQL de procesamiento masivo en paralelo (MPP) de código abierto para datos almacenados en un clúster de computadoras que ejecuta Apache Hadoop . ^[1] Impala ha sido descrito como el equivalente de código abierto de Google F1 , que inspiró su desarrollo en 2012. ^[2]

Descripción

Apache Impala es un motor de consultas que se ejecuta en Apache Hadoop. El proyecto se anunció en octubre de 2012 con una distribución de prueba beta pública ^[3]^[4] y estuvo disponible para el público en general en mayo de 2013. ^[5]

Impala aporta tecnología de base de datos paralela escalable a Hadoop, lo que permite a los usuarios realizar consultas SQL de baja latencia a los datos almacenados en HDFS y Apache HBase sin necesidad de mover o transformar los datos. Impala está integrado con Hadoop para utilizar los mismos formatos de archivos y datos, metadatos, seguridad y marcos de gestión de recursos que utilizan MapReduce , Apache Hive , Apache Pig y otros programas de Hadoop.

Impala se promueve para que los analistas y científicos de datos realicen análisis de datos almacenados en Hadoop a través de SQL o herramientas de inteligencia empresarial . El resultado es que se pueden realizar consultas interactivas y procesamiento de datos a gran escala (a través de MapReduce) en el mismo sistema utilizando los mismos datos y metadatos, lo que elimina la necesidad de migrar conjuntos de datos a sistemas especializados o formatos propietarios simplemente para realizar análisis.

Las características incluyen:

Admite almacenamiento HDFS , S3 , ABFS, Apache HBase y Apache Kudu .
Lee formatos de archivos Hadoop, incluidos texto, LZO , SequenceFile, Avro , RCFile , Parquet y ORC
Admite seguridad Hadoop ( autenticación Kerberos , Ldap ),
Autorización basada en roles y de grano fino con Apache Sentry y Apache Ranger
Utiliza metadatos, controlador ODBC y sintaxis SQL de Apache Hive .

A principios de 2013, se anunció un formato de archivo orientado a columnas llamado Parquet para arquitecturas que incluían Impala. ^[6] En diciembre de 2013, Amazon Web Services anunció soporte para Impala. ^[7] A principios de 2014, MapR agregó soporte para Impala. ^[8] En 2015, se anunció otro formato llamado Kudu , que Cloudera propuso donar a la Apache Software Foundation junto con Impala. ^[9] Impala se graduó como un proyecto de nivel superior de Apache (TLP) el 28 de noviembre de 2017. ^[10]

Véase también

Apache Drill : proyecto de código abierto similar inspirado en Dremel
Dremel : herramienta similar de Google
Trino : motor de consultas SQL de código abierto creado por los creadores de Presto
Presto : motor de consultas SQL de código abierto creado por Facebook y respaldado por Teradata

Referencias

^ "Apache Impala" . Consultado el 15 de septiembre de 2017 .
^ Cade Metz (24 de octubre de 2012). "Hombre sale de Google y reconstruye una máquina de consultas ultrasecreta". Revista Wired . Consultado el 10 de octubre de 2016 .
^ Larry Digna (24 de octubre de 2012). "Cloudera pretende llevar consultas en tiempo real a Hadoop, big data". Blog Between the lines . ZDNet . Consultado el 20 de enero de 2014 .
^ Andrew Brust (25 de octubre de 2012). "Cloudera's Impala lleva Hadoop a SQL y BI". ZDNet . Consultado el 20 de enero de 2014 .
^ Marcel Kornacker, Justin Erickson (1 de mayo de 2013). «Cloudera Impala 1.0: ya está aquí, es real, ya es el estándar para SQL en Hadoop». Archivado desde el original el 13 de abril de 2014. Consultado el 10 de abril de 2014 .
^ "Parquet: almacenamiento en columnas para Hadoop". Sitio web del proyecto . 2013. Consultado el 20 de enero de 2014 .
^ "Anuncio de compatibilidad con Impala con Amazon Elastic MapReduce". Amazon.com. 12 de diciembre de 2013. Consultado el 20 de enero de 2014 .
^ "Impala para MapR". MapR.com. 2 de febrero de 2014. Consultado el 10 de abril de 2014 .
^ David Ramel (18 de noviembre de 2015). "Cloudera donará proyectos de Big Data de Impala y Kudu a Apache". Tendencias de desarrollo de aplicaciones . Consultado el 10 de octubre de 2016 .
^ "La Apache Software Foundation anuncia a Apache Impala como un proyecto de alto nivel". 28 de noviembre de 2017. Consultado el 30 de noviembre de 2017 .

Enlaces externos

Sitio web del proyecto Apache Impala
Código fuente del proyecto GitHub de Impala