Apache Hive

Apache Hive es una infraestructura de almacenamiento de datos construida sobre Hadoop para proporcionar agrupación, consulta, y análisis de datos.

[1] Inicialmente desarrollado por Facebook, Apache Hive es ahora utilizada y desarrollado por otras empresas como Netflix y la Financial Industry Regulatory Authority (FINRA).

Ofrece un lenguaje de consultas basado en SQL llamado HiveQL[5] con esquemas para leer y convertir consultas de forma transparente en MapReduce, Apache Tez[6] y tareas Spark.

Los tres motores de ejecución pueden correr bajo YARN.

[7] Otras características de Hive incluyen: Por defecto, Hive almacena sus metadatos en una base de datos apache Derby, pero puede ser configurado para usar MySQL.