Apache Hive es una infraestructura de almacenamiento de datos construida sobre Hadoop para proporcionar agrupación, consulta, y análisis de datos.
[1] Inicialmente desarrollado por Facebook, Apache Hive es ahora utilizada y desarrollado por otras empresas como Netflix y la Financial Industry Regulatory Authority (FINRA).
Ofrece un lenguaje de consultas basado en SQL llamado HiveQL[5] con esquemas para leer y convertir consultas de forma transparente en MapReduce, Apache Tez[6] y tareas Spark.
Los tres motores de ejecución pueden correr bajo YARN.
[7] Otras características de Hive incluyen: Por defecto, Hive almacena sus metadatos en una base de datos apache Derby, pero puede ser configurado para usar MySQL.