Formato de almacenamiento de datos orientado a columnas
Apache ORC (Optimized Row Columnar) es un formato de almacenamiento de datos orientado a columnas, gratuito y de código abierto . [3] Es similar a otros formatos de archivos de almacenamiento en columnas disponibles en el ecosistema Hadoop, como RCFile y Parquet . Lo utilizan la mayoría de los marcos de procesamiento de datos Apache Spark , Apache Hive , Apache Flink y Apache Hadoop .
En febrero de 2013, Hortonworks anunció el formato de archivo Optimized Row Columnar (ORC) en colaboración con Facebook . [1]
Un mes después, se anunció el formato Apache Parquet , desarrollado por Cloudera y Twitter . [4]
El formato Apache ORC es compatible con AWS Glue de Amazon . [5]
Historia
Véase también
Referencias
- ^ por Alan Gates (20 de febrero de 2013). "La iniciativa Stinger: hacer que Apache Hive sea 100 veces más rápido". Blog de Hortonworks . Archivado desde el original el 28 de marzo de 2013.
- ^ "Apache ORC - Releases" . Consultado el 21 de agosto de 2024 .
- ^ Yin Huai, Siyuan Ma, Rubao Lee, Owen O'Malley y Xiaodong Zhang (2013). "Comprensión de los conocimientos sobre la estructura básica y las cuestiones esenciales de los métodos de colocación de tablas en clústeres" . VLDB' 39. págs. 1750–1761. CiteSeerX 10.1.1.406.4342 . doi :10.14778/2556549.2556559.
{{cite conference}}
: CS1 maint: varios nombres: lista de autores ( enlace ) - ^ Justin Kestelyn (13 de marzo de 2013). "Presentación de Parquet: almacenamiento en columnas eficiente para Apache Hadoop". Blog de Cloudera . Archivado desde el original el 19 de septiembre de 2016. Consultado el 4 de mayo de 2017 .
- ^ "Uso del formato ORC en AWS Glue". docs.aws.amazon.com . Consultado el 21 de agosto de 2024 .