ORC Apache

Apache ORC (Optimized Row Columnar) es un formato de almacenamiento de datos orientado a columnas, gratuito y de código abierto . ^[3] Es similar a otros formatos de archivos de almacenamiento en columnas disponibles en el ecosistema Hadoop, como RCFile y Parquet . Lo utilizan la mayoría de los marcos de procesamiento de datos Apache Spark , Apache Hive , Apache Flink y Apache Hadoop .

En febrero de 2013, Hortonworks anunció el formato de archivo Optimized Row Columnar (ORC) en colaboración con Facebook . ^[1] Un mes después, se anunció el formato Apache Parquet , desarrollado por Cloudera y Twitter . ^[4]

El formato Apache ORC es compatible con AWS Glue de Amazon . ^[5]

Historia

^ por Alan Gates (20 de febrero de 2013). "La iniciativa Stinger: hacer que Apache Hive sea 100 veces más rápido". Blog de Hortonworks . Archivado desde el original el 28 de marzo de 2013.
^ "Apache ORC - Releases" . Consultado el 21 de agosto de 2024 .
^ Yin Huai, Siyuan Ma, Rubao Lee, Owen O'Malley y Xiaodong Zhang (2013). "Comprensión de los conocimientos sobre la estructura básica y las cuestiones esenciales de los métodos de colocación de tablas en clústeres" . VLDB' 39. págs. 1750–1761. CiteSeerX 10.1.1.406.4342 . doi :10.14778/2556549.2556559. {{cite conference}}: CS1 maint: varios nombres: lista de autores ( enlace )
^ Justin Kestelyn (13 de marzo de 2013). "Presentación de Parquet: almacenamiento en columnas eficiente para Apache Hadoop". Blog de Cloudera . Archivado desde el original el 19 de septiembre de 2016. Consultado el 4 de mayo de 2017 .
^ "Uso del formato ORC en AWS Glue". docs.aws.amazon.com . Consultado el 21 de agosto de 2024 .