Flecha apache

Apache Arrow es un marco de software independiente del lenguaje para desarrollar aplicaciones de análisis de datos que procesan datos en columnas . Contiene un formato de memoria estandarizado orientado a columnas que puede representar datos planos y jerárquicos para operaciones analíticas eficientes en hardware de CPU y GPU moderno . ^[2]^[3]^[4]^[5]^[6] Esto reduce o elimina los factores que limitan la viabilidad de trabajar con grandes conjuntos de datos, como el costo, la volatilidad o las restricciones físicas de la memoria dinámica de acceso aleatorio . ^[7]

Interoperabilidad

Arrow se puede utilizar con Apache Parquet , Apache Spark , NumPy , PySpark , pandas y otras bibliotecas de procesamiento de datos. El proyecto incluye bibliotecas de software nativas escritas en C, C++, C#, Go, Java, JavaScript, Julia, MATLAB, Python, R, Ruby y Rust. Arrow permite lecturas sin copia y un acceso e intercambio rápidos de datos sin sobrecarga de serialización entre estos lenguajes y sistemas. ^[2]

Aplicaciones

Arrow se ha utilizado en diversos dominios, incluidos análisis, ^[8] genómica, ^[9]^[7] y computación en la nube. ^[10]

Comparación con Apache Parquet y ORC

Apache Parquet y Apache ORC son ejemplos populares de formatos de datos en columnas en disco. Arrow está diseñado como complemento de estos formatos para procesar datos en memoria. ^[11] Las compensaciones de ingeniería de recursos de hardware para el procesamiento en memoria varían de las asociadas con el almacenamiento en disco. ^[12] Los proyectos Arrow y Parquet incluyen bibliotecas que permiten leer y escribir datos entre los dos formatos. ^[13]

Gobernancia

Apache Arrow fue anunciado por la Apache Software Foundation el 17 de febrero de 2016, ^[14] con un desarrollo liderado por una coalición de desarrolladores de otros proyectos de análisis de datos de código abierto. ^[15]^[16]^[6]^[17]^[18] La base de código inicial y la biblioteca Java fueron sembradas con código de Apache Drill . ^[14]

Referencias

^ "Apache Arrow 13.0.0 (23 de agosto de 2023)". 23 de agosto de 2023. Consultado el 21 de septiembre de 2023 .
^ ab "Apache Arrow y computación distribuida con Kubernetes". 13 de diciembre de 2018.
^ Baer, Tony (17 de febrero de 2016). "Apache Arrow: alineando a los patos en fila... o columna". Seeking Alpha .
^ Baer, Tony (25 de febrero de 2019). "Apache Arrow: el pequeño acelerador de datos que sí lo logró". ZDNet .
^ Hall, Susan (23 de febrero de 2016). "Los diseños en columnas de datos de Apache Arrow podrían acelerar Hadoop y Spark". The New Stack .
^ ab Yegulalp, Serdar (27 de febrero de 2016). "Apache Arrow tiene como objetivo acelerar el acceso a big data". InfoWorld .
^ por Tanveer Ahmad (2019). "ArrowSAM: procesamiento de datos genómicos en memoria a través del marco Apache Arrow". bioRxiv : 741843. doi : 10.1101/741843 .
^ Dinsmore TW (2016). "Análisis en memoria: satisfacer la necesidad de velocidad". Análisis disruptivo . Apress, Berkeley, CA. págs. 97-116. doi :10.1007/978-1-4842-1311-7_5. ISBN . 978-1-4842-1312-4.
^ Versaci F, Pireddu L, Zanetti G (2016). "Genómica escalable: de datos sin procesar a lecturas alineadas en Apache YARN" (PDF) . Conferencia internacional IEEE sobre Big Data : 1232–1241.
^ Maas M, Asanović K, Kubiatowicz J (2017). "El regreso de los entornos de ejecución: replanteando el sistema de entornos de ejecución de lenguajes para la era de la nube 3.0". Actas del 16.º Taller sobre temas de actualidad en sistemas operativos (ACM) : 138–143. doi : 10.1145/3102980.3103003 .
^ Le Dem, Julien. "Apache Arrow y Apache Parquet: por qué necesitábamos proyectos diferentes para datos en columnas, en disco y en memoria". KDnuggets .
^ "Apache Arrow vs. Parquet y ORC: ¿Realmente necesitamos un tercer proyecto Apache para la representación de datos en columnas?". 2017-10-31.
^ "PyArrow: lectura y escritura del formato Apache Parquet".
^ ab "La Apache® Software Foundation anuncia Apache Arrow™ como proyecto de alto nivel". Blog de la Apache Software Foundation . 17 de febrero de 2016. Archivado desde el original el 13 de marzo de 2016.
^ Martin, Alexander J. (17 de febrero de 2016). "La Fundación Apache se apresura a lanzar Apache Arrow como proyecto de alto nivel". The Register .
^ "Big data obtiene un nuevo proyecto de código abierto, Apache Arrow: ofrece mejoras de rendimiento de más de 100 veces en cargas de trabajo analíticas, según la fundación". 17 de febrero de 2016. Archivado desde el original el 27 de julio de 2016. Consultado el 31 de enero de 2018 .
^ Le Dem, Julien (28 de noviembre de 2016). "El primer lanzamiento de Apache Arrow". SD Times .
^ "Julien Le Dem sobre el futuro del procesamiento de datos orientado a columnas con Apache Arrow".

Enlaces externos

Sitio web del proyecto Apache Arrow
Código fuente del proyecto Apache Arrow en GitHub