Ingeniería de características

La ingeniería de características es un paso de preprocesamiento en el aprendizaje automático supervisado y el modelado estadístico ^[1] que transforma los datos sin procesar en un conjunto de entradas más eficaz. Cada entrada consta de varios atributos, conocidos como características. Al proporcionar a los modelos información relevante, la ingeniería de características mejora significativamente su precisión predictiva y su capacidad de toma de decisiones. ^[2]^[3]^[4]

Más allá del aprendizaje automático, los principios de la ingeniería de características se aplican en varios campos científicos, incluida la física. Por ejemplo, los físicos construyen números adimensionales como el número de Reynolds en dinámica de fluidos , el número de Nusselt en transferencia de calor y el número de Arquímedes en sedimentación . También desarrollan primeras aproximaciones de soluciones, como soluciones analíticas para la resistencia de los materiales en mecánica. ^[5]

Agrupamiento

Una de las aplicaciones de la ingeniería de características ha sido la agrupación de objetos de características o de objetos de muestra en un conjunto de datos. En particular, la ingeniería de características basada en descomposiciones de matrices/tensores se ha utilizado ampliamente para la agrupación de datos bajo restricciones de no negatividad en los coeficientes de las características. Estas incluyen la factorización matricial no negativa (NMF), ^[6] la factorización trimatriz no negativa (NMTF), ^[7] la descomposición/factorización tensorial no negativa (NTF/NTD) ^[8] , etc. Las restricciones de no negatividad en los coeficientes de los vectores de características extraídos por los algoritmos indicados anteriormente producen una representación basada en partes y diferentes matrices de factores exhiben propiedades de agrupamiento naturales. Se han informado en la literatura varias extensiones de los métodos de ingeniería de características indicados anteriormente, incluida la factorización restringida por ortogonalidad para agrupamiento duro y el aprendizaje de variedades para superar los problemas inherentes a estos algoritmos.

Otra clase de algoritmos de ingeniería de características incluye el aprovechamiento de la estructura oculta común en múltiples conjuntos de datos interrelacionados para obtener un esquema de agrupamiento de consenso (común). Los ejemplos incluyen el algoritmo de clasificación de múltiples vistas basado en la descomposición de la matriz de consenso (MCMD) ^[9] que extrae un esquema de agrupamiento común en múltiples conjuntos de datos. El algoritmo está diseñado para generar dos tipos de etiquetas de clase (agrupamiento de escala variable y de escala invariante), es robusto computacionalmente a la información faltante, puede obtener valores atípicos basados en la forma y la escala y puede manejar datos de alta dimensión de manera efectiva. Las descomposiciones acopladas de matrices y tensores se utilizan popularmente en la ingeniería de características de múltiples vistas. ^[10]

Modelado predictivo

La ingeniería de características en el aprendizaje automático y el modelado estadístico implica seleccionar, crear, transformar y extraer características de datos. Los componentes clave incluyen la creación de características a partir de datos existentes, la transformación e imputación de características faltantes o no válidas, la reducción de la dimensionalidad de los datos mediante métodos como el análisis de componentes principales (PCA), el análisis de componentes independientes (ICA) y el análisis discriminante lineal (LDA), y la selección de las características más relevantes para el entrenamiento del modelo en función de puntuaciones de importancia y matrices de correlación . ^[11]

Las características varían en importancia. ^[12] Incluso características relativamente insignificantes pueden contribuir a un modelo. La selección de características puede reducir la cantidad de características para evitar que un modelo se vuelva demasiado específico para el conjunto de datos de entrenamiento (sobreajuste). ^[13]

La explosión de características ocurre cuando la cantidad de características identificadas es demasiado grande para una estimación o optimización eficaz del modelo. Las causas comunes incluyen:

Plantillas de funciones: implementación de plantillas de funciones en lugar de codificar nuevas funciones
Combinaciones de características: combinaciones que no se pueden representar mediante un sistema lineal

La explosión de características se puede limitar mediante técnicas como: regularización , métodos kernel y selección de características . ^[14]

Automatización

La automatización de la ingeniería de características es un tema de investigación que se remonta a la década de 1990. ^[15] El software de aprendizaje automático que incorpora ingeniería de características automatizada está disponible comercialmente desde 2016. ^[16] La literatura académica relacionada se puede dividir aproximadamente en dos tipos:

El aprendizaje de árboles de decisiones multirelacionales (MRDTL) utiliza un algoritmo supervisado que es similar a un árbol de decisiones .
La síntesis de características profundas utiliza métodos más simples. ^{[ cita requerida ]}

Aprendizaje de árboles de decisión multirrelacionales (MRDTL)

El aprendizaje de árboles de decisión multirrelacionales (MRDTL) extiende los métodos tradicionales de árboles de decisión a las bases de datos relacionales , manejando relaciones de datos complejas entre tablas. Utiliza de manera innovadora gráficos de selección como nodos de decisión , refinados sistemáticamente hasta que se alcanza un criterio de terminación específico. ^[15]

La mayoría de los estudios de MRDTL basan sus implementaciones en bases de datos relacionales, lo que genera muchas operaciones redundantes. Estas redundancias se pueden reducir mediante el uso de técnicas como la propagación de identificadores de tuplas. ^[17]^[18]

Implementaciones de código abierto

Hay una serie de bibliotecas y herramientas de código abierto que automatizan la ingeniería de características en datos relacionales y series de tiempo:

featuretools es una biblioteca de Python para transformar series temporales y datos relacionales en matrices de características para el aprendizaje automático. ^[19]^[20]^[21]
MCMD: Un algoritmo de ingeniería de características de código abierto para la agrupación conjunta de múltiples conjuntos de datos. ^[22]^[23]
OneBM o One-Button Machine combina transformaciones de características y selección de características en datos relacionales con técnicas de selección de características. ^[24]
[OneBM] ayuda a los científicos de datos a reducir el tiempo de exploración de datos, lo que les permite probar y cometer errores en un corto período de tiempo. Por otro lado, permite a los no expertos, que no están familiarizados con la ciencia de datos, extraer rápidamente valor de sus datos con poco esfuerzo, tiempo y costo. ^[25]
La comunidad getML es una herramienta de código abierto para la ingeniería de características automatizada en series de tiempo y datos relacionales. ^[26]^[27] Está implementada en C / C++ con una interfaz Python. ^[28] Se ha demostrado que es al menos 60 veces más rápida que tsflex, tsfresh, tsfel, featuretools o kats. ^[29]
tsfresh es una biblioteca de Python para la extracción de características en datos de series temporales. ^[30] Evalúa la calidad de las características mediante pruebas de hipótesis. ^[31]
tsflex es una biblioteca Python de código abierto para extraer características de datos de series temporales. ^[32] A pesar de estar escrita 100% en Python, se ha demostrado que es más rápida y más eficiente en el uso de la memoria que tsfresh, seglearn o tsfel. ^[33]
seglearn es una extensión para datos de series temporales secuenciales y multivariadas de la biblioteca Python scikit-learn . ^[34]
tsfel es un paquete de Python para la extracción de características en datos de series de tiempo. ^[35]
kats es un conjunto de herramientas de Python para analizar datos de series temporales. ^[36]

Síntesis de características profundas

El algoritmo de síntesis de características profundas (DFS) venció a 615 de 906 equipos humanos en una competencia. ^[37]^[38]

Tiendas de características

El almacén de características es donde se almacenan y organizan las características con el propósito explícito de ser utilizadas para entrenar modelos (por científicos de datos) o hacer predicciones (por aplicaciones que tienen un modelo entrenado). Es una ubicación central donde se pueden crear o actualizar grupos de características creadas a partir de múltiples fuentes de datos diferentes, o crear y actualizar nuevos conjuntos de datos a partir de esos grupos de características para entrenar modelos o para usar en aplicaciones que no desean calcular las características sino simplemente recuperarlas cuando las necesitan para hacer predicciones. ^[39]

Un almacén de características incluye la capacidad de almacenar código utilizado para generar características, aplicar el código a datos sin procesar y proporcionar esas características a los modelos cuando se lo soliciten. Algunas capacidades útiles incluyen el control de versiones de las características y las políticas que rigen las circunstancias en las que se pueden utilizar las características. ^[40]

Los almacenes de características pueden ser herramientas de software independientes o estar integrados en plataformas de aprendizaje automático.

Alternativas

La ingeniería de características puede ser un proceso que requiere mucho tiempo y es propenso a errores, ya que requiere experiencia en el dominio y, a menudo, implica prueba y error. ^[41]^[42] Los algoritmos de aprendizaje profundo se pueden utilizar para procesar un gran conjunto de datos sin procesar sin tener que recurrir a la ingeniería de características. ^[43] Sin embargo, los algoritmos de aprendizaje profundo aún requieren un preprocesamiento y una limpieza cuidadosos de los datos de entrada. ^[44] Además, elegir la arquitectura, los hiperparámetros y el algoritmo de optimización adecuados para una red neuronal profunda puede ser un proceso desafiante e iterativo. ^[45]

Véase también

Referencias

^ Hastie, Trevor; Tibshirani, Robert; Friedman, Jerome H. (2009). Los elementos del aprendizaje estadístico: minería de datos, inferencia y predicción. Springer. ISBN 978-0-387-84884-6.
^ Sharma, Shubham; Nayak, Richi; Bhaskar, Ashish (1 de mayo de 2024). "Ingeniería de características de múltiples vistas para la agrupación conjunta diaria de múltiples conjuntos de datos de tráfico". Transportation Research Part C: Emerging Technologies . 162 : 104607. Bibcode :2024TRPC..16204607S. doi : 10.1016/j.trc.2024.104607 . ISSN 0968-090X.
^ Shalev-Shwartz, Shai; Ben-David, Shai (2014). Comprender el aprendizaje automático: de la teoría a los algoritmos . Cambridge: Cambridge University Press. ISBN 9781107057135.
^ Murphy, Kevin P. (2022). Aprendizaje automático probabilístico . Cambridge, Massachusetts: The MIT Press (Copyright 2022 Massachusetts Institute of Technology, esta obra está sujeta a una licencia Creative Commons CC-BY-NC-ND). ISBN 9780262046824.
^ MacQueron C (2021). MEZCLA SÓLIDO-LÍQUIDO EN TANQUES AGITADOS: Modelado, validación, optimización del diseño y predicción de la calidad de la suspensión (informe). doi :10.13140/RG.2.2.11074.84164/1.
^ Lee, Daniel D.; Seung, H. Sebastian (1999). "Aprendizaje de las partes de los objetos mediante factorización de matrices no negativas". Nature . 401 (6755): 788–791. Bibcode :1999Natur.401..788L. doi :10.1038/44565. ISSN 1476-4687. PMID 10548103.
^ Wang, Hua; Nie, Feiping; Huang, Heng; Ding, Chris (2011). "Agrupamiento conjunto de alto orden basado en trifactorización de matrices no negativas y su rápida implementación". 2011 IEEE 11th International Conference on Data Mining . IEEE. págs. 774–783. doi :10.1109/icdm.2011.109. ISBN 978-1-4577-2075-8.
^ Lim, Lek-Heng; Comon, Pierre (12 de abril de 2009). "Aproximaciones no negativas de tensores no negativos". arXiv : 0903.4530 [cs.NA].
^ Sharma, Shubham; Nayak, Richi; Bhaskar, Ashish (1 de mayo de 2024). "Ingeniería de características de múltiples vistas para la agrupación conjunta diaria de múltiples conjuntos de datos de tráfico". Transportation Research Part C: Emerging Technologies . 162 : 104607. Bibcode :2024TRPC..16204607S. doi : 10.1016/j.trc.2024.104607 . ISSN 0968-090X.
^ Nayak, Richi; Luong, Khanh (2023). "Aprendizaje multiaspecto". Biblioteca de referencia de sistemas inteligentes . 242 . doi :10.1007/978-3-031-33560-0. ISBN 978-3-031-33559-4. ISSN 1868-4394.
^ "Ingeniería de características: lente de aprendizaje automático". docs.aws.amazon.com . Consultado el 1 de marzo de 2024 .
^ "Ingeniería de características" (PDF) . 22 de abril de 2010. Consultado el 12 de noviembre de 2015 .
^ "Ingeniería y selección de características" (PDF) . Alexandre Bouchard-Côté. 1 de octubre de 2009 . Consultado el 12 de noviembre de 2015 .
^ "Ingeniería de características en el aprendizaje automático" (PDF) . Zdenek Zabokrtsky. Archivado desde el original (PDF) el 4 de marzo de 2016. Consultado el 12 de noviembre de 2015 .
^ ab Knobbe AJ, Siebes A, Van Der Wallen D (1999). "Inducción de árboles de decisión multirrelacionales" (PDF) . Principios de minería de datos y descubrimiento de conocimiento . Apuntes de clase en informática. Vol. 1704. págs. 378–383. doi :10.1007/978-3-540-48247-5_46. ISBN 978-3-540-66490-1.
^ "Todo es cuestión de características". Blog de Reality AI . Septiembre de 2017.
^ Yin X, Han J, Yang J, Yu PS (2004). "CrossMine: Clasificación eficiente en múltiples relaciones de bases de datos". Actas. 20.ª Conferencia internacional sobre ingeniería de datos . págs. 399–410. doi :10.1109/ICDE.2004.1320014. ISBN 0-7695-2065-0.S2CID1183403 .
^ Frank R, Moser F, Ester M (2007). "Un método para la clasificación multirrelacional utilizando funciones de agregación de características únicas y múltiples". Descubrimiento de conocimiento en bases de datos: PKDD 2007. Apuntes de clase en informática. Vol. 4702. págs. 430–437. doi :10.1007/978-3-540-74976-9_43. ISBN 978-3-540-74975-2.
^ "¿Qué es Featuretools?" . Consultado el 7 de septiembre de 2022 .
^ "Featuretools: un marco de Python de código abierto para la ingeniería de características automatizada" . Consultado el 7 de septiembre de 2022 .
^ "github: alteryx/featuretools". GitHub . Consultado el 7 de septiembre de 2022 .
^ Sharma, Shubham, mcmd: Marco de clasificación de múltiples vistas basado en la descomposición de la matriz de consenso desarrollado por Shubham Sharma en QUT , consultado el 14 de abril de 2024
^ Sharma, Shubham; Nayak, Richi; Bhaskar, Ashish (1 de mayo de 2024). "Ingeniería de características de múltiples vistas para la agrupación conjunta diaria de múltiples conjuntos de datos de tráfico". Transportation Research Part C: Emerging Technologies . 162 : 104607. Bibcode :2024TRPC..16204607S. doi : 10.1016/j.trc.2024.104607 . ISSN 0968-090X.
^ Thanh Lam, Hoang; Thiebaut, Johann-Michael; Sinn, Mathieu; Chen, Bei; Mai, Tiep; Alkan, Oznur (1 de junio de 2017). "Máquina de un botón para automatizar la ingeniería de características en bases de datos relacionales". arXiv : 1706.00327 [cs.DB].
^ Thanh Lam, Hoang; Thiebaut, Johann-Michael; Sinn, Mathieu; Chen, Bei; Mai, Tiep; Alkan, Oznur (1 de junio de 2017). "Máquina de un botón para automatizar la ingeniería de características en bases de datos relacionales". arXiv : 1706.00327 [cs.DB].
^ "documentación de getML" . Consultado el 7 de septiembre de 2022 .
^ "github: getml/getml-community". GitHub . Consultado el 7 de septiembre de 2022 .
^ "github: getml/getml-community". GitHub . Consultado el 7 de septiembre de 2022 .
^ "github: getml/getml-community". GitHub . Consultado el 7 de septiembre de 2022 .
^ "Documentación de tsfresh" . Consultado el 7 de septiembre de 2022 .
^ "Extracción de características de series temporales en base a pruebas de hipótesis escalables (tsfresh, un paquete de Python)" . Consultado el 7 de septiembre de 2022 .
^ "predict-idlab/tsflex". GitHub . Consultado el 7 de septiembre de 2022 .
^ Van Der Donckt, Jonás; Van Der Donckt, Jeroen; Deprost, Emiel; Van Hoecke, Sofie (2022). "tsflex: procesamiento flexible de series temporales y extracción de características". SoftwareX . 17 : 100971. arXiv : 2111.12429 . Código Bib : 2022SoftX..1700971V. doi :10.1016/j.softx.2021.100971. S2CID 244527198 . Consultado el 7 de septiembre de 2022 .
^ "Guía del usuario de Seglearn" . Consultado el 7 de septiembre de 2022 .
^ "¡Bienvenido a la documentación de TSFEL!" . Consultado el 7 de septiembre de 2022 .
^ "github: facebookresearch/Kats". GitHub . Consultado el 7 de septiembre de 2022 .
^ "Automatización del análisis de big data". 16 de octubre de 2015.
^ Kanter, James Max; Veeramachaneni, Kalyan (2015). "Síntesis de características profundas: hacia la automatización de los esfuerzos en materia de ciencia de datos". Conferencia internacional IEEE sobre ciencia de datos y análisis avanzados (DSAA) de 2015. págs. 1–10. doi :10.1109/DSAA.2015.7344858. ISBN 978-1-4673-8272-4. Número de identificación del sujeto 206610380.
^ "¿Qué es un almacén de características?" . Consultado el 19 de abril de 2022 .
^ "Introducción a las tiendas de características" . Consultado el 15 de abril de 2021 .
^ "Ingeniería de características en el aprendizaje automático". Programa de Educación en Ingeniería (EngEd) | Sección . Consultado el 21 de marzo de 2023 .
^ explorium_admin (25 de octubre de 2021). "5 razones por las que la ingeniería de características es un desafío". Explorium . Consultado el 21 de marzo de 2023 .
^ Spiegelhalter, DJ (2019). El arte de la estadística: aprender de los datos. [Londres] Reino Unido. ISBN 978-0-241-39863-0.OCLC 1064776283 .{{cite book}}: CS1 maint: location missing publisher (link)
^ Sarker IH (noviembre de 2021). "Aprendizaje profundo: una descripción general completa de las técnicas, la taxonomía, las aplicaciones y las direcciones de investigación". SN Computer Science . 2 (6): 420. doi :10.1007/s42979-021-00815-1. PMC 8372231 . PMID 34426802.
^ Bengio, Yoshua (2012), "Recomendaciones prácticas para el entrenamiento basado en gradientes de arquitecturas profundas", Neural Networks: Tricks of the Trade , Lecture Notes in Computer Science, vol. 7700, Berlín, Heidelberg: Springer Berlin Heidelberg, págs. 437–478, arXiv : 1206.5533 , doi :10.1007/978-3-642-35289-8_26, ISBN 978-3-642-35288-1, S2CID 10808461 , consultado el 21 de marzo de 2023

Lectura adicional

Boehmke B, Greenwell B (2019). "Ingeniería de características y objetivos". Aprendizaje automático práctico con R. Chapman y Hall. págs. 41–75. ISBN 978-1-138-49568-5.
Zheng A, Casari A (2018). Ingeniería de características para el aprendizaje automático: principios y técnicas para científicos de datos . O'Reilly. ISBN 978-1-4919-5324-2.
Zumel N, Mount (2020). "Ingeniería de datos y modelado de datos". Ciencia de datos práctica con R (2.ª ed.). Manning. págs. 113–160. ISBN 978-1-61729-587-4.