Aprendizaje automático automatizado

El aprendizaje automático automatizado ( AutoML ) es el proceso de automatización de las tareas de aplicación del aprendizaje automático a problemas del mundo real. Es la combinación de automatización y aprendizaje automático. ^[1]

AutoML incluye potencialmente cada etapa, desde el comienzo con un conjunto de datos sin procesar hasta la construcción de un modelo de aprendizaje automático listo para su implementación. AutoML se propuso como una solución basada en inteligencia artificial para el creciente desafío de aplicar el aprendizaje automático. ^[2]^[3] El alto grado de automatización en AutoML tiene como objetivo permitir que los no expertos hagan uso de modelos y técnicas de aprendizaje automático sin necesidad de que se conviertan en expertos en aprendizaje automático. La automatización del proceso de aplicación del aprendizaje automático de extremo a extremo ofrece además las ventajas de producir soluciones más simples, una creación más rápida de esas soluciones y modelos que a menudo superan a los modelos diseñados a mano. ^[4]

Las técnicas comunes utilizadas en AutoML incluyen la optimización de hiperparámetros , el metaaprendizaje y la búsqueda de arquitectura neuronal .

Comparación con el enfoque estándar

En una aplicación típica de aprendizaje automático, los profesionales tienen un conjunto de puntos de datos de entrada que se utilizarán para el entrenamiento. Es posible que los datos sin procesar no estén en un formato en el que se puedan aplicar todos los algoritmos. Para que los datos sean aptos para el aprendizaje automático, un experto puede tener que aplicar métodos adecuados de preprocesamiento de datos , ingeniería de características , extracción de características y selección de características . Después de estos pasos, los profesionales deben realizar la selección de algoritmos y la optimización de hiperparámetros para maximizar el rendimiento predictivo de su modelo. Si se utiliza el aprendizaje profundo, el experto en aprendizaje automático también debe elegir manualmente la arquitectura de la red neuronal.

Cada uno de estos pasos puede resultar complicado y generar obstáculos importantes para el uso del aprendizaje automático. AutoML tiene como objetivo simplificar estos pasos para los no expertos y facilitarles el uso correcto y eficaz de las técnicas de aprendizaje automático.

AutoML juega un papel importante dentro del enfoque más amplio de automatización de la ciencia de datos , que también incluye tareas desafiantes como la ingeniería de datos, la exploración de datos y la interpretación y predicción de modelos. ^[5]

Objetivos de la automatización

El aprendizaje automático automatizado puede apuntar a varias etapas del proceso de aprendizaje automático. ^[3] Los pasos para automatizar son:

Preparación e ingesta de datos (a partir de datos sin procesar y formatos diversos)
- Detección del tipo de columna ; por ejemplo, booleana, numérica discreta, numérica continua o texto
- Detección de intención de columna; por ejemplo, objetivo/etiqueta, campo de estratificación , característica numérica, característica de texto categórico o característica de texto libre
- Detección de tareas; por ejemplo, clasificación binaria , regresión , agrupamiento o clasificación
Ingeniería de características
- Selección de funciones
- Extracción de características
- Metaaprendizaje y aprendizaje por transferencia
- Detección y manejo de datos sesgados y/o valores faltantes
Selección de modelos : elección del algoritmo de aprendizaje automático que se utilizará, que a menudo incluye múltiples implementaciones de software en competencia
Conjunto : una forma de consenso en la que el uso de múltiples modelos a menudo da mejores resultados que cualquier modelo individual ^[6]
Optimización de hiperparámetros del algoritmo de aprendizaje y caracterización
- Búsqueda de arquitectura neuronal
Selección de pipeline bajo restricciones de tiempo, memoria y complejidad
Selección de métricas de evaluación y procedimientos de validación
Comprobación de problemas
- Detección de fugas
- Detección de errores de configuración
Análisis de los resultados obtenidos
Creación de interfaces de usuario y visualizaciones

Desafíos y limitaciones

Existen varios desafíos clave que se están abordando en torno al aprendizaje automático automatizado. Un gran problema que rodea al campo se conoce como "desarrollo como una industria casera". ^[7] Esta frase se refiere al problema del aprendizaje automático en el que el desarrollo se basa en decisiones manuales y sesgos de los expertos. Esto contrasta con el objetivo del aprendizaje automático, que es crear sistemas que puedan aprender y mejorar a partir de su propio uso y análisis de los datos. Básicamente, es la lucha entre cuánto deben involucrarse los expertos en el aprendizaje de los sistemas frente a cuánta libertad deben darle a las máquinas. Sin embargo, los expertos y los desarrolladores deben ayudar a crear y guiar estas máquinas para prepararlas para su propio aprendizaje. Para crear este sistema, se requiere un trabajo intensivo con conocimiento de algoritmos de aprendizaje automático y diseño de sistemas . ^[8]

Además, otros desafíos incluyen desafíos de metaaprendizaje ^[9] y asignación de recursos computacionales.

Véase también

Referencias

^ Spears, Taylor; Bondo Hansen, Kristian (18 de diciembre de 2023), "El uso y las promesas del aprendizaje automático en los mercados financieros", The Oxford Handbook of the Sociology of Machine Learning , Oxford University Press, ISBN 978-0-19-765360-9, consultado el 10 de junio de 2024
^ Thornton C, Hutter F, Hoos HH, Leyton-Brown K (2013). Auto-WEKA: Selección combinada y optimización de hiperparámetros de algoritmos de clasificación. KDD '13 Actas de la 19.ª conferencia internacional ACM SIGKDD sobre descubrimiento de conocimiento y minería de datos. págs. 847–855.
^ ab Hutter F, Caruana R, Bardenet R, Bilenko M, Guyon I, Kegl B y Larochelle H. "AutoML 2014 @ ICML". Taller AutoML 2014 @ ICML . Consultado el 28 de marzo de 2018 .^{[ enlace muerto permanente ]}
^ Olson, RS, Urbanowicz, RJ, Andrews, PC, Lavender, NA, Kidd, LC, Moore, JH (2016). Automatización de la ciencia de datos biomédicos mediante la optimización de la cadena de montaje basada en árboles. En: Squillero, G., Burelli, P. (eds.) Aplicaciones de la computación evolutiva. EvoApplications 2016. Lecture Notes in Computer Science(), vol 9597. Springer, Cham. doi :10.1007/978-3-319-31204-0_9
^ De Bie, Tijl; De Raedt, Luc; Hernández-Orallo, José; Hoos, Holger H.; Smyth, padhraico; Williams, Christopher KI (marzo de 2022). "Automatización de la ciencia de datos". Comunicaciones de la ACM . 65 (3): 76–87. doi : 10.1145/3495256 . hdl : 10251/199907 .
^ Erickson, Nick; Mueller, Jonas; Shirkov, Alexander; Zhang, Hang; Larroy, Pedro; Li, Mu; Smola, Alexander (13 de marzo de 2020). "AutoGluon-Tabular: AutoML robusto y preciso para datos estructurados". arXiv : 2003.06505 [stat.ML].
^ Hutter, Frank; Kotthoff, Lars; Vanschoren, Joaquin, eds. (2019). Aprendizaje automático automatizado: métodos, sistemas, desafíos. La serie Springer sobre desafíos en el aprendizaje automático. Springer Nature. doi :10.1007/978-3-030-05318-5. hdl :20.500.12657/23012. ISBN . 978-3-030-05317-8.
^ Glover, Ellen (2018). "Aprendizaje automático con Python: agrupamiento". Creado en . doi :10.4135/9781526466426.
^ "Desafíos del metaaprendizaje". metalearning.chalearn.org . Consultado el 3 de diciembre de 2023 .

Lectura adicional

"Herramientas de AutoML de código abierto: AutoGluon, TransmogrifAI, Auto-sklearn y NNI". Bizety . 16 de junio de 2020.
Ferreira, Luís, et al. "Una comparación de herramientas AutoML para aprendizaje automático, aprendizaje profundo y XGBoost". Conferencia conjunta internacional sobre redes neuronales (IJCNN) de 2021. IEEE, 2021. https://repositorium.sdum.uminho.pt/bitstream/1822/74125/1/automl_ijcnn.pdf
Feurer, M., Klein, A., Eggensperger, K., Springenberg, J., Blum, M. y Hutter, F. (2015). Aprendizaje automático eficiente y robusto. Avances en sistemas de procesamiento de información neuronal , 28. https://proceedings.neurips.cc/paper_files/paper/2015/file/11d0e6287202fced83f79975ec59a3a6-Paper.pdf