Proceso de automatización de la aplicación del aprendizaje automático.
El aprendizaje automático automatizado ( AutoML ) es el proceso de automatizar las tareas de aplicar el aprendizaje automático a problemas del mundo real.
AutoML incluye potencialmente todas las etapas, desde comenzar con un conjunto de datos sin procesar hasta crear un modelo de aprendizaje automático listo para su implementación. AutoML se propuso como una solución basada en inteligencia artificial para el creciente desafío de aplicar el aprendizaje automático. [1] [2] El alto grado de automatización en AutoML tiene como objetivo permitir que los no expertos hagan uso de modelos y técnicas de aprendizaje automático sin necesidad de convertirse en expertos en aprendizaje automático. La automatización del proceso de aplicación del aprendizaje automático de un extremo a otro ofrece además las ventajas de producir soluciones más simples, una creación más rápida de esas soluciones y modelos que a menudo superan a los modelos diseñados a mano. [3]
Las técnicas comunes utilizadas en AutoML incluyen optimización de hiperparámetros , metaaprendizaje y búsqueda de arquitectura neuronal .
Comparación con el enfoque estándar
En una aplicación típica de aprendizaje automático, los profesionales tienen un conjunto de puntos de datos de entrada que se utilizarán para la capacitación. Es posible que los datos sin procesar no estén en una forma a la que se puedan aplicar todos los algoritmos. Para que los datos sean aptos para el aprendizaje automático, es posible que un experto deba aplicar métodos apropiados de preprocesamiento de datos , ingeniería de características , extracción de características y selección de características . Después de estos pasos, los profesionales deben realizar la selección de algoritmos y la optimización de hiperparámetros para maximizar el rendimiento predictivo de su modelo. Si se utiliza el aprendizaje profundo, el experto en aprendizaje automático también debe elegir la arquitectura de la red neuronal.
Cada uno de estos pasos puede ser un desafío, lo que resulta en obstáculos importantes para el uso del aprendizaje automático. AutoML tiene como objetivo simplificar estos pasos para los no expertos y facilitarles el uso correcto y eficaz de las técnicas de aprendizaje automático.
AutoML desempeña un papel importante dentro del enfoque más amplio de la automatización de la ciencia de datos , que también incluye tareas desafiantes como ingeniería de datos, exploración de datos e interpretación y predicción de modelos. [4]
Objetivos de la automatización
El aprendizaje automático automatizado puede apuntar a varias etapas del proceso de aprendizaje automático. [2] Los pasos para automatizar son:
- Preparación e ingesta de datos (a partir de datos sin procesar y formatos diversos)
- Detección de tipo de columna ; por ejemplo, booleano, numérico discreto, numérico continuo o texto
- Detección de intención de columna; por ejemplo, objetivo/etiqueta, campo de estratificación , característica numérica, característica de texto categórico o característica de texto libre
- Detección de tareas; por ejemplo, clasificación binaria , regresión , agrupamiento o clasificación
- Ingeniería de características
- Selección de modelo : elegir qué algoritmo de aprendizaje automático utilizar, que a menudo incluye múltiples implementaciones de software competidoras.
- Conjunto : una forma de consenso en la que el uso de múltiples modelos a menudo da mejores resultados que cualquier modelo único [5]
- Optimización de hiperparámetros del algoritmo de aprendizaje y caracterización.
- Selección de canalizaciones bajo limitaciones de tiempo, memoria y complejidad.
- Selección de métricas de evaluación y procedimientos de validación.
- Comprobación de problemas
- Detección de fugas
- Detección de configuración incorrecta
- Análisis de resultados obtenidos.
- Creación de interfaces de usuario y visualizaciones.
Desafíos y limitaciones
Hay una serie de desafíos clave que se están abordando en torno al aprendizaje automático automatizado. Un gran problema que rodea a este campo se denomina "desarrollo como industria artesanal". [6] Esta frase se refiere al problema del aprendizaje automático donde el desarrollo se basa en decisiones manuales y sesgos de los expertos. Esto contrasta con el objetivo del aprendizaje automático, que es crear sistemas que puedan aprender y mejorar a partir de su propio uso y análisis de los datos. Básicamente, es la lucha entre cuánto deberían involucrarse los expertos en el aprendizaje de los sistemas y cuánta libertad deberían darles a las máquinas. Sin embargo, los expertos y desarrolladores deben ayudar a crear y guiar estas máquinas para prepararlas para su propio aprendizaje. Para crear este sistema, se requiere un trabajo intensivo con conocimiento de algoritmos de aprendizaje automático y diseño de sistemas . [7]
Además, algunos otros desafíos incluyen desafíos de metaaprendizaje [8] y asignación de recursos computacionales.
Ver también
Referencias
- ^ Thornton C, Hutter F, Hoos HH, Leyton-Brown K (2013). Auto-WEKA: selección combinada y optimización de hiperparámetros de algoritmos de clasificación. KDD '13 Actas de la 19ª conferencia internacional ACM SIGKDD sobre descubrimiento de conocimiento y minería de datos. págs. 847–855.
- ^ ab Hutter F, Caruana R, Bardenet R, Bilenko M, Guyon I, Kegl B y Larochelle H. "AutoML 2014 @ ICML". Taller AutoML 2014 @ ICML . Consultado el 28 de marzo de 2018 .[ enlace muerto permanente ]
- ^ Olson, RS, Urbanowicz, RJ, Andrews, PC, Lavender, NA, Kidd, LC, Moore, JH (2016). Automatización de la ciencia de datos biomédicos mediante la optimización de canalizaciones basadas en árboles. En: Squillero, G., Burelli, P. (eds) Aplicaciones de la Computación Evolutiva. EvoApplications 2016. Apuntes de conferencias sobre informática (), vol 9597. Springer, Cham. doi :10.1007/978-3-319-31204-0_9
- ^ De Bie, Tijl; De Raedt, Luc; Hernández-Orallo, José; Hoos, Holger H.; Smyth, padhraico; Williams, Christopher KI (marzo de 2022). "Automatización de la ciencia de datos". Comunicaciones de la ACM . 65 (3): 76–87. doi : 10.1145/3495256 . hdl : 10251/199907 .
- ^ Erickson, Nick; Mueller, Jonás; Shirkov, Alejandro; Zhang, colgar; Larroy, Pedro; Li, Mu; Smola, Alejandro (13 de marzo de 2020). "AutoGluon-Tabular: AutoML robusto y preciso para datos estructurados". arXiv : 2003.06505 [estad.ML].
- ^ Hutter, Frank; Kotthoff, Lars; Vanschoren, Joaquín, eds. (2019). Aprendizaje automático automatizado: métodos, sistemas, desafíos. Naturaleza Springer.
- ^ Glover, Ellen (2018). "Aprendizaje automático con Python: agrupación en clústeres". Incorporado . doi : 10.4135/9781526466426.
- ^ "Desafíos del metaaprendizaje". metalearning.chalearn.org . Consultado el 3 de diciembre de 2023 .
Otras lecturas
- "Herramientas de AutoML de código abierto: AutoGluon, TransmogrifAI, Auto-sklearn y NNI". Bizety . 2020-06-16.
- Ferreira, Luis, et al. "Una comparación de las herramientas de AutoML para aprendizaje automático, aprendizaje profundo y XGBoost". 2021 Conferencia conjunta internacional sobre redes neuronales (IJCNN). IEEE, 2021. https://repositorium.sdum.uminho.pt/bitstream/1822/74125/1/automl_ijcnn.pdf
- Feurer, M., Klein, A., Eggensperger, K., Springenberg, J., Blum, M. y Hutter, F. (2015). Aprendizaje automático automatizado eficiente y robusto. Avances en los sistemas de procesamiento de información neuronal , 28 . https://proceedings.neurips.cc/paper_files/paper/2015/file/11d0e6287202fced83f79975ec59a3a6-Paper.pdf