El aumento de datos es una técnica estadística que permite una estimación de máxima verosimilitud a partir de datos incompletos. [1] [2] El aumento de datos tiene aplicaciones importantes en el análisis bayesiano , [3] y la técnica se usa ampliamente en el aprendizaje automático para reducir el sobreajuste al entrenar modelos de aprendizaje automático, [4] que se logra entrenando modelos en varias copias ligeramente modificadas de los datos existentes.
La técnica de sobremuestreo de minorías sintéticas (SMOTE) es un método utilizado para abordar conjuntos de datos desequilibrados en el aprendizaje automático. En tales conjuntos de datos, el número de muestras en diferentes clases varía significativamente, lo que genera un rendimiento sesgado del modelo. Por ejemplo, en un conjunto de datos de diagnóstico médico con 90 muestras que representan individuos sanos y solo 10 muestras que representan individuos con una enfermedad particular, los algoritmos tradicionales pueden tener dificultades para clasificar con precisión la clase minoritaria. SMOTE reequilibra el conjunto de datos generando muestras sintéticas para la clase minoritaria. Por ejemplo, si hay 100 muestras en la clase mayoritaria y 10 en la clase minoritaria, SMOTE puede crear muestras sintéticas seleccionando aleatoriamente una muestra de la clase minoritaria y sus vecinos más cercanos, y luego generando nuevas muestras a lo largo de los segmentos de línea que unen a estos vecinos. Este proceso ayuda a aumentar la representación de la clase minoritaria, mejorando el rendimiento del modelo. [5]
Cuando las redes neuronales convolucionales crecieron a mediados de la década de 1990, faltaron datos para usar, especialmente considerando que una parte del conjunto de datos general debería reservarse para pruebas posteriores. Se propuso perturbar los datos existentes con transformaciones afines para crear nuevos ejemplos con las mismas etiquetas, [6] que se complementaron con las llamadas distorsiones elásticas en 2003, [7] y la técnica se utilizó ampliamente a partir de la década de 2010. [8] El aumento de datos puede mejorar el rendimiento de CNN y actúa como una contramedida contra los ataques de elaboración de perfiles de CNN. [9]
El aumento de datos se ha vuelto fundamental en la clasificación de imágenes, enriqueciendo la diversidad del conjunto de datos de entrenamiento para mejorar la generalización y el rendimiento del modelo. La evolución de esta práctica ha introducido un amplio espectro de técnicas, incluidas transformaciones geométricas, ajustes del espacio de color e inyección de ruido. [10]
Las transformaciones geométricas alteran las propiedades espaciales de las imágenes para simular diferentes perspectivas, orientaciones y escalas. Las técnicas comunes incluyen:
Las transformaciones del espacio de color modifican las propiedades de color de las imágenes, abordando variaciones en la iluminación, la saturación del color y el contraste. Las técnicas incluyen:
Inyectar ruido en imágenes simula imperfecciones del mundo real, enseñando a los modelos a ignorar variaciones irrelevantes. Las técnicas implican:
Se puede utilizar bootstrap residual o de bloque para aumentar las series temporales.
El aumento de datos sintéticos es de suma importancia para la clasificación del aprendizaje automático, particularmente para los datos biológicos, que tienden a ser muy dimensionales y escasos. Las aplicaciones del control y aumento robóticos en sujetos discapacitados y sanos todavía se basan principalmente en análisis de temas específicos. La escasez de datos es notable en problemas de procesamiento de señales, como las señales de electromiografía de la enfermedad de Parkinson , que son difíciles de obtener - Zanini, et al. señaló que es posible utilizar una red generativa adversaria (en particular, un DCGAN) para realizar una transferencia de estilo con el fin de generar señales electromiográficas sintéticas que correspondan a las exhibidas por quienes padecen la enfermedad de Parkinson. [11]
Los abordajes también son importantes en la electroencefalografía (ondas cerebrales). Wang, et al. exploraron la idea de utilizar redes neuronales convolucionales profundas para el reconocimiento de emociones basado en EEG, los resultados muestran que el reconocimiento de emociones mejoró cuando se utilizó el aumento de datos. [12]
Un enfoque común es generar señales sintéticas reorganizando componentes de datos reales. Lotte [13] propuso un método de "Generación de prueba artificial basada en analogía" donde tres ejemplos de datos proporcionan ejemplos y se forma una idea artificial de lo que es . Se aplica una transformación para hacerlo más similar a , luego se aplica la misma transformación a lo que genera . Se demostró que este enfoque mejora el rendimiento de un clasificador de análisis discriminante lineal en tres conjuntos de datos diferentes.
Las investigaciones actuales muestran que se puede obtener un gran impacto a partir de técnicas relativamente simples. Por ejemplo, Freer [14] observó que la introducción de ruido en los datos recopilados para formar puntos de datos adicionales mejoraba la capacidad de aprendizaje de varios modelos que, de otro modo, funcionaban relativamente mal. Tsinganos et al. [15] estudiaron los enfoques de deformación de magnitud, descomposición de ondas y modelos EMG de superficie sintética (enfoques generativos) para el reconocimiento de gestos manuales, y encontraron aumentos en el rendimiento de clasificación de hasta +16% cuando se introdujeron datos aumentados durante el entrenamiento. Más recientemente, los estudios de aumento de datos han comenzado a centrarse en el campo del aprendizaje profundo, más específicamente en la capacidad de los modelos generativos para crear datos artificiales que luego se introducen durante el proceso de entrenamiento del modelo de clasificación. En 2018, Luo et al. [16] observaron que se podían generar datos útiles de señales de EEG mediante redes adversarias generativas (GAN) condicionales de Wasserstein, que luego se introdujeron en el conjunto de entrenamiento en un marco de aprendizaje clásico de prueba de tren. Los autores encontraron que el rendimiento de la clasificación mejoró cuando se introdujeron tales técnicas.
La predicción de señales mecánicas basada en el aumento de datos trae consigo una nueva generación de innovaciones tecnológicas, como el nuevo despacho de energía, el campo de comunicación 5G y la ingeniería de control robótico. [17] En 2022, Yang et al. [17] integran restricciones, optimización y control en un marco de red profundo basado en el aumento y la poda de datos con correlación de datos espacio-temporal, y mejoran la interpretabilidad, seguridad y controlabilidad del aprendizaje profundo en proyectos industriales reales a través de ecuaciones de programación matemática explícita y analítica. soluciones.
{{cite book}}
: |website=
ignorado ( ayuda ){{cite book}}
: |journal=
ignorado ( ayuda )