Conjuntos de datos de entrenamiento, validación y prueba.

En el aprendizaje automático , una tarea común es el estudio y la construcción de algoritmos que puedan aprender de los datos y hacer predicciones sobre ellos . ^[1] Dichos algoritmos funcionan haciendo predicciones o decisiones basadas en datos, ^[2] mediante la construcción de un modelo matemático a partir de datos de entrada. Estos datos de entrada utilizados para construir el modelo generalmente se dividen en múltiples conjuntos de datos . En particular, se utilizan comúnmente tres conjuntos de datos en diferentes etapas de la creación del modelo: conjuntos de entrenamiento, validación y prueba.

Inicialmente, el modelo se ajusta a un conjunto de datos de entrenamiento , ^[3] que es un conjunto de ejemplos utilizados para ajustar los parámetros (por ejemplo, pesos de conexiones entre neuronas en redes neuronales artificiales ) del modelo. ^[4] El modelo (por ejemplo, un clasificador Bayes ingenuo ) se entrena en el conjunto de datos de entrenamiento mediante un método de aprendizaje supervisado , por ejemplo, utilizando métodos de optimización como el descenso de gradiente o el descenso de gradiente estocástico . En la práctica, el conjunto de datos de entrenamiento a menudo consta de pares de un vector de entrada (o escalar) y el correspondiente vector de salida (o escalar), donde la clave de respuestas comúnmente se denomina objetivo (o etiqueta ). El modelo actual se ejecuta con el conjunto de datos de entrenamiento y produce un resultado, que luego se compara con el objetivo , para cada vector de entrada en el conjunto de datos de entrenamiento. En función del resultado de la comparación y del algoritmo de aprendizaje específico que se utiliza, se ajustan los parámetros del modelo. El ajuste del modelo puede incluir tanto la selección de variables como la estimación de parámetros .

Sucesivamente, el modelo ajustado se utiliza para predecir las respuestas de las observaciones en un segundo conjunto de datos llamado conjunto de datos de validación . ^[3] El conjunto de datos de validación proporciona una evaluación imparcial del ajuste de un modelo en el conjunto de datos de entrenamiento mientras ajusta los hiperparámetros del modelo ^[5] (por ejemplo, el número de unidades ocultas (capas y anchos de capa) en una red neuronal ^[4] ). Los conjuntos de datos de validación se pueden utilizar para la regularización mediante la detención anticipada (deteniendo el entrenamiento cuando aumenta el error en el conjunto de datos de validación, ya que esto es una señal de sobreajuste del conjunto de datos de entrenamiento). ^[6] Este procedimiento simple se complica en la práctica por el hecho de que el error del conjunto de datos de validación puede fluctuar durante el entrenamiento, produciendo múltiples mínimos locales. Esta complicación ha llevado a la creación de muchas reglas ad hoc para decidir cuándo ha comenzado realmente el sobreajuste. ^[6]

Finalmente, el conjunto de datos de prueba es un conjunto de datos que se utiliza para proporcionar una evaluación imparcial del ajuste final del modelo en el conjunto de datos de entrenamiento. ^[5] Si los datos del conjunto de datos de prueba nunca se han utilizado en el entrenamiento (por ejemplo, en validación cruzada ), el conjunto de datos de prueba también se denomina conjunto de datos reservados . El término "conjunto de validación" se utiliza a veces en lugar de "conjunto de prueba" en alguna literatura (por ejemplo, si el conjunto de datos original se dividió en sólo dos subconjuntos, el conjunto de prueba podría denominarse conjunto de validación). ^[5]

Decidir los tamaños y las estrategias para la división de conjuntos de datos en conjuntos de entrenamiento, prueba y validación depende en gran medida del problema y de los datos disponibles. ^[7]

Conjunto de datos de entrenamiento

Un conjunto de datos de entrenamiento es un conjunto de datos de ejemplos utilizados durante el proceso de aprendizaje y se utiliza para ajustar los parámetros (por ejemplo, pesos) de, por ejemplo, un clasificador . ^[9]^[10]

Para las tareas de clasificación, un algoritmo de aprendizaje supervisado analiza el conjunto de datos de entrenamiento para determinar, o aprender, las combinaciones óptimas de variables que generarán un buen modelo predictivo . ^[11] El objetivo es producir un modelo entrenado (ajustado) que se generalice bien a datos nuevos y desconocidos. ^[12] El modelo ajustado se evalúa utilizando ejemplos “nuevos” de los conjuntos de datos disponibles (conjuntos de datos de validación y prueba) para estimar la precisión del modelo al clasificar nuevos datos. ^[5] Para reducir el riesgo de problemas como el sobreajuste, los ejemplos de los conjuntos de datos de validación y prueba no deben utilizarse para entrenar el modelo. ^[5]

La mayoría de los enfoques que buscan relaciones empíricas en los datos de entrenamiento tienden a sobreajustar los datos, lo que significa que pueden identificar y explotar relaciones aparentes en los datos de entrenamiento que no se cumplen en general.

Conjunto de datos de validación

Un conjunto de datos de validación es un conjunto de datos de ejemplos que se utilizan para ajustar los hiperparámetros (es decir, la arquitectura) de un clasificador. A veces también se le llama conjunto de desarrollo o "conjunto de desarrollo". ^[13] Un ejemplo de hiperparámetro para redes neuronales artificiales incluye el número de unidades ocultas en cada capa. ^[9]^[10] Éste, al igual que el conjunto de pruebas (como se menciona a continuación), debe seguir la misma distribución de probabilidad que el conjunto de datos de entrenamiento.

Para evitar el sobreajuste, cuando es necesario ajustar algún parámetro de clasificación , es necesario tener un conjunto de datos de validación además de los conjuntos de datos de entrenamiento y prueba. Por ejemplo, si se busca el clasificador más adecuado para el problema, el conjunto de datos de entrenamiento se usa para entrenar a los diferentes clasificadores candidatos, el conjunto de datos de validación se usa para comparar sus desempeños y decidir cuál tomar y, finalmente, los datos de prueba. El conjunto se utiliza para obtener características de rendimiento como precisión , sensibilidad , especificidad , medida F , etc. El conjunto de datos de validación funciona como un híbrido: son datos de entrenamiento que se utilizan para las pruebas, pero no como parte del entrenamiento de bajo nivel ni como parte de las pruebas finales.

El proceso básico de utilizar un conjunto de datos de validación para la selección del modelo (como parte del conjunto de datos de entrenamiento, el conjunto de datos de validación y el conjunto de datos de prueba) es: ^[10]^[14]

Dado que nuestro objetivo es encontrar la red que tenga el mejor rendimiento con datos nuevos, el enfoque más simple para comparar diferentes redes es evaluar la función de error utilizando datos que sean independientes de los utilizados para el entrenamiento. Varias redes se entrenan minimizando una función de error apropiada definida con respecto a un conjunto de datos de entrenamiento. Luego se compara el rendimiento de las redes evaluando la función de error utilizando un conjunto de validación independiente, y se selecciona la red que tiene el error más pequeño con respecto al conjunto de validación. Este enfoque se llama método de retención . Dado que este procedimiento puede conducir a un sobreajuste del conjunto de validación, el rendimiento de la red seleccionada debe confirmarse midiendo su rendimiento en un tercer conjunto de datos independiente denominado conjunto de prueba.

Una aplicación de este proceso es en parada temprana , donde los modelos candidatos son iteraciones sucesivas de la misma red, y el entrenamiento se detiene cuando el error en el conjunto de validación crece, eligiendo el modelo anterior (el de mínimo error).

Conjunto de datos de prueba

Un conjunto de datos de prueba es un conjunto de datos que es independiente del conjunto de datos de entrenamiento, pero que sigue la misma distribución de probabilidad que el conjunto de datos de entrenamiento. Si un modelo que se ajusta al conjunto de datos de entrenamiento también se ajusta bien al conjunto de datos de prueba, se ha producido un sobreajuste mínimo (consulte la figura siguiente). Un mejor ajuste del conjunto de datos de entrenamiento en comparación con el conjunto de datos de prueba suele indicar un sobreajuste.

Por lo tanto, un conjunto de pruebas es un conjunto de ejemplos utilizados sólo para evaluar el rendimiento (es decir, la generalización) de un clasificador completamente especificado. ^[9]^[10] Para hacer esto, el modelo final se utiliza para predecir clasificaciones de ejemplos en el conjunto de prueba. Esas predicciones se comparan con las clasificaciones verdaderas de los ejemplos para evaluar la precisión del modelo. ^[11]

En un escenario donde se utilizan conjuntos de datos de prueba y validación, el conjunto de datos de prueba generalmente se usa para evaluar el modelo final que se selecciona durante el proceso de validación. En el caso de que el conjunto de datos original se divida en dos subconjuntos (conjuntos de datos de entrenamiento y de prueba), el conjunto de datos de prueba podría evaluar el modelo solo una vez (por ejemplo, en el método de reserva ). ^[15] Tenga en cuenta que algunas fuentes desaconsejan este método. ^[12] Sin embargo, cuando se utiliza un método como la validación cruzada , dos particiones pueden ser suficientes y efectivas, ya que los resultados se promedian después de rondas repetidas de entrenamiento y pruebas del modelo para ayudar a reducir el sesgo y la variabilidad. ^[5]^[12]

Un conjunto de entrenamiento (izquierda) y un conjunto de prueba (derecha) de la misma población estadística se muestran como puntos azules. Se ajustan dos modelos predictivos a los datos de entrenamiento. Ambos modelos ajustados se trazan con los conjuntos de entrenamiento y de prueba. En el conjunto de entrenamiento, el MSE del ajuste que se muestra en naranja es 4, mientras que el MSE para el ajuste que se muestra en verde es 9. En el conjunto de prueba, el MSE para el ajuste que se muestra en naranja es 15 y el MSE para el ajuste que se muestra en el verde es 13. La curva naranja sobreajusta gravemente los datos de entrenamiento, ya que su MSE aumenta casi en un factor de cuatro al comparar el conjunto de prueba con el conjunto de entrenamiento. La curva verde se sobreajusta mucho menos a los datos de entrenamiento, ya que su MSE aumenta en menos de un factor de 2.

Confusión en terminología

Probar es intentar algo para descubrirlo ("Poner a prueba; probar la verdad, autenticidad o calidad de algo mediante un experimento" según el Diccionario Colaborativo Internacional de Inglés) y validar es demostrar que algo es válido ( "Confirmar; dar validez" Diccionario Colaborativo Internacional de Inglés). Desde esta perspectiva, el uso más común de los términos conjunto de prueba y conjunto de validación es el que aquí se describe. Sin embargo, tanto en la industria como en la academia, a veces se usan indistintamente, al considerar que el proceso interno es probar diferentes modelos para mejorar (conjunto de pruebas como conjunto de desarrollo) y el modelo final es el que necesita ser validado antes de su uso real con datos invisibles (conjunto de validación). "La literatura sobre aprendizaje automático a menudo invierte el significado de los conjuntos de 'validación' y 'prueba'. Este es el ejemplo más flagrante de la confusión terminológica que impregna la investigación en inteligencia artificial". ^[16] Sin embargo, el concepto importante que debe mantenerse es que el conjunto final, ya sea llamado prueba o validación, solo debe usarse en el experimento final.

Validación cruzada

Para obtener resultados más estables y utilizar todos los datos valiosos para el entrenamiento, un conjunto de datos se puede dividir repetidamente en varios conjuntos de datos de entrenamiento y validación. Esto se conoce como validación cruzada . Para confirmar el rendimiento del modelo, normalmente se utiliza un conjunto de datos de prueba adicional excluidos de la validación cruzada.

Causas de error

Las omisiones en el entrenamiento de algoritmos son una de las principales causas de resultados erróneos. ^[17] Los tipos de tales omisiones incluyen: ^[17]

No se incluyeron circunstancias o variaciones particulares.
Datos obsoletos
Información de entrada ambigua
Incapacidad para cambiar a nuevos entornos.
Incapacidad para solicitar ayuda de un humano u otro sistema de inteligencia artificial cuando sea necesario

Un ejemplo de omisión de circunstancias particulares es el caso en el que un niño pudo desbloquear el teléfono porque su madre registró su rostro bajo la iluminación nocturna interior, una condición que no se incluyó adecuadamente en la capacitación del sistema. ^[17]^[18]

El uso de entradas relativamente irrelevantes puede incluir situaciones en las que los algoritmos utilizan el fondo en lugar del objeto de interés para la detección de objetos , como ser entrenados por imágenes de ovejas en pastizales, lo que genera el riesgo de que un objeto diferente sea interpretado como una oveja si se localiza. en un prado. ^[17]

Ver también

Referencias

^ Ron Kohavi; Foster Provost (1998). "Glosario de términos". Aprendizaje automático . 30 : 271–274. doi : 10.1023/A:1007411609915 .
^ Obispo, Christopher M. (2006). Reconocimiento de patrones y aprendizaje automático . Nueva York: Springer. pag. vii. ISBN 0-387-31073-8. El reconocimiento de patrones tiene su origen en la ingeniería, mientras que el aprendizaje automático surgió de la informática. Sin embargo, estas actividades pueden verse como dos facetas del mismo campo y juntas han experimentado un desarrollo sustancial durante los últimos diez años.
^ ab James, Gareth (2013). Una introducción al aprendizaje estadístico: con aplicaciones en R. Springer. pag. 176.ISBN 978-1461471370.
^ ab Ripley, Brian (1996). Reconocimiento de patrones y redes neuronales . Prensa de la Universidad de Cambridge. pag. 354.ISBN 978-0521717700.
^ abcdef Brownlee, Jason (13 de julio de 2017). "¿Cuál es la diferencia entre conjuntos de datos de prueba y validación?" . Consultado el 12 de octubre de 2017 .
^ ab Prechelt, Lutz; Geneviève B. Orr (1 de enero de 2012). "Detención anticipada, pero ¿cuándo?". En Grégoire Montavon; Klaus-Robert Müller (eds.). Redes neuronales: trucos del oficio . Apuntes de conferencias sobre informática. Springer Berlín Heidelberg. págs. 53–67. doi :10.1007/978-3-642-35289-8_5. ISBN 978-3-642-35289-8.
^ "Aprendizaje automático: ¿Existe una regla general sobre cómo dividir un conjunto de datos en conjuntos de entrenamiento y validación?". Desbordamiento de pila . Consultado el 12 de agosto de 2021 .
^ Ferrie, C. y Kaiser, S. (2019). Redes neuronales para bebés . Libros de consulta. ISBN 1492671207.{{cite book}}: CS1 maint: multiple names: authors list (link)
^ abc Ripley, BD (1996) Reconocimiento de patrones y redes neuronales , Cambridge: Cambridge University Press, p. 354
^ abcd "Asunto: ¿Cuáles son la población, la muestra, el conjunto de entrenamiento, el conjunto de diseño, el conjunto de validación y el conjunto de prueba?", Preguntas frecuentes sobre redes neuronales, parte 1 de 7: Introducción (txt), comp.ai.neural-nets, Sarle , WS, ed. (1997, última modificación 2002-05-17)
^ ab Larose, DT; Larose, CD (2014). Descubriendo conocimiento en datos: una introducción a la minería de datos . Hoboken: Wiley. doi :10.1002/9781118874059. ISBN 978-0-470-90874-7. OCLC 869460667.
^ abc Xu, Yun; Goodacre, Royston (2018). "Sobre la división del conjunto de capacitación y validación: un estudio comparativo de validación cruzada, bootstrap y muestreo sistemático para estimar el rendimiento de generalización del aprendizaje supervisado". Revista de Análisis y Pruebas . 2 (3). Springer Science y Business Media LLC: 249–262. doi : 10.1007/s41664-018-0068-2 . ISSN 2096-241X. PMC 6373628 . PMID 30842888.
^ "Aprendizaje profundo". Coursera . Consultado el 18 de mayo de 2021 .
^ Bishop, CM (1995), Redes neuronales para el reconocimiento de patrones , Oxford: Oxford University Press, p. 372
^ Kohavi, Ron (3 de marzo de 2001). "Un estudio de validación cruzada y bootstrap para la estimación de la precisión y la selección de modelos". 14 . {{cite journal}}: Citar diario requiere |journal=( ayuda )
^ Ripley, Brian D. (2009). Reconocimiento de patrones y redes neuronales . Universidad de Cambridge. Prensa. págs. Glosario. ISBN 9780521717700. OCLC 601063414.
^ abcde Chanda SS, Banerjee DN (2022). "Errores de omisión y comisión subyacentes a las fallas de la IA". Sociedad AI : 1–24. doi :10.1007/s00146-022-01585-x. PMC 9669536 . PMID 36415822.
^ Greenberg A (14 de noviembre de 2017). "Mira la cara de un niño de 10 años desbloquear el iPhone X de su madre". Cableado .