Error de falta de bolsa

El error fuera de bolsa ( OOB ) , también llamado estimación fuera de bolsa , es un método para medir el error de predicción de bosques aleatorios , árboles de decisión impulsados y otros modelos de aprendizaje automático que utilizan la agregación de arranque (empaquetado). Bagging utiliza submuestreo con reemplazo para crear muestras de entrenamiento de las que pueda aprender el modelo. El error OOB es el error de predicción medio en cada muestra de entrenamiento $xi$ $,$ $utilizando$ solo los árboles que no tenían $xi$ en su muestra de arranque. ^[1]

La agregación Bootstrap permite definir una estimación inmediata de la mejora del rendimiento de la predicción mediante la evaluación de predicciones sobre aquellas observaciones que no se utilizaron en la construcción del siguiente alumno base.

Conjunto de datos listo para usar

Cuando se realiza la agregación de arranque , se crean dos conjuntos independientes. Un conjunto, la muestra de arranque, son los datos elegidos para estar "en la bolsa" mediante muestreo con reemplazo. El conjunto listo para usar son todos los datos que no se eligen en el proceso de muestreo.

Cuando se repite este proceso, como cuando se construye un bosque aleatorio , se crean muchas muestras de arranque y conjuntos OOB. Los conjuntos OOB se pueden agregar en un conjunto de datos, pero cada muestra solo se considera lista para usar para los árboles que no la incluyen en su muestra de arranque. La siguiente imagen muestra que para cada bolsa muestreada, los datos se separan en dos grupos.

Este ejemplo muestra cómo se podrían utilizar las bolsas en el contexto del diagnóstico de enfermedades. Un conjunto de pacientes es el conjunto de datos original, pero cada modelo es entrenado únicamente por los pacientes en su bolsa. Los pacientes de cada conjunto listo para usar se pueden utilizar para probar sus respectivos modelos. La prueba consideraría si el modelo puede determinar con precisión si el paciente tiene la enfermedad.

Calcular el error de falta de bolsa

Dado que cada conjunto listo para usar no se utiliza para entrenar el modelo, es una buena prueba para el rendimiento del modelo. El cálculo específico del error OOB depende de la implementación del modelo, pero un cálculo general es el siguiente.

Encuentre todos los modelos (o árboles, en el caso de un bosque aleatorio ) que no estén entrenados por la instancia OOB.
Tome el voto mayoritario del resultado de estos modelos para la instancia OOB, en comparación con el valor real de la instancia OOB.
Compile el error OOB para todas las instancias en el conjunto de datos OOB.

El proceso de embolsado se puede personalizar para adaptarse a las necesidades de un modelo. Para garantizar un modelo preciso, el tamaño de la muestra de entrenamiento de arranque debe ser cercano al del conjunto original. ^[2] Además, se debe considerar el número de iteraciones (árboles) del modelo (bosque) para encontrar el verdadero error OOB. El error OOB se estabilizará después de muchas iteraciones, por lo que es una buena idea comenzar con una gran cantidad de iteraciones. ^[3]

Como se muestra en el ejemplo de la derecha, el error OOB se puede encontrar utilizando el método anterior una vez que se configura el bosque.

Comparación con la validación cruzada

El error fuera de bolsa y la validación cruzada (CV) son métodos diferentes para medir la estimación del error de un modelo de aprendizaje automático . Después de muchas iteraciones, los dos métodos deberían producir una estimación del error muy similar. Es decir, una vez que el error OOB se estabilice, convergerá al error de validación cruzada (específicamente, validación cruzada de dejar uno fuera). ^[3] La ventaja del método OOB es que requiere menos cálculo y permite probar el modelo a medida que se entrena.

Precisión y coherencia

El error fuera de bolsa se utiliza con frecuencia para la estimación del error dentro de bosques aleatorios , pero según la conclusión de un estudio realizado por Silke Janitza y Roman Hornung, se ha demostrado que el error fuera de bolsa se sobreestima en entornos que incluyen un número igual de observaciones de todas las clases de respuesta (muestras equilibradas), tamaños de muestra pequeños, una gran cantidad de variables predictoras, pequeña correlación entre predictores y efectos débiles. ^[4]

Ver también

Impulso (metaalgoritmo)
Agregación de arranque
Bootstrapping (estadísticas)
Validación cruzada (estadísticas)
bosque aleatorio
Método de subespacio aleatorio (embolsado de atributos)

Referencias

^ James, Gareth; Witten, Daniela; Hastie, Trevor; Tibshirani, Robert (2013). Una introducción al aprendizaje estadístico. Saltador. págs. 316–321.
^ Ong, Desmond (2014). Una introducción al arranque; y una descripción general de doBootstrap (PDF) . págs. 2–4.
^ ab Hastie, Trevor; Tibshirani, Robert; Friedman, Jerome (2008). Los elementos del aprendizaje estadístico (PDF) . Saltador . págs. 592–593.
^ Janitza, Silke; Hornung, romano (6 de agosto de 2018). "Sobre la sobreestimación del error de salida de bolsa del bosque aleatorio". MÁS UNO . 13 (8): e0201904. doi : 10.1371/journal.pone.0201904 . ISSN 1932-6203. PMC 6078316 . PMID 30080866.