El error fuera de bolsa ( OOB ) , también llamado estimación fuera de bolsa , es un método para medir el error de predicción de bosques aleatorios , árboles de decisión impulsados y otros modelos de aprendizaje automático que utilizan la agregación de arranque (empaquetado). Bagging utiliza submuestreo con reemplazo para crear muestras de entrenamiento de las que pueda aprender el modelo. El error OOB es el error de predicción medio en cada muestra de entrenamiento xi , utilizando solo los árboles que no tenían xi en su muestra de arranque. [1]
La agregación Bootstrap permite definir una estimación inmediata de la mejora del rendimiento de la predicción mediante la evaluación de predicciones sobre aquellas observaciones que no se utilizaron en la construcción del siguiente alumno base.
Cuando se realiza la agregación de arranque , se crean dos conjuntos independientes. Un conjunto, la muestra de arranque, son los datos elegidos para estar "en la bolsa" mediante muestreo con reemplazo. El conjunto listo para usar son todos los datos que no se eligen en el proceso de muestreo.
Cuando se repite este proceso, como cuando se construye un bosque aleatorio , se crean muchas muestras de arranque y conjuntos OOB. Los conjuntos OOB se pueden agregar en un conjunto de datos, pero cada muestra solo se considera lista para usar para los árboles que no la incluyen en su muestra de arranque. La siguiente imagen muestra que para cada bolsa muestreada, los datos se separan en dos grupos.
Este ejemplo muestra cómo se podrían utilizar las bolsas en el contexto del diagnóstico de enfermedades. Un conjunto de pacientes es el conjunto de datos original, pero cada modelo es entrenado únicamente por los pacientes en su bolsa. Los pacientes de cada conjunto listo para usar se pueden utilizar para probar sus respectivos modelos. La prueba consideraría si el modelo puede determinar con precisión si el paciente tiene la enfermedad.
Dado que cada conjunto listo para usar no se utiliza para entrenar el modelo, es una buena prueba para el rendimiento del modelo. El cálculo específico del error OOB depende de la implementación del modelo, pero un cálculo general es el siguiente.
El proceso de embolsado se puede personalizar para adaptarse a las necesidades de un modelo. Para garantizar un modelo preciso, el tamaño de la muestra de entrenamiento de arranque debe ser cercano al del conjunto original. [2] Además, se debe considerar el número de iteraciones (árboles) del modelo (bosque) para encontrar el verdadero error OOB. El error OOB se estabilizará después de muchas iteraciones, por lo que es una buena idea comenzar con una gran cantidad de iteraciones. [3]
Como se muestra en el ejemplo de la derecha, el error OOB se puede encontrar utilizando el método anterior una vez que se configura el bosque.
El error fuera de bolsa y la validación cruzada (CV) son métodos diferentes para medir la estimación del error de un modelo de aprendizaje automático . Después de muchas iteraciones, los dos métodos deberían producir una estimación del error muy similar. Es decir, una vez que el error OOB se estabilice, convergerá al error de validación cruzada (específicamente, validación cruzada de dejar uno fuera). [3] La ventaja del método OOB es que requiere menos cálculo y permite probar el modelo a medida que se entrena.
El error fuera de bolsa se utiliza con frecuencia para la estimación del error dentro de bosques aleatorios , pero según la conclusión de un estudio realizado por Silke Janitza y Roman Hornung, se ha demostrado que el error fuera de bolsa se sobreestima en entornos que incluyen un número igual de observaciones de todas las clases de respuesta (muestras equilibradas), tamaños de muestra pequeños, una gran cantidad de variables predictoras, pequeña correlación entre predictores y efectos débiles. [4]