El error fuera de la bolsa ( OOB ) , también llamado estimación fuera de la bolsa , es un método para medir el error de predicción de bosques aleatorios , árboles de decisión potenciados y otros modelos de aprendizaje automático que utilizan agregación bootstrap (bagging). Bagging utiliza submuestreo con reemplazo para crear muestras de entrenamiento de las que el modelo aprenderá. El error OOB es el error de predicción medio en cada muestra de entrenamiento x i , utilizando solo los árboles que no tenían x i en su muestra bootstrap. [1]
La agregación bootstrap permite definir una estimación inmediata de la mejora en el rendimiento de la predicción evaluando las predicciones en aquellas observaciones que no se usaron en la construcción del siguiente alumno base.
Cuando se realiza la agregación bootstrap , se crean dos conjuntos independientes. Un conjunto, la muestra bootstrap, son los datos elegidos para estar "en la bolsa" mediante el muestreo con reemplazo. El conjunto fuera de la bolsa son todos los datos que no se eligieron en el proceso de muestreo.
Cuando se repite este proceso, como cuando se crea un bosque aleatorio , se crean muchas muestras de bootstrap y conjuntos OOB. Los conjuntos OOB se pueden agregar en un conjunto de datos, pero cada muestra solo se considera fuera de la bolsa para los árboles que no la incluyen en su muestra de bootstrap. La siguiente imagen muestra que, para cada bolsa muestreada, los datos se separan en dos grupos.
Este ejemplo muestra cómo se puede utilizar el bagging en el contexto del diagnóstico de enfermedades. Un conjunto de pacientes es el conjunto de datos original, pero cada modelo se entrena solo con los pacientes que se encuentran en su bagging. Los pacientes de cada conjunto fuera del bagging se pueden utilizar para probar sus respectivos modelos. La prueba consideraría si el modelo puede determinar con precisión si el paciente tiene la enfermedad.
Dado que cada conjunto fuera de bolsa no se utiliza para entrenar el modelo, es una buena prueba para el rendimiento del modelo. El cálculo específico del error fuera de bolsa depende de la implementación del modelo, pero un cálculo general es el siguiente.
El proceso de bagging se puede personalizar para ajustarse a las necesidades de un modelo. Para garantizar un modelo preciso, el tamaño de la muestra de entrenamiento bootstrap debe ser cercano al del conjunto original. [2] Además, se debe considerar la cantidad de iteraciones (árboles) del modelo (bosque) para encontrar el verdadero error OOB. El error OOB se estabilizará a lo largo de muchas iteraciones, por lo que comenzar con una gran cantidad de iteraciones es una buena idea. [3]
Como se muestra en el ejemplo de la derecha, el error OOB se puede encontrar usando el método anterior una vez configurado el bosque.
El error fuera de la bolsa y la validación cruzada (CV) son métodos diferentes para medir la estimación del error de un modelo de aprendizaje automático . A lo largo de muchas iteraciones, los dos métodos deberían producir una estimación del error muy similar. Es decir, una vez que el error fuera de la bolsa se estabilice, convergerá al error de validación cruzada (específicamente, la validación cruzada de dejar uno fuera). [3] La ventaja del método fuera de la bolsa es que requiere menos cálculos y permite probar el modelo mientras se lo entrena.
El error fuera de la bolsa se utiliza con frecuencia para la estimación de errores dentro de bosques aleatorios , pero con la conclusión de un estudio realizado por Silke Janitza y Roman Hornung, se ha demostrado que el error fuera de la bolsa se sobreestima en entornos que incluyen un número igual de observaciones de todas las clases de respuesta (muestras balanceadas), tamaños de muestra pequeños, una gran cantidad de variables predictoras, pequeña correlación entre predictores y efectos débiles. [4]