Random forest

La idea esencial del bagging es promediar muchos modelos ruidosos pero aproximadamente imparciales, y por tanto reducir la variación.

Los árboles son los candidatos ideales para el bagging, dado que ellos pueden registrar estructuras de interacción compleja en los datos, y si crecen suficientemente profundo, tienen relativamente baja parcialidad.

Producto de que los árboles son notoriamente ruidosos, ellos se benefician enormemente al promediar.

Este proceso es iterado por todos los árboles en el ensamblado, y la etiqueta que obtenga la mayor cantidad de incidencias es reportada como la predicción.

Un over-fit (sobre ajuste) significativo puede ser observado en la visualización de Random Forest después del entrenamiento.

Datos de entrenamiento.
Visualización de Random Forest después del entrenamiento.
Modelo de regresión logística después de entrenamiento.