Aprendizaje por conjuntos

El término "conjunto" suele reservarse a los métodos que generan múltiples hipótesis utilizando el mismo aprendiz base.

Por otro lado, la alternativa es realizar mucho más aprendizaje en un sistema que no es por conjuntos.

Empíricamente, los conjuntos tienden a dar mejores resultados cuando hay una diversidad significativa entre los modelos.

[5]​[6]​ Por lo tanto, muchos métodos de conjuntos intentan promover la diversidad entre los modelos que combinan.

Para determinar el número adecuado de componentes se han utilizado sobre todo pruebas estadísticas.

Como conjunto, el clasificador óptimo de Bayes representa una hipótesis que no está necesariamente en

Esta fórmula puede reformularse utilizando el teorema de Bayes, que dice que la probabilidad posterior es proporcional a la probabilidad multiplicada por la probabilidad anterior: por lo tanto, La agregación bootstrap (bagging) consiste en entrenar un conjunto a partir de conjuntos de datos bootstrap.

Por lo tanto, un conjunto bootstrap puede contener un ejemplo dado cero, una o varias veces.

Los bosques aleatorios como el que se muestra son una aplicación común del ensamblaje.

Inicialmente, todos los datos (D1) tienen el mismo peso y se utilizan para aprender un modelo base M1.

Estos datos reforzados (D2) se utilizan para entrenar un segundo modelo base M2, y así sucesivamente.

En algunos casos, el boosting ha dado mejores resultados que el bagging, pero tiende a sobreajustar más.

[20]​ Se sabe que el BMA suele dar mejores respuestas que un único modelo, obtenido, por ejemplo, mediante regresión paso a paso (stepwise), especialmente cuando modelos muy diferentes tienen un rendimiento casi idéntico en el conjunto de entrenamiento pero, por lo demás, pueden tener un rendimiento muy diferente.

[24]​ La diferencia entre el BIC y el AIC es la fuerza de la preferencia por la parsimonia.

Por otra parte, AIC y AICc son asintóticamente "eficientes" (es decir, error medio cuadrático mínimo de predicción), mientras que BIC no lo es.

Aunque la BMC es algo más costosa que la BMA desde el punto de vista informático, tiende a producir resultados mucho mejores.

Esto funcionaría bien si el conjunto fuera lo suficientemente grande como para muestrear todo el espacio de modelos, pero rara vez es posible.

En esencia, se reduce a un método innecesariamente complejo para realizar la selección de modelos.

Las posibles ponderaciones de un conjunto pueden visualizarse como si estuvieran situadas en un simplex.

En cambio, BMC converge hacia el punto en el que esta distribución se proyecta sobre el simplex.

En otras palabras, en lugar de seleccionar el modelo más cercano a la distribución generada, busca la combinación de modelos más cercana a la distribución generada.

Cuando se prueba con un solo problema, un cubo de modelos puede no producir mejores resultados que el mejor modelo del conjunto, pero cuando se evalúa a través de muchos problemas, normalmente producirá resultados mucho mejores, de media, que cualquier modelo del conjunto.

Se describe con el siguiente pseudocódigo: La selección por validación cruzada puede resumirse como: "pruébelos todos con el conjunto de entrenamiento y elija el que mejor funcione".

En primer lugar, se entrenan todos los demás algoritmos utilizando los datos disponibles y, a continuación, se entrena un algoritmo combinador (estimador final) para realizar una predicción final utilizando todas las predicciones de los demás algoritmos (estimadores base) como entradas adicionales o utilizando predicciones de validación cruzada de los estimadores base, lo que puede evitar el sobreajuste.

El apilamiento suele dar mejores resultados que cualquiera de los modelos entrenados por separado.

[36]​ También se ha utilizado para estimar la tasa de error del bagging.

Generalmente, las clases de materiales objetivo incluyen carreteras, edificios, ríos, lagos y vegetación.

[59]​ Los sistemas de aprendizaje por conjuntos han demostrado una eficacia adecuada en este ámbito.

[65]​[66]​[67]​ Mientras que el reconocimiento del habla se basa principalmente en el aprendizaje profundo porque la mayoría de los actores de la industria en este campo como Google, Microsoft e IBM revelan que la tecnología central de su reconocimiento del habla se basa en este enfoque, el reconocimiento de emociones basado en el habla también puede tener un rendimiento satisfactorio con el aprendizaje conjunto.

Dado que el aprendizaje por conjuntos mejora la solidez del modelado del comportamiento normal, se ha propuesto como una técnica eficaz para detectar estos casos y actividades fraudulentos en los sistemas bancarios y de tarjetas de crédito.

Un conjunto de clasificadores suele tener un error de clasificación menor que los modelos base.
Tres conjuntos de datos extraídos de un conjunto original. El ejemplo A aparece dos veces en el conjunto 1 porque se eligen con reemplazo.