Aprendizaje en conjunto

En estadística y aprendizaje automático , los métodos de conjunto utilizan múltiples algoritmos de aprendizaje para obtener un mejor rendimiento predictivo del que se podría obtener con cualquiera de los algoritmos de aprendizaje constituyentes por sí solo. ^[1]^[2]^[3] A diferencia de un conjunto estadístico en mecánica estadística, que suele ser infinito, un conjunto de aprendizaje automático consta solo de un conjunto finito concreto de modelos alternativos, pero normalmente permite que exista una estructura mucho más flexible entre esas alternativas.

Descripción general

Los algoritmos de aprendizaje supervisado realizan la tarea de buscar en un espacio de hipótesis una hipótesis adecuada que permita realizar buenas predicciones para un problema en particular. ^[4] Incluso si el espacio de hipótesis contiene hipótesis que son muy adecuadas para un problema en particular, puede resultar muy difícil encontrar una buena. Los conjuntos combinan múltiples hipótesis para formar una hipótesis (con suerte) mejor.

El aprendizaje conjunto entrena dos o más algoritmos de aprendizaje automático para una tarea de clasificación o regresión específica. Los algoritmos dentro del modelo de aprendizaje conjunto generalmente se denominan "modelos base", "aprendices base" o "aprendices débiles" en la literatura. Los modelos base se pueden construir utilizando un solo algoritmo de modelado o varios algoritmos diferentes. La idea es entrenar una colección diversa de modelos de bajo rendimiento para la misma tarea de modelado. Como resultado, los resultados predichos o clasificados de cada aprendiz débil tienen una capacidad predictiva deficiente (alto sesgo, es decir, altos errores de modelo) y entre la colección de todos los aprendices débiles, los valores de resultado y error exhiben alta varianza. Fundamentalmente, un modelo de aprendizaje conjunto entrena muchos (al menos 2) modelos de alto sesgo (débil) y alta varianza (diversos) para combinarlos en un modelo más fuerte y de mejor rendimiento. Básicamente, es un conjunto de modelos algorítmicos, que no producirían resultados predictivos satisfactorios individualmente, que se combinan o promedian sobre todos los modelos base para producir un solo modelo de alto rendimiento, preciso y de baja varianza que se ajuste a la tarea según sea necesario.

El aprendizaje por conjuntos se refiere típicamente a técnicas de Bagging (agregación de bootstrap), Boosting o Stacking/Blending para inducir una alta variabilidad entre los modelos base. Bagging crea diversidad al generar muestras aleatorias a partir de las observaciones de entrenamiento y ajustar el mismo modelo a cada muestra diferente, también conocido como "conjuntos paralelos homogéneos". Boosting sigue un proceso iterativo al entrenar secuencialmente cada modelo base siguiente en los errores ponderados hacia arriba de los errores del modelo base anterior, produciendo un modelo aditivo para reducir los errores del modelo final, también conocido como "aprendizaje de conjunto secuencial". Stacking o Blending consiste en diferentes modelos base, cada uno entrenado de forma independiente (es decir, diverso/alta variabilidad) para ser combinado en el modelo de conjunto, produciendo un "conjunto paralelo heterogéneo". Las aplicaciones comunes de aprendizaje por conjuntos incluyen Random Forests (extensión de Baggin), Boosted Tree-Models, Gradient Boosted Tree-Models y los modelos en aplicaciones de apilamiento son generalmente más específicos de la tarea, como combinar técnicas de agrupamiento con otras técnicas paramétricas y/o no paramétricas. (Véase aquí una descripción completa: ^[5]

El término más amplio de sistemas de clasificación múltiple también cubre la hibridación de hipótesis que no son inducidas por el mismo aprendiz base. ^{[ cita requerida ]}

La evaluación de la predicción de un conjunto normalmente requiere más cálculos que la evaluación de la predicción de un único modelo. En cierto sentido, el aprendizaje de conjuntos puede considerarse una forma de compensar los algoritmos de aprendizaje deficientes realizando una gran cantidad de cálculos adicionales. Por otro lado, la alternativa es realizar mucho más aprendizaje en un sistema que no sea de conjunto. Un sistema de conjunto puede ser más eficiente a la hora de mejorar la precisión general para el mismo aumento en los recursos de cómputo, almacenamiento o comunicación utilizando ese aumento en dos o más métodos, de lo que se habría mejorado aumentando el uso de recursos para un único método. Los algoritmos rápidos, como los árboles de decisión, se utilizan habitualmente en los métodos de conjunto (por ejemplo, bosques aleatorios ), aunque los algoritmos más lentos también pueden beneficiarse de las técnicas de conjunto.

Por analogía, las técnicas de conjunto también se han utilizado en escenarios de aprendizaje no supervisado , por ejemplo en la agrupación por consenso o en la detección de anomalías .

Teoría de conjuntos

Empíricamente, los conjuntos tienden a producir mejores resultados cuando hay una diversidad significativa entre los modelos. ^[6]^[7] Por lo tanto, muchos métodos de conjunto buscan promover la diversidad entre los modelos que combinan. ^[8]^[9] Aunque quizás no sea intuitivo, se pueden usar algoritmos más aleatorios (como árboles de decisión aleatorios) para producir un conjunto más fuerte que algoritmos muy deliberados (como árboles de decisión que reducen la entropía). ^[10] Sin embargo, se ha demostrado que el uso de una variedad de algoritmos de aprendizaje fuerte es más efectivo que el uso de técnicas que intentan simplificar los modelos para promover la diversidad. ^[11] Es posible aumentar la diversidad en la etapa de entrenamiento del modelo utilizando correlación para tareas de regresión ^[12] o utilizando medidas de información como la entropía cruzada para tareas de clasificación. ^[13]

En teoría, se puede justificar el concepto de diversidad porque el límite inferior de la tasa de error de un sistema de conjunto se puede descomponer en precisión, diversidad y el otro término. ^[14]

El marco geométrico

El aprendizaje en conjunto, que incluye tanto las tareas de regresión como las de clasificación, se puede explicar mediante un marco geométrico. ^[15] Dentro de este marco, el resultado de cada clasificador o regresor individual para todo el conjunto de datos se puede considerar como un punto en un espacio multidimensional. Además, el resultado objetivo también se representa como un punto en este espacio, denominado "punto ideal".

La distancia euclidiana se utiliza como métrica para medir tanto el rendimiento de un único clasificador o regresor (la distancia entre su punto y el punto ideal) como la disimilitud entre dos clasificadores o regresores (la distancia entre sus respectivos puntos). Esta perspectiva transforma el aprendizaje en conjunto en un problema determinista.

Por ejemplo, dentro de este marco geométrico, se puede demostrar que el promedio de los resultados (puntajes) de todos los clasificadores o regresores base puede conducir a resultados iguales o mejores que el promedio de todos los modelos individuales. También se puede demostrar que si se utiliza el esquema de ponderación óptimo, entonces un enfoque de promedio ponderado puede superar a cualquiera de los clasificadores o regresores individuales que componen el conjunto o, al menos, tan bueno como el mejor desempeño.

Tamaño del conjunto

Si bien la cantidad de clasificadores de componentes de un conjunto tiene un gran impacto en la precisión de la predicción, existe una cantidad limitada de estudios que abordan este problema. La determinación a priori del tamaño del conjunto y el volumen y la velocidad de los flujos de datos masivos hacen que esto sea aún más crucial para los clasificadores de conjuntos en línea. Se utilizaron principalmente pruebas estadísticas para determinar la cantidad adecuada de componentes. Más recientemente, un marco teórico sugirió que existe una cantidad ideal de clasificadores de componentes para un conjunto, de modo que tener más o menos que esta cantidad de clasificadores deterioraría la precisión. Se denomina "la ley de los rendimientos decrecientes en la construcción de conjuntos". Su marco teórico muestra que usar la misma cantidad de clasificadores de componentes independientes como etiquetas de clase brinda la mayor precisión. ^[16]^[17]

Tipos comunes de conjuntos

Clasificador óptimo de Bayes

El clasificador óptimo de Bayes es una técnica de clasificación. Es un conjunto de todas las hipótesis en el espacio de hipótesis. En promedio, ningún otro conjunto puede superarlo. ^[18] El clasificador Bayes ingenuo es una versión de este que supone que los datos son condicionalmente independientes de la clase y hace que el cálculo sea más factible. A cada hipótesis se le otorga un voto proporcional a la probabilidad de que el conjunto de datos de entrenamiento se muestree de un sistema si esa hipótesis fuera verdadera. Para facilitar el entrenamiento de datos de tamaño finito, el voto de cada hipótesis también se multiplica por la probabilidad previa de esa hipótesis. El clasificador óptimo de Bayes se puede expresar con la siguiente ecuación:

y={\underset {c_{j}\in C}{\mathrm {argmax} }}\sum _{h_{i}\in H}{P(c_{j}|h_{i})P(T|h_{i})P(h_{i})}

donde es la clase predicha, es el conjunto de todas las clases posibles, es el espacio de hipótesis, se refiere a una probabilidad y son los datos de entrenamiento. Como conjunto, el clasificador óptimo de Bayes representa una hipótesis que no está necesariamente en . Sin embargo, la hipótesis representada por el clasificador óptimo de Bayes es la hipótesis óptima en el espacio de conjuntos (el espacio de todos los conjuntos posibles que consisten solo en hipótesis en ). $y$ $C$ $H$ $P$ $T$ $H$ $H$

Esta fórmula se puede reformular utilizando el teorema de Bayes , que dice que la probabilidad posterior es proporcional a la probabilidad anterior:

P(h_{i}|T)\propto P(T|h_{i})P(h_{i})

por eso,

y={\underset {c_{j}\in C}{\mathrm {argmax} }}\sum _{h_{i}\in H}{P(c_{j}|h_{i})P(h_{i}|T)}

Agregación de bootstrap (empaquetado)

La agregación bootstrap ( bagging ) implica entrenar un conjunto con conjuntos de datos bootstrap . Un conjunto bootstrap se crea seleccionando del conjunto de datos de entrenamiento original con reemplazo. Por lo tanto, un conjunto bootstrap puede contener un ejemplo dado cero, una o varias veces. Los miembros del conjunto también pueden tener límites en las características (por ejemplo, nodos de un árbol de decisión), para alentar la exploración de diversas características. ^[19] La varianza de la información local en los conjuntos bootstrap y las consideraciones de características promueven la diversidad en el conjunto y pueden fortalecer el conjunto. ^[20] Para reducir el sobreajuste, un miembro puede validarse utilizando el conjunto fuera de la bolsa (los ejemplos que no están en su conjunto bootstrap). ^[21]

La inferencia se realiza mediante la votación de las predicciones de los miembros del conjunto, llamada agregación . A continuación, se ilustra con un conjunto de cuatro árboles de decisión. El ejemplo de consulta se clasifica por cada árbol. Debido a que tres de los cuatro predicen la clase positiva , la clasificación general del conjunto es positiva . Los bosques aleatorios como el que se muestra son una aplicación común del bagging.

Impulsando

El refuerzo implica entrenar modelos sucesivos haciendo hincapié en los datos de entrenamiento que los modelos aprendidos previamente clasificaron incorrectamente. Inicialmente, todos los datos (D1) tienen el mismo peso y se utilizan para aprender un modelo base M1. A los ejemplos clasificados incorrectamente por M1 se les asigna un peso mayor que a los ejemplos clasificados correctamente. Estos datos reforzados (D2) se utilizan para entrenar un segundo modelo base M2, y así sucesivamente. La inferencia se realiza mediante votación.

En algunos casos, el boosting ha dado mejores resultados que el bagging, pero tiende a sobreajustarse más. La implementación más común del boosting es Adaboost , pero se ha informado que algunos algoritmos más nuevos logran mejores resultados. ^{[ cita requerida ]}

Promedio del modelo bayesiano

El promedio del modelo bayesiano (BMA) hace predicciones promediando las predicciones de los modelos ponderados por sus probabilidades posteriores dados los datos. ^[22] Se sabe que el BMA generalmente brinda mejores respuestas que un modelo único, obtenido, por ejemplo, a través de regresión por pasos , especialmente cuando modelos muy diferentes tienen un rendimiento casi idéntico en el conjunto de entrenamiento pero, por lo demás, pueden tener un rendimiento bastante diferente.

La cuestión con cualquier uso del teorema de Bayes es el anterior, es decir, la probabilidad (quizás subjetiva) de que cada modelo sea el mejor para usar con un propósito dado. Conceptualmente, BMA se puede utilizar con cualquier anterior. Los paquetes R ensembleBMA ^[23] y BMA ^[24] utilizan el anterior implícito en el criterio de información bayesiano (BIC), siguiendo a Raftery (1995). ^{[25] El paquete} R BAS admite el uso de los anteriores implícitos en el criterio de información de Akaike (AIC) y otros criterios sobre los modelos alternativos, así como anteriores sobre los coeficientes. ^[26]

La diferencia entre BIC y AIC es la fuerza de la preferencia por la parsimonia. La penalización de BIC por la complejidad del modelo es , mientras que la de AIC es . La teoría asintótica de muestras grandes establece que si hay un mejor modelo, entonces con tamaños de muestra crecientes, BIC es fuertemente consistente, es decir, casi con certeza lo encontrará, mientras que AIC puede no hacerlo, porque AIC puede continuar colocando una probabilidad posterior excesiva en modelos que son más complicados de lo que necesitan ser. Por otro lado, AIC y AICc son asintóticamente "eficientes" (es decir, error de predicción cuadrático medio mínimo), mientras que BIC no lo es. ^[27] $\ln(n)k$ $2k$

Haussler et al. (1994) demostraron que cuando se utiliza BMA para la clasificación, su error esperado es como máximo el doble del error esperado del clasificador óptimo de Bayes. ^[28] Burnham y Anderson (1998, 2002) contribuyeron en gran medida a introducir a un público más amplio las ideas básicas del promedio de modelos bayesianos y a popularizar la metodología. ^[29] La disponibilidad de software, incluidos otros paquetes gratuitos de código abierto para R más allá de los mencionados anteriormente, ayudó a que los métodos fueran accesibles a un público más amplio. ^[30]

Combinación de modelos bayesianos

La combinación de modelos bayesianos (BMC) es una corrección algorítmica del promedio de modelos bayesianos (BMA). En lugar de muestrear cada modelo del conjunto individualmente, muestrea del espacio de conjuntos posibles (con pesos de modelos extraídos aleatoriamente de una distribución de Dirichlet que tiene parámetros uniformes). Esta modificación supera la tendencia de BMA a converger hacia dar todo el peso a un solo modelo. Aunque la BMC es algo más costosa computacionalmente que la BMA, tiende a producir resultados drásticamente mejores. Se ha demostrado que la BMC es mejor en promedio (con significación estadística) que la BMA y el bagging. ^[31]

El uso de la ley de Bayes para calcular los pesos de los modelos requiere calcular la probabilidad de los datos dados para cada modelo. Normalmente, ninguno de los modelos del conjunto es exactamente la distribución a partir de la cual se generaron los datos de entrenamiento, por lo que todos ellos reciben correctamente un valor cercano a cero para este término. Esto funcionaría bien si el conjunto fuera lo suficientemente grande como para muestrear todo el espacio de modelos, pero esto rara vez es posible. En consecuencia, cada patrón en los datos de entrenamiento hará que el peso del conjunto se desplace hacia el modelo en el conjunto que esté más cerca de la distribución de los datos de entrenamiento. Básicamente, se reduce a un método innecesariamente complejo para realizar la selección de modelos.

Las ponderaciones posibles para un conjunto se pueden visualizar como si se encontraran en un símplex. En cada vértice del símplex, todo el peso se asigna a un solo modelo del conjunto. BMA converge hacia el vértice que está más cerca de la distribución de los datos de entrenamiento. Por el contrario, BMC converge hacia el punto donde esta distribución se proyecta sobre el símplex. En otras palabras, en lugar de seleccionar el modelo que está más cerca de la distribución generadora, busca la combinación de modelos que está más cerca de la distribución generadora.

Los resultados de BMA se pueden aproximar a menudo mediante el uso de validación cruzada para seleccionar el mejor modelo de un conjunto de modelos. Del mismo modo, los resultados de BMC se pueden aproximar mediante el uso de validación cruzada para seleccionar la mejor combinación de conjunto de un muestreo aleatorio de ponderaciones posibles.

Cubo de modelos

Un "conjunto de modelos" es una técnica de conjunto en la que se utiliza un algoritmo de selección de modelos para elegir el mejor modelo para cada problema. Cuando se prueba con un solo problema, un conjunto de modelos no puede producir mejores resultados que el mejor modelo del conjunto, pero cuando se evalúa en muchos problemas, normalmente producirá resultados mucho mejores, en promedio, que cualquier modelo del conjunto.

El método más común utilizado para la selección de modelos es la selección por validación cruzada (a veces denominada "concurso de selección"). Se describe con el siguiente pseudocódigo:

Para cada modelo m en el bucket: Haz c veces: (donde 'c' es alguna constante) Divida aleatoriamente el conjunto de datos de entrenamiento en dos conjuntos: A y B Tren m con A Prueba m con BSeleccione el modelo que obtenga la puntuación media más alta

La selección de validación cruzada se puede resumir como: "pruébalos todos con el conjunto de entrenamiento y elige el que funcione mejor". ^[32]

La selección por validación cruzada es una generalización de la selección por validación cruzada. Implica entrenar otro modelo de aprendizaje para decidir cuál de los modelos del grupo es el más adecuado para resolver el problema. A menudo, se utiliza un perceptrón para el modelo de selección por validación. Se puede utilizar para elegir el "mejor" modelo o para dar un peso lineal a las predicciones de cada modelo del grupo.

Cuando se utiliza un conjunto de modelos con un gran conjunto de problemas, puede ser conveniente evitar entrenar algunos de los modelos que requieren mucho tiempo para entrenarse. El aprendizaje de referencia es un enfoque de metaaprendizaje que busca resolver este problema. Implica entrenar solo los algoritmos rápidos (pero imprecisos) del conjunto y luego usar el desempeño de estos algoritmos para ayudar a determinar qué algoritmo lento (pero preciso) tiene más probabilidades de funcionar mejor. ^[33]

Coste de entropía cruzada modificado: un enfoque para fomentar la diversidad en el conjunto de clasificación

El enfoque más común para entrenar clasificadores es usar la función de costo de entropía cruzada . Sin embargo, uno querría entrenar un conjunto de modelos que tengan diversidad para que cuando los combinemos brinde mejores resultados. ^[34]^[35] Suponiendo que usamos un conjunto simple de clasificadores promediados, entonces el costo de entropía cruzada modificado es $K$

e^{k}=H(p,q^{k})-{\frac {\lambda }{K}}\sum _{j\neq k}H(q^{j},q^{k})

donde es la función de costo del clasificador, es la probabilidad del clasificador, es la probabilidad verdadera que necesitamos estimar y es un parámetro entre 0 y 1 que define la diversidad que nos gustaría establecer. Cuando queremos que cada clasificador haga lo mejor que pueda independientemente del conjunto y cuando nos gustaría que el clasificador sea lo más diverso posible. $e^{k}$ $k^{th}$ $q^{k}$ $k^{th}$ $p$ $\lambda$ $\lambda =0$ $\lambda =1$

Apilado

El apilamiento (a veces llamado generalización apilada ) implica entrenar un modelo para combinar las predicciones de varios otros algoritmos de aprendizaje. Primero, todos los demás algoritmos se entrenan usando los datos disponibles, luego se entrena un algoritmo combinador (estimador final) para hacer una predicción final usando todas las predicciones de los otros algoritmos (estimadores base) como entradas adicionales o usando predicciones validadas cruzadamente de los estimadores base que pueden prevenir el sobreajuste. ^[36] Si se usa un algoritmo combinador arbitrario, entonces el apilamiento puede representar teóricamente cualquiera de las técnicas de conjunto descritas en este artículo, aunque, en la práctica, a menudo se usa un modelo de regresión logística como combinador.

El apilamiento generalmente produce un mejor rendimiento que cualquiera de los modelos entrenados individualmente. ^[37] Se ha utilizado con éxito tanto en tareas de aprendizaje supervisado (regresión, ^[38] clasificación y aprendizaje a distancia ^[39] ) como en aprendizaje no supervisado (estimación de densidad). ^[40] También se ha utilizado para estimar la tasa de error de bagging. ^[3]^[41] Se ha informado que supera al promedio de modelos bayesianos. ^[42] Los dos mejores en la competencia de Netflix utilizaron mezcla, que puede considerarse una forma de apilamiento. ^[43]

Votación

La votación es otra forma de agrupamiento. Véase, por ejemplo, el algoritmo de mayoría ponderada (aprendizaje automático) .

Implementaciones en paquetes de estadísticas

R : al menos tres paquetes ofrecen herramientas de promedio de modelos bayesianos, ^[44] incluido el paquete BMS (un acrónimo de Bayesian Model Selection), ^[45] el paquete BAS (un acrónimo de Bayesian Adaptive Sampling), ^[46] y el paquete BMA . ^[47]
Python : scikit-learn , un paquete para aprendizaje automático en Python, ofrece paquetes para aprendizaje en conjunto, incluidos paquetes para métodos de ensacado, votación y promedio.
MATLAB : los conjuntos de clasificación se implementan en la Caja de herramientas de estadística y aprendizaje automático. ^[48]

Aplicaciones de aprendizaje en conjunto

En los últimos años, debido al creciente poder computacional, que permite el entrenamiento en aprendizaje de conjuntos grandes en un marco de tiempo razonable, el número de aplicaciones de aprendizaje de conjuntos ha crecido cada vez más. ^[49] Algunas de las aplicaciones de los clasificadores de conjuntos incluyen:

Teledetección

Mapeo de la cobertura terrestre

El mapeo de la cobertura terrestre es una de las principales aplicaciones de los sensores satelitales de observación de la Tierra , utilizando detección remota y datos geoespaciales , para identificar los materiales y objetos que se encuentran en la superficie de las áreas objetivo. Generalmente, las clases de materiales objetivo incluyen carreteras, edificios, ríos, lagos y vegetación. ^[50] Se proponen algunos enfoques de aprendizaje de conjunto diferentes basados en redes neuronales artificiales , ^[51] análisis de componentes principales del núcleo (KPCA), ^[52] árboles de decisión con refuerzo , ^[53] bosque aleatorio ^[50]^[54] y diseño automático de sistemas de clasificación múltiple, ^[55] para identificar de manera eficiente los objetos de cobertura terrestre .

Detección de cambios

La detección de cambios es un problema de análisis de imágenes que consiste en la identificación de lugares donde la cobertura del suelo ha cambiado con el tiempo. La detección de cambios se utiliza ampliamente en campos como el crecimiento urbano , la dinámica de los bosques y la vegetación , el uso del suelo y el monitoreo de desastres . ^[56] Las primeras aplicaciones de los clasificadores de conjunto en la detección de cambios están diseñadas con la votación por mayoría , ^[57] el promedio del modelo bayesiano , ^[58] y la probabilidad posterior máxima . ^[59] Dado el crecimiento de los datos satelitales a lo largo del tiempo, la última década ve un mayor uso de métodos de series de tiempo para la detección continua de cambios a partir de pilas de imágenes. ^[60] Un ejemplo es un método de detección de puntos de cambio de conjunto bayesiano llamado BEAST, con el software disponible como un paquete Rbeast en R, Python y Matlab. ^[61]

Seguridad informática

Denegación de servicio distribuida

La denegación distribuida de servicio es uno de los ciberataques más amenazantes que pueden ocurrirle a un proveedor de servicios de Internet . ^{[49] Al combinar la salida de clasificadores individuales, los clasificadores de conjunto reducen el error total de detección y discriminación de dichos ataques de}multitudes de ataques flash legítimos . ^[62]

Detección de malware

La clasificación de códigos de malware como virus informáticos , gusanos informáticos , troyanos , ransomware y spyware con el uso de técnicas de aprendizaje automático , está inspirada en el problema de categorización de documentos . ^[63] Los sistemas de aprendizaje conjunto han demostrado una eficacia adecuada en esta área. ^[64]^[65]

Detección de intrusiones

Un sistema de detección de intrusos monitorea redes o sistemas informáticos para identificar códigos de intrusos como un proceso de detección de anomalías . El aprendizaje por conjuntos ayuda a estos sistemas de monitoreo a reducir su error total. ^[66]^[67]

Reconocimiento facial

El reconocimiento facial , que recientemente se ha convertido en una de las áreas de investigación más populares del reconocimiento de patrones , se ocupa de la identificación o verificación de una persona a partir de sus imágenes digitales . ^[68]

Los conjuntos jerárquicos basados en el clasificador de Gabor Fisher y técnicas de preprocesamiento de análisis de componentes independientes son algunos de los primeros conjuntos empleados en este campo. ^[69]^[70]^[71]

Reconocimiento de emociones

Si bien el reconocimiento de voz se basa principalmente en el aprendizaje profundo , debido a que la mayoría de los actores de la industria en este campo, como Google , Microsoft e IBM, revelan que la tecnología central de su reconocimiento de voz se basa en este enfoque, el reconocimiento de emociones basado en el habla también puede tener un desempeño satisfactorio con el aprendizaje en conjunto. ^[72]^[73]

También se está utilizando con éxito en el reconocimiento de emociones faciales . ^[74]^[75]^[76]

Detección de fraude

La detección de fraudes se ocupa de la identificación de fraudes bancarios , como el lavado de dinero , el fraude con tarjetas de crédito y el fraude en telecomunicaciones, que tienen vastos dominios de investigación y aplicaciones de aprendizaje automático . Debido a que el aprendizaje conjunto mejora la solidez del modelado de comportamiento normal, se ha propuesto como una técnica eficiente para detectar tales casos y actividades fraudulentas en los sistemas bancarios y de tarjetas de crédito. ^[77]^[78]

Toma de decisiones financieras

La precisión de la predicción de la quiebra de una empresa es una cuestión crucial en la toma de decisiones financieras. Por lo tanto, se proponen diferentes clasificadores de conjunto para predecir las crisis financieras y las dificultades financieras . ^[79] Además, en el problema de la manipulación basada en el comercio , donde los comerciantes intentan manipular los precios de las acciones mediante actividades de compra y venta, se requieren clasificadores de conjunto para analizar los cambios en los datos del mercado de valores y detectar síntomas sospechosos de manipulación del precio de las acciones . ^[79]

Medicamento

Los clasificadores de conjuntos se han aplicado con éxito en neurociencia , proteómica y diagnóstico médico como en la detección de trastornos neurocognitivos (es decir, Alzheimer o distrofia miotónica ) basada en conjuntos de datos de resonancia magnética, ^[80]^[81]^[82] y la clasificación de citología cervical. ^[83]^[84]

Véase también

Referencias

^ Opitz, D.; Maclin, R. (1999). "Métodos de conjunto populares: un estudio empírico". Revista de investigación en inteligencia artificial . 11 : 169–198. arXiv : 1106.0257 . doi : 10.1613/jair.614 .
^ Polikar, R. (2006). "Sistemas basados en conjuntos para la toma de decisiones". Revista IEEE Circuits and Systems . 6 (3): 21–45. doi :10.1109/MCAS.2006.1688199. S2CID 18032543.
^ ab Rokach, L. (2010). "Clasificadores basados en conjuntos". Revisión de Inteligencia Artificial . 33 (1–2): 1–39. doi :10.1007/s10462-009-9124-7. hdl : 11323/1748 . S2CID 11149239.
^ Blockeel H. (2011). "Espacio de hipótesis". Enciclopedia de aprendizaje automático . págs. 511–513. doi :10.1007/978-0-387-30164-8_373. ISBN . 978-0-387-30768-8.
^ Ibomoiye Domor Mienye, Yanxia Sun (2022). Un estudio sobre el aprendizaje conjunto: conceptos, algoritmos, aplicaciones y perspectivas.
^ Kuncheva, L. y Whitaker, C., Medidas de diversidad en conjuntos de clasificadores, Machine Learning , 51, págs. 181-207, 2003
^ Sollich, P. y Krogh, A., Aprendizaje con conjuntos: cómo el sobreajuste puede ser útil, Advances in Neural Information Processing Systems, volumen 8, págs. 190-196, 1996.
^ Brown, G. y Wyatt, J. y Harris, R. y Yao, X., Métodos de creación de diversidad: una encuesta y categorización., Information Fusion , 6(1), pp.5-20, 2005.
^ Adeva, JJ García; Cerviño, Ulises; Calvo, R. (diciembre de 2005). "Precisión y diversidad en conjuntos de categorizadores de texto" (PDF) . Revista CLEI . 8 (2): 1:1–1:12. doi : 10.19153/cleiej.8.2.1 (inactivo 2024-04-17).{{cite journal}}: CS1 maint: DOI inactive as of April 2024 (link)
^ Ho, T., Bosques de decisiones aleatorias, Actas de la Tercera Conferencia Internacional sobre Análisis y Reconocimiento de Documentos , págs. 278-282, 1995.
^ Gashler, M.; Giraud-Carrier, C.; Martínez, T. (2008). "Conjunto de árboles de decisión: los heterogéneos pequeños son mejores que los homogéneos grandes" (PDF) . 2008 Séptima Conferencia Internacional sobre Aprendizaje Automático y Aplicaciones. Vol. 2008. págs. 900–905. doi :10.1109/ICMLA.2008.154. ISBN 978-0-7695-3495-4. Número de identificación del sujeto 614810.
^ Liu, Y.; Yao, X. (diciembre de 1999). "Aprendizaje en conjunto mediante correlación negativa". Redes neuronales . 12 (10): 1399–1404. doi :10.1016/S0893-6080(99)00073-8. ISSN 0893-6080. PMID 12662623.
^ Shoham, Ron; Permuter, Haim (2019). "Costo de entropía cruzada modificado: un enfoque para fomentar la diversidad en el conjunto de clasificación (anuncio breve)". Ciberseguridad, criptografía y aprendizaje automático . Apuntes de clase en informática. Vol. 11527. págs. 202–207. doi :10.1007/978-3-030-20951-3_18. ISBN 978-3-030-20950-6.S2CID189926552 .
^ Terufumi Morishita et al, Replanteando la desigualdad de Fano en el aprendizaje conjunto, Conferencia internacional sobre aprendizaje automático, 2022
^ Wu, S., Li, J. y Ding, W. (2023) Un marco geométrico para clasificadores de conjuntos multiclase, Machine Learning , 112(12), págs. 4929-4958. doi :10.1007/S10994-023-06406-W
^ R. Bonab, Hamed; Can, Fazli (2016). Un marco teórico sobre el número ideal de clasificadores para conjuntos en línea en flujos de datos. CIKM. EE. UU.: ACM. pág. 2053.
^ Bonab, Hamed; Can, Fazli (2017). "Menos es más: un marco integral para el número de componentes de los clasificadores de conjuntos". arXiv : 1709.02925 [cs.LG].
^ Tom M. Mitchell , Aprendizaje automático , 1997, págs. 175
^ Salman, R., Alzaatreh, A., Sulieman, H. y Faisal, S. (2021). Un marco de trabajo Bootstrap para la agregación dentro y entre métodos de selección de características. Entropy (Basilea, Suiza), 23(2), 200. doi :10.3390/e23020200
^ Breiman, L., Predictores de ensacado, aprendizaje automático , 24(2), págs. 123-140, 1996. doi :10.1007/BF00058655
^ Brodeur, ZP, Herman, JD y Steinschneider, S. (2020). Agregación bootstrap y métodos de validación cruzada para reducir el sobreajuste en la búsqueda de políticas de control de embalses. Water Resources Research, 56, e2020WR027184. doi :10.1029/2020WR027184
^ p. ej., Jennifer A. Hoeting ; David Madigan ; Adrian Raftery ; Chris Volinsky (1999). "Promedio del modelo bayesiano: un tutorial". Ciencia estadística . ISSN 0883-4237. Wikidata Q98974344.
^ Chris Fraley; Adrian Raftery ; J. McLean Sloughter; Tilmann Gneiting, ensembleBMA: Pronóstico probabilístico utilizando conjuntos y promedios de modelos bayesianos , Wikidata Q98972500
^ Adrian Raftery ; Jennifer A. Hoeting ; Chris Volinsky; Ian Painter; Ka Yee Yeung, BMA: Promedio del modelo bayesiano, Wikidata Q91674106.
^ Adrian Raftery (1995). "Selección de modelos bayesianos en la investigación social". Metodología sociológica : 111–196. doi :10.2307/271063. ISSN 0081-1750. Wikidata Q91670340.
^ Merlise A. Clyde ; Michael L. Littman ; Quanli Wang; Joyee Ghosh; Yingbo Li; Don van den Bergh, BAS: selección de variables bayesianas y promedio de modelos utilizando muestreo adaptativo bayesiano , Wikidata Q98974089.
^ Gerda Claeskens ; Nils Lid Hjort (2008), Selección de modelos y promedio de modelos , Cambridge University Press , Wikidata Q62568358, cap. 4.
^ Haussler, David; Kearns, Michael; Schapire, Robert E. (1994). "Límites de la complejidad de la muestra del aprendizaje bayesiano utilizando la teoría de la información y la dimensión VC". Aprendizaje automático . 14 : 83–113. doi : 10.1007/bf00993163 .
^ Kenneth P. Burnham; David R. Anderson (1998), Selección de modelos e inferencia: un enfoque práctico basado en la teoría de la información , Springer Science+Business Media , Wikidata Q62670082y Kenneth P. Burnham; David R. Anderson (2002), Selección de modelos e inferencia multimodelo: un enfoque práctico basado en la teoría de la información , Springer Science+Business Media , Wikidata Q76889160.
^ El artículo de Wikiversity sobre la búsqueda de paquetes R menciona varias formas de encontrar paquetes disponibles para algo como esto. Por ejemplo, "sos::findFn('{Bayesian model averaging}')" desde dentro de R buscará archivos de ayuda en paquetes contribuidos que incluyan el término de búsqueda y abrirá dos pestañas en el navegador predeterminado. La primera listará todos los archivos de ayuda encontrados ordenados por paquete. La segunda resume los paquetes encontrados, ordenados por la aparente solidez de la coincidencia.
^ Monteith, Kristine; Carroll, James; Seppi, Kevin; Martínez, Tony. (2011). Convertir el promedio de modelos bayesianos en una combinación de modelos bayesianos (PDF) . Actas de la Conferencia conjunta internacional sobre redes neuronales IJCNN'11. págs. 2657–2663.
^ Saso Dzeroski, Bernard Zenko, ¿Es mejor combinar clasificadores que seleccionar el mejor ?, Machine Learning, 2004, págs. 255-273
^ Bensusan, Hilan; Giraud-Carrier, Christophe (2000). "Descubrimiento de vecindarios de tareas a través de rendimientos de aprendizaje de referencia" (PDF) . Principios de minería de datos y descubrimiento de conocimiento . Apuntes de clase en informática. Vol. 1910. págs. 325–330. doi :10.1007/3-540-45372-5_32. ISBN 978-3-540-41066-9.
^ Shoham, Ron; Permuter, Haim (2019). "Costo de entropía cruzada modificado: un enfoque para fomentar la diversidad en el conjunto de clasificación (anuncio breve)". Ciberseguridad, criptografía y aprendizaje automático . Apuntes de clase en informática. Vol. 11527. págs. 202–207. doi :10.1007/978-3-030-20951-3_18. ISBN 978-3-030-20950-6.
^ Shoham, Ron; Permuter, Haim (2020). "Costo de entropía cruzada modificado: marco para el fomento explícito de la diversidad". arXiv : 2007.08140 [cs.LG].
^ "1.11. Métodos de conjunto".
^ Wolpert (1992). "Generalización apilada". Redes neuronales . 5 (2): 241–259. doi :10.1016/s0893-6080(05)80023-1.
^ Breiman, Leo (1996). "Regresiones apiladas". Aprendizaje automático . 24 : 49–64. doi : 10.1007/BF00117832 .
^ Ozay, M.; Yarman Vural, FT (2013). "Una nueva técnica de generalización difusa apilada y análisis de su rendimiento". arXiv : 1204.0171 [cs.LG].
^ Smyth, Padhraic; Wolpert, David (1999). "Combinación lineal de estimadores de densidad mediante apilamiento" (PDF) . Aprendizaje automático . 36 (1): 59–83. doi :10.1023/A:1007511322260. S2CID 16006860.
^ Wolpert, David H.; MacReady, William G. (1999). "Un método eficiente para estimar el error de generalización de Bagging" (PDF) . Aprendizaje automático . 35 (1): 41–55. doi :10.1023/A:1007519102914. S2CID 14357246.
^ Clarke, B., Promedio y apilamiento de modelos bayesianos cuando no se puede ignorar el error de aproximación del modelo, Journal of Machine Learning Research, págs. 683-712, 2003
^ Sill, J.; Takacs, G.; Mackey, L.; Lin, D. (2009). "Apilamiento lineal ponderado por características". arXiv : 0911.0460 [cs.LG].
^ Amini, Shahram M.; Parmeter, Christopher F. (2011). "Promedio de modelos bayesianos en R" (PDF) . Revista de medición económica y social . 36 (4): 253–287. doi :10.3233/JEM-2011-0350.
^ "BMS: Biblioteca de promedios de modelos bayesianos". The Comprehensive R Archive Network . 24 de noviembre de 2015. Consultado el 9 de septiembre de 2016 .
^ "BAS: Promedio de modelos bayesianos mediante muestreo adaptativo bayesiano". The Comprehensive R Archive Network . Consultado el 9 de septiembre de 2016 .
^ "BMA: Promedio de modelos bayesianos". The Comprehensive R Archive Network . Consultado el 9 de septiembre de 2016 .
^ "Conjuntos de clasificación". MATLAB y Simulink . Consultado el 8 de junio de 2017 .
^ ab Woźniak, Michał; Graña, Manuel; Corchado, Emilio (marzo de 2014). "Un estudio de sistemas de clasificación múltiple como sistemas híbridos". Information Fusion . 16 : 3–17. doi :10.1016/j.inffus.2013.04.006. hdl : 10366/134320 . S2CID 11632848.
^ ab Rodriguez-Galiano, VF; Ghimire, B.; Rogan, J.; Chica-Olmo, M.; Rigol-Sanchez, JP (enero de 2012). "Una evaluación de la efectividad de un clasificador aleatorio de bosques para la clasificación de la cobertura terrestre". ISPRS Journal of Photogrammetry and Remote Sensing . 67 : 93–104. Bibcode :2012JPRS...67...93R. doi :10.1016/j.isprsjprs.2011.11.002.
^ Giacinto, Giorgio; Roli, Fabio (agosto de 2001). "Diseño de conjuntos de redes neuronales eficaces para fines de clasificación de imágenes". Image and Vision Computing . 19 (9–10): 699–707. CiteSeerX 10.1.1.11.5820 . doi :10.1016/S0262-8856(01)00045-2.
^ Xia, Junshi; Yokoya, Naoto; Iwasaki, Yakira (marzo de 2017). "Un nuevo clasificador de conjuntos de datos hiperespectrales y LiDAR utilizando características morfológicas". Conferencia internacional IEEE de 2017 sobre acústica, habla y procesamiento de señales (ICASSP) . págs. 6185–6189. doi :10.1109/ICASSP.2017.7953345. ISBN . 978-1-5090-4117-6.S2CID 40210273 .
^ Mochizuki, S.; Murakami, T. (noviembre de 2012). "Comparación de la precisión del mapeo de la cobertura terrestre utilizando la clasificación de imágenes orientada a objetos con algoritmos de aprendizaje automático". 33.ª Conferencia asiática sobre teledetección 2012, ACRS 2012. 1 : 126–133.
^ Liu, Dan; Toman, Elizabeth; Fuller, Zane; Chen, Gang; Londo, Alexis; Xuesong, Zhang; Kaiguang, Zhao (2018). "Integración de mapas históricos e imágenes aéreas para caracterizar el cambio de uso de la tierra a largo plazo y la dinámica del paisaje: un análisis basado en objetos a través de bosques aleatorios" (PDF) . Indicadores ecológicos . 95 (1): 595–605. Código Bibliográfico :2018EcInd..95..595L. doi :10.1016/j.ecolind.2018.08.004. S2CID 92025959.
^ Giacinto, G.; Roli, F.; Fumera, G. (septiembre de 2000). "Diseño de sistemas eficaces de clasificación múltiple mediante agrupamiento de clasificadores". Actas de la 15.ª Conferencia Internacional sobre Reconocimiento de Patrones. ICPR-2000 . Vol. 2. págs. 160–163. CiteSeerX 10.1.1.11.5328 . doi :10.1109/ICPR.2000.906039. ISBN. 978-0-7695-0750-7.S2CID2625643 .
^ Du, Peijun; Liu, Sicong; Xia, Junshi; Zhao, Yindi (enero de 2013). "Técnicas de fusión de información para la detección de cambios a partir de imágenes de teledetección multitemporal". Fusión de información . 14 (1): 19–27. doi :10.1016/j.inffus.2012.05.003.
^ Definido por Bruzzone et al. (2002) como "La clase de datos que recibe el mayor número de votos se toma como la clase del patrón de entrada", esto es mayoría simple , descrita más exactamente como votación por pluralidad .
^ Zhao, Kaiguang; Wulder, Michael A; Hu, Tongx; Bright, Ryan; Wu, Qiusheng; Qin, Haiming; Li, Yang (2019). "Detección de puntos de cambio, tendencias y estacionalidad en datos de series temporales satelitales para rastrear cambios abruptos y dinámicas no lineales: un algoritmo de conjunto bayesiano". Teledetección del medio ambiente . 232 : 111181. Bibcode :2019RSEnv.23211181Z. doi : 10.1016/j.rse.2019.04.034 . hdl : 11250/2651134 . S2CID 201310998.
^ Bruzzone, Lorenzo; Cossu, Roberto; Vernazza, Gianni (diciembre de 2002). "Combinación de algoritmos paramétricos y no paramétricos para una clasificación parcialmente no supervisada de imágenes de teledetección multitemporal" (PDF) . Information Fusion . 3 (4): 289–297. doi :10.1016/S1566-2535(02)00091-X.
^ Theodomir, Mugiraneza; Nascetti, Andrea; Ban., Yifang (2020). "Monitoreo continuo de las trayectorias de cambio de la cobertura del suelo urbano con series temporales Landsat y computación en la nube Landtrendr-Google Earth Engine". Teledetección . 12 (18): 2883. Bibcode :2020RemS...12.2883M. doi : 10.3390/rs12182883 .
^ Li, Yang; Zhao, Kaiguang; Hu, Tongxi; Zhang, Xuesong. "BEAST: Un algoritmo de conjunto bayesiano para la detección de puntos de cambio y la descomposición de series temporales". GitHub .
^ Raj Kumar, P. Arun; Selvakumar, S. (julio de 2011). "Detección de ataques de denegación de servicio distribuidos mediante un conjunto de clasificadores neuronales". Computer Communications . 34 (11): 1328–1341. doi :10.1016/j.comcom.2011.01.012.
^ Shabtai, Asaf; Moskovitch, Robert; Elovici, Yuval; Glezer, Chanan (febrero de 2009). "Detección de código malicioso mediante la aplicación de clasificadores de aprendizaje automático en características estáticas: un estudio de vanguardia". Informe técnico sobre seguridad de la información . 14 (1): 16–29. doi :10.1016/j.istr.2009.03.003.
^ Zhang, Boyun; Yin, Jianping; Hao, Jingbo; Zhang, Dingxing; Wang, Shulin (2007). "Detección de códigos maliciosos basada en aprendizaje por conjuntos". Computación autónoma y confiable . Apuntes de clase en informática. Vol. 4610. págs. 468–477. doi :10.1007/978-3-540-73547-2_48. ISBN 978-3-540-73546-5.
^ Menahem, Eitan; Shabtai, Asaf; Rokach, Lior; Elovici, Yuval (febrero de 2009). "Mejora de la detección de malware mediante la aplicación de un conjunto de inductores múltiples". Computational Statistics & Data Analysis . 53 (4): 1483–1494. CiteSeerX 10.1.1.150.2722 . doi :10.1016/j.csda.2008.10.015.
^ Locasto, Michael E.; Wang, Ke; Keromytis, Angeles D.; Salvatore, J. Stolfo (2005). "FLIPS: Prevención de intrusiones adaptativa híbrida". Avances recientes en detección de intrusiones . Apuntes de clase en informática. Vol. 3858. págs. 82–101. CiteSeerX 10.1.1.60.3798 . doi :10.1007/11663812_5. ISBN . 978-3-540-31778-4.
^ Giacinto, Giorgio; Perdisci, Roberto; Del Rio, Mauro; Roli, Fabio (enero de 2008). "Detección de intrusiones en redes informáticas mediante un conjunto modular de clasificadores de una clase". Information Fusion . 9 (1): 69–82. CiteSeerX 10.1.1.69.9132 . doi :10.1016/j.inffus.2006.10.002.
^ Mu, Xiaoyan; Lu, Jiangfeng; Watta, Paul; Hassoun, Mohamad H. (julio de 2009). "Clasificadores de conjuntos basados en votación ponderada con aplicación al reconocimiento de rostros humanos y reconocimiento de voz". Conferencia conjunta internacional sobre redes neuronales de 2009. págs. 2168–2171. doi :10.1109/IJCNN.2009.5178708. ISBN . 978-1-4244-3548-7. Número de identificación del sujeto 18850747.
^ Yu, Su; Shan, Shiguang; Chen, Xilin; Gao, Wen (abril de 2006). "Conjunto jerárquico del clasificador de Gabor Fisher para el reconocimiento facial". 7.ª Conferencia internacional sobre reconocimiento automático de rostros y gestos (FGR06) . págs. 91–96. doi :10.1109/FGR.2006.64. ISBN 978-0-7695-2503-7. Número de identificación del sujeto 1513315.
^ Su, Y.; Shan, S.; Chen, X.; Gao, W. (septiembre de 2006). "Clasificador Gabor Fisher basado en parches para reconocimiento facial". 18.ª Conferencia internacional sobre reconocimiento de patrones (ICPR'06) . Vol. 2. págs. 528–531. doi :10.1109/ICPR.2006.917. ISBN 978-0-7695-2521-1. Número de identificación del sujeto 5381806.
^ Liu, Yang; Lin, Yongzheng; Chen, Yuehui (julio de 2008). "Clasificación de conjuntos basada en ICA para reconocimiento facial". Congreso de 2008 sobre procesamiento de imágenes y señales . págs. 144-148. doi :10.1109/CISP.2008.581. ISBN . 978-0-7695-3119-9.ID S2C 16248842.
^ Rieger, Steven A.; Muraleedharan, Rajani; Ramachandran, Ravi P. (2014). "Reconocimiento de emociones basado en el habla mediante extracción de características espectrales y un conjunto de clasificadores KNN". Noveno Simposio Internacional sobre Procesamiento del Lenguaje Hablado Chino . págs. 589–593. doi :10.1109/ISCSLP.2014.6936711. ISBN . 978-1-4799-4219-0. Número de identificación del sujeto 31370450.
^ Krajewski, Jarek; Batliner, Anton; Kessel, Silke (octubre de 2010). "Comparación de múltiples clasificadores para la detección de la confianza en uno mismo basada en el habla: un estudio piloto". 2010 20th International Conference on Pattern Recognition (PDF) . págs. 3716–3719. doi :10.1109/ICPR.2010.905. ISBN. 978-1-4244-7542-1. Número de identificación del sujeto 15431610.
^ Rani, P. Ithaya; Muneeswaran, K. (25 de mayo de 2016). "Reconocer la emoción facial en secuencias de vídeo utilizando las características temporales de Gabor de los ojos y la boca". Herramientas y aplicaciones multimedia . 76 (7): 10017–10040. doi :10.1007/s11042-016-3592-y. S2CID 20143585.
^ Rani, P. Ithaya; Muneeswaran, K. (agosto de 2016). "Reconocimiento de emociones faciales basado en las regiones de los ojos y la boca". Revista internacional de reconocimiento de patrones e inteligencia artificial . 30 (7): 1655020. doi :10.1142/S021800141655020X.
^ Rani, P. Ithaya; Muneeswaran, K (28 de marzo de 2018). "Reconocimiento de emociones basado en componentes faciales". Sadhana . 43 (3). doi : 10.1007/s12046-018-0801-6 .
^ Louzada, Francisco; Ara, Anderson (octubre de 2012). "Bagging k-dependence probabilistic networks: An alternative powerful fraud detection tool" (Redes probabilísticas de dependencia k en bolsas: una herramienta alternativa y potente para la detección de fraudes). Expert Systems with Applications (Sistemas expertos con aplicaciones) . 39 (14): 11583–11592. doi :10.1016/j.eswa.2012.04.024.
^ Sundarkumar, G. Ganesh; Ravi, Vadlamani (enero de 2015). "Un nuevo método de submuestreo híbrido para la minería de conjuntos de datos desequilibrados en banca y seguros". Aplicaciones de ingeniería de la inteligencia artificial . 37 : 368–377. doi :10.1016/j.engappai.2014.09.019.
^ ab Kim, Yoonseong; Sohn, So Young (agosto de 2012). "Detección de fraude bursátil mediante análisis de grupos de pares". Sistemas expertos con aplicaciones . 39 (10): 8986–8992. doi :10.1016/j.eswa.2012.02.025.
^ Savio, A.; García-Sebastián, MT; Chyzyk, D.; Hernandez, C.; Graña, M.; Sistiaga, A.; López de Munain, A.; Villanúa, J. (agosto de 2011). "Detección de trastornos neurocognitivos basada en vectores de características extraídos del análisis VBM de resonancia magnética estructural". Computers in Biology and Medicine . 41 (8): 600–610. doi :10.1016/j.compbiomed.2011.05.010. PMID 21621760.
^ Ayerdi, B.; Savio, A.; Graña, M. (junio de 2013). "Metaconjuntos de clasificadores para la detección de la enfermedad de Alzheimer utilizando características ROI independientes". Computación natural y artificial en aplicaciones médicas y de ingeniería . Apuntes de clase en informática. Vol. 7931. págs. 122–130. doi :10.1007/978-3-642-38622-0_13. ISBN 978-3-642-38621-3.
^ Gu, Quan; Ding, Yong-Sheng; Zhang, Tong-Liang (abril de 2015). "Una predicción basada en un clasificador de conjuntos de clases de receptores acoplados a proteína G en baja homología". Neurocomputing . 154 : 110–118. doi :10.1016/j.neucom.2014.12.013.
^ Xue, Dan; Zhou, Xiaomin; Li, Chen; Yao, Yudong; Rahaman, Md Mamunur; Zhang, Jinghua; Chen, Hao; Zhang, Jinpeng; Qi, Shouliang; Sun, Hongzan (2020). "Una aplicación de técnicas de aprendizaje por transferencia y aprendizaje por conjuntos para la clasificación de imágenes de histopatología cervical". IEEE Access . 8 : 104603–104618. Bibcode :2020IEEEA...8j4603X. doi : 10.1109/ACCESS.2020.2999816 . ISSN 2169-3536. S2CID 219689893.
^ Manna, Ankur; Kundu, Rohit; Kaplun, Dmitrii; Sinitca, Aleksandr; Sarkar, Ram (diciembre de 2021). "Un conjunto de modelos CNN basados en rangos difusos para la clasificación de la citología cervical". Scientific Reports . 11 (1): 14538. Bibcode :2021NatSR..1114538M. doi :10.1038/s41598-021-93783-8. ISSN 2045-2322. PMC 8282795 . PMID 34267261.

Lectura adicional

Zhou Zhihua (2012). Métodos de conjunto: fundamentos y algoritmos . Chapman y Hall/CRC. ISBN 978-1-439-83003-1.
Robert Schapire ; Yoav Freund (2012). Impulso: fundamentos y algoritmos . MIT. ISBN 978-0-262-01718-3.

Enlaces externos

Robi Polikar (ed.). "Aprendizaje en conjunto". Scholarpedia .
El kit de herramientas Waffles (aprendizaje automático) contiene implementaciones de Bagging, Boosting, Promedio de modelos bayesianos, Combinación de modelos bayesianos, Bucket-of-models y otras técnicas de conjunto.