Aprendizaje conjunto

En estadística y aprendizaje automático , los métodos de conjunto utilizan múltiples algoritmos de aprendizaje para obtener un mejor rendimiento predictivo que el que se podría obtener con cualquiera de los algoritmos de aprendizaje constituyentes por sí solo. ^[1]^[2]^[3] A diferencia de un conjunto estadístico en mecánica estadística, que generalmente es infinito, un conjunto de aprendizaje automático consta solo de un conjunto finito concreto de modelos alternativos, pero generalmente permite que exista una estructura mucho más flexible entre esas alternativas. .

Descripción general

Los algoritmos de aprendizaje supervisado realizan la tarea de buscar en un espacio de hipótesis una hipótesis adecuada que haga buenas predicciones con un problema particular. ^[4] Incluso si el espacio de hipótesis contiene hipótesis que son muy adecuadas para un problema particular, puede ser muy difícil encontrar una buena. Los conjuntos combinan múltiples hipótesis para formar (con suerte) una hipótesis mejor. El término conjunto suele reservarse para métodos que generan múltiples hipótesis utilizando el mismo alumno base. ^{[¿ según quién? ]} El término más amplio de sistemas de clasificación múltiple también cubre la hibridación de hipótesis que no son inducidas por el mismo alumno base. ^{[ cita necesaria ]}

Evaluar la predicción de un conjunto normalmente requiere más cálculo que evaluar la predicción de un solo modelo. En cierto sentido, se puede considerar el aprendizaje por conjuntos como una forma de compensar algoritmos de aprendizaje deficientes realizando muchos cálculos adicionales. Por otro lado, la alternativa es aprender mucho más en un sistema que no sea de conjunto. Un sistema conjunto puede ser más eficiente a la hora de mejorar la precisión general para el mismo aumento de recursos de computación, almacenamiento o comunicación utilizando ese aumento en dos o más métodos, de lo que se habría mejorado aumentando el uso de recursos para un solo método. Los algoritmos rápidos, como los árboles de decisión , se utilizan habitualmente en métodos de conjunto (por ejemplo, bosques aleatorios ), aunque los algoritmos más lentos también pueden beneficiarse de las técnicas de conjunto.

Por analogía, las técnicas de conjunto también se han utilizado en escenarios de aprendizaje no supervisado , por ejemplo en agrupación por consenso o en detección de anomalías .

Teoría de conjuntos

Empíricamente, los conjuntos tienden a producir mejores resultados cuando existe una diversidad significativa entre los modelos. ^[5]^[6] Muchos métodos de conjunto, por lo tanto, buscan promover la diversidad entre los modelos que combinan. ^[7]^[8] Aunque quizás no sean intuitivos, se pueden usar algoritmos más aleatorios (como árboles de decisión aleatorios) para producir un conjunto más fuerte que algoritmos muy deliberados (como árboles de decisión que reducen la entropía). ^[9] Sin embargo, se ha demostrado que el uso de una variedad de algoritmos de aprendizaje sólidos es más efectivo que el uso de técnicas que intentan simplificar los modelos para promover la diversidad. ^[10] Es posible aumentar la diversidad en la etapa de entrenamiento del modelo usando correlación para tareas de regresión ^[11] o usando medidas de información como la entropía cruzada para tareas de clasificación. ^[12]

Teóricamente, se puede justificar el concepto de diversidad porque el límite inferior de la tasa de error de un sistema de conjunto se puede descomponer en precisión, diversidad y el otro término. ^[13]

Tamaño del conjunto

Si bien el número de clasificadores que componen un conjunto tiene un gran impacto en la precisión de la predicción, existe un número limitado de estudios que abordan este problema. La determinación a priori del tamaño del conjunto y del volumen y velocidad de los grandes flujos de datos hace que esto sea aún más crucial para los clasificadores de conjuntos en línea. Se utilizaron principalmente pruebas estadísticas para determinar el número adecuado de componentes. Más recientemente, un marco teórico sugirió que existe un número ideal de clasificadores de componentes para un conjunto, de modo que tener más o menos que este número de clasificadores deterioraría la precisión. Se llama "la ley de los rendimientos decrecientes en la construcción de conjuntos". Su marco teórico muestra que utilizar la misma cantidad de clasificadores de componentes independientes como etiquetas de clase proporciona la mayor precisión. ^[14]^[15]

Tipos comunes de conjuntos.

Clasificador óptimo de Bayes

El clasificador óptimo de Bayes es una técnica de clasificación. Es un conjunto de todas las hipótesis en el espacio de hipótesis. En promedio, ningún otro conjunto puede superarlo. ^[16] El clasificador Naive Bayes es una versión de esto que supone que los datos son condicionalmente independientes de la clase y hace que el cálculo sea más factible. Cada hipótesis recibe un voto proporcional a la probabilidad de que el conjunto de datos de entrenamiento sea muestreado de un sistema si esa hipótesis fuera cierta. Para facilitar el entrenamiento de datos de tamaño finito, el voto de cada hipótesis también se multiplica por la probabilidad previa de esa hipótesis. El clasificador óptimo de Bayes se puede expresar con la siguiente ecuación:

y={\underset {c_{j}\in C}{\mathrm {argmax} }}\sum _{h_{i}\in H}{P(c_{j}|h_{i})P(T|h_{i})P(h_{i})}

donde es la clase predicha, es el conjunto de todas las clases posibles, es el espacio de hipótesis, se refiere a una probabilidad y son los datos de entrenamiento. Como conjunto, el clasificador óptimo de Bayes representa una hipótesis que no necesariamente está en . Sin embargo, la hipótesis representada por el clasificador óptimo de Bayes es la hipótesis óptima en el espacio de conjunto (el espacio de todos los conjuntos posibles que consta únicamente de hipótesis en ). $y$ $C$ $H$ $P$ $T$ $H$ $H$

Esta fórmula se puede reformular utilizando el teorema de Bayes , que dice que lo posterior es proporcional a la probabilidad multiplicada por lo anterior:

P(h_{i}|T)\propto P(T|h_{i})P(h_{i})

por eso,

y={\underset {c_{j}\in C}{\mathrm {argmax} }}\sum _{h_{i}\in H}{P(c_{j}|h_{i})P(h_{i}|T)}

Agregación Bootstrap (embolsado)

La agregación de arranque ( bagging ) implica entrenar un conjunto en conjuntos de datos de arranque . Un conjunto de arranque se crea seleccionando del conjunto de datos de entrenamiento original con reemplazo. Por lo tanto, un conjunto de arranque puede contener un ejemplo determinado cero, una o varias veces. Los miembros del conjunto también pueden tener límites en las características (por ejemplo, nodos de un árbol de decisión), para fomentar la exploración de diversas características. ^[17] La variación de la información local en los conjuntos de arranque y las consideraciones de características promueven la diversidad en el conjunto y pueden fortalecerlo. ^[18] Para reducir el sobreajuste, un miembro se puede validar utilizando el conjunto listo para usar (los ejemplos que no están en su conjunto de arranque). ^[19]

La inferencia se realiza votando las predicciones de los miembros del conjunto, lo que se denomina agregación . Se ilustra a continuación con un conjunto de cuatro árboles de decisión. El ejemplo de consulta está clasificado por cada árbol. Debido a que tres de los cuatro predicen la clase positiva , la clasificación general del conjunto es positiva . Los bosques aleatorios como el que se muestra son una aplicación común del embolsado.

Impulsando

El impulso implica entrenar modelos sucesivos enfatizando los datos de entrenamiento mal clasificados por modelos aprendidos previamente. Inicialmente, todos los datos (D1) tienen el mismo peso y se utilizan para aprender un modelo base M1. A los ejemplos mal clasificados por M1 se les asigna un peso mayor que a los ejemplos correctamente clasificados. Estos datos mejorados (D2) se utilizan para entrenar un segundo modelo base M2, y así sucesivamente. La inferencia se hace mediante votación.

En algunos casos, el refuerzo ha producido una mayor precisión que el ensacado, pero tiende a sobreajustarse más. La implementación más común de impulso es Adaboost , pero se informa que algunos algoritmos más nuevos logran mejores resultados. ^{[ cita necesaria ]}

Promedio del modelo bayesiano

El promedio del modelo bayesiano (BMA) realiza predicciones promediando las predicciones de los modelos ponderadas por sus probabilidades posteriores dados los datos. ^[20] Se sabe que BMA generalmente da mejores respuestas que un solo modelo, obtenido, por ejemplo, mediante regresión por pasos , especialmente cuando modelos muy diferentes tienen un rendimiento casi idéntico en el conjunto de entrenamiento pero, por lo demás, pueden funcionar de manera bastante diferente.

La cuestión con cualquier uso del teorema de Bayes es la probabilidad (quizás subjetiva) de que cada modelo sea el mejor para usar para un propósito determinado. Conceptualmente, BMA se puede utilizar con cualquier anterior. Los paquetes R ensembleBMA ^[21] y BMA ^[22] utilizan el criterio previo implícito en el criterio de información bayesiano (BIC), siguiendo a Raftery (1995). ^{[23] El paquete} R BAS admite el uso de los antecedentes implícitos en el criterio de información de Akaike (AIC) y otros criterios sobre los modelos alternativos, así como los antecedentes sobre los coeficientes. ^[24]

La diferencia entre BIC y AIC es la fuerza de la preferencia por la parsimonia. La penalización de BIC por la complejidad del modelo es , mientras que la de AIC es . La teoría asintótica de muestras grandes establece que si existe un mejor modelo, entonces, al aumentar el tamaño de la muestra, BIC es fuertemente consistente, es decir, casi con certeza lo encontrará, mientras que AIC puede no hacerlo, porque AIC puede continuar asignando una probabilidad posterior excesiva a los modelos que son más complicados de lo necesario. Por otro lado, AIC y AICc son asintóticamente “eficientes” (es decir, error cuadrático medio mínimo de predicción), mientras que BIC no lo es. ^[25] $\ln(n)k$ $2k$

Haussler et al. (1994) demostraron que cuando se utiliza BMA para la clasificación, su error esperado es como máximo el doble del error esperado del clasificador óptimo de Bayes. ^[26] Burnham y Anderson (1998, 2002) contribuyeron en gran medida a presentar a una audiencia más amplia las ideas básicas del modelo bayesiano de promedio y popularizar la metodología. ^[27] La disponibilidad de software, incluidos otros paquetes gratuitos de código abierto para R además de los mencionados anteriormente, ayudó a que los métodos fueran accesibles a una audiencia más amplia. ^[28]

Combinación de modelos bayesianos

La combinación de modelos bayesianos (BMC) es una corrección algorítmica del promedio del modelo bayesiano (BMA). En lugar de muestrear cada modelo del conjunto individualmente, toma muestras del espacio de posibles conjuntos (con pesos de modelo extraídos aleatoriamente de una distribución de Dirichlet que tiene parámetros uniformes). Esta modificación supera la tendencia de BMA a converger hacia darle todo el peso a un solo modelo. Aunque BMC es algo más costoso computacionalmente que BMA, tiende a producir resultados dramáticamente mejores. Se ha demostrado que BMC es mejor en promedio (con significación estadística) que BMA y el embolsado. ^[29]

El uso de la ley de Bayes para calcular los pesos del modelo requiere calcular la probabilidad de los datos dados en cada modelo. Normalmente, ninguno de los modelos del conjunto es exactamente la distribución a partir de la cual se generaron los datos de entrenamiento, por lo que todos reciben correctamente un valor cercano a cero para este término. Esto funcionaría bien si el conjunto fuera lo suficientemente grande como para muestrear todo el espacio modelo, pero esto rara vez es posible. En consecuencia, cada patrón en los datos de entrenamiento hará que el peso del conjunto se desplace hacia el modelo del conjunto que esté más cerca de la distribución de los datos de entrenamiento. Básicamente, se reduce a un método innecesariamente complejo para realizar la selección de modelos.

Las posibles ponderaciones de un conjunto se pueden visualizar en un simplex. En cada vértice del simplex, todo el peso se le da a un solo modelo del conjunto. BMA converge hacia el vértice más cercano a la distribución de los datos de entrenamiento. Por el contrario, BMC converge hacia el punto en el que esta distribución se proyecta hacia el simplex. En otras palabras, en lugar de seleccionar el modelo más cercano a la distribución generadora, busca la combinación de modelos más cercana a la distribución generadora.

Los resultados de BMA a menudo se pueden aproximar mediante el uso de validación cruzada para seleccionar el mejor modelo de un conjunto de modelos. Asimismo, los resultados de BMC pueden aproximarse mediante el uso de validación cruzada para seleccionar la mejor combinación de conjunto a partir de un muestreo aleatorio de posibles ponderaciones.

Cubo de modelos

Un "conjunto de modelos" es una técnica de conjunto en la que se utiliza un algoritmo de selección de modelos para elegir el mejor modelo para cada problema. Cuando se prueba con un solo problema, un grupo de modelos no puede producir mejores resultados que el mejor modelo del conjunto, pero cuando se evalúa en muchos problemas, normalmente producirá resultados mucho mejores, en promedio, que cualquier modelo del conjunto.

El enfoque más común utilizado para la selección de modelos es la selección de validación cruzada (a veces denominada "concurso de horneado"). Se describe con el siguiente pseudocódigo:

Para cada modelo m en el cubo: Do c veces: (donde 'c' es una constante) Divida aleatoriamente el conjunto de datos de entrenamiento en dos conjuntos: A y B Entrena m con A Prueba m con BSelecciona el modelo que obtiene la puntuación media más alta

La selección de validación cruzada se puede resumir como: "pruébelos todos con el conjunto de entrenamiento y elija el que funcione mejor". ^[30]

Gating es una generalización de la selección de validación cruzada. Implica entrenar otro modelo de aprendizaje para decidir cuál de los modelos del grupo es el más adecuado para resolver el problema. A menudo, se utiliza un perceptrón para el modelo de activación. Se puede utilizar para elegir el "mejor" modelo o para dar un peso lineal a las predicciones de cada modelo del grupo.

Cuando se utiliza un conjunto de modelos con un gran conjunto de problemas, puede ser conveniente evitar entrenar algunos de los modelos que tardan mucho tiempo en entrenarse. El aprendizaje de referencia es un enfoque de metaaprendizaje que busca resolver este problema. Implica entrenar solo los algoritmos rápidos (pero imprecisos) del grupo y luego utilizar el rendimiento de estos algoritmos para ayudar a determinar qué algoritmo lento (pero preciso) tiene más probabilidades de funcionar mejor. ^[31]

Apilado

El apilamiento (a veces llamado generalización apilada ) implica entrenar un modelo para combinar las predicciones de varios otros algoritmos de aprendizaje. Primero, todos los demás algoritmos se entrenan usando los datos disponibles, luego se entrena un algoritmo combinador (estimador final) para hacer una predicción final usando todas las predicciones de los otros algoritmos (estimadores base) como entradas adicionales o usando predicciones con validación cruzada. de los estimadores base que pueden evitar el sobreajuste. ^[32] Si se utiliza un algoritmo combinador arbitrario, entonces el apilamiento puede representar teóricamente cualquiera de las técnicas de conjunto descritas en este artículo, aunque, en la práctica, a menudo se utiliza un modelo de regresión logística como combinador.

El apilamiento normalmente produce un rendimiento mejor que cualquiera de los modelos entrenados. ^[33] Se ha utilizado con éxito tanto en tareas de aprendizaje supervisado (regresión, ^[34] clasificación y aprendizaje a distancia ^[35] ) como en aprendizaje no supervisado (estimación de densidad). ^[36] También se ha utilizado para estimar la tasa de error de ensacado. ^[3]^[37] Se ha informado que supera el promedio del modelo bayesiano. ^[38] Los dos mejores en la competencia de Netflix utilizaron la combinación, que puede considerarse una forma de apilamiento. ^[39]

Votación

La votación es otra forma de reunirse. Véase, por ejemplo, Algoritmo de mayoría ponderada (aprendizaje automático) .

Implementaciones en paquetes estadísticos.

R : al menos tres paquetes ofrecen herramientas de promedio de modelos bayesianos, ^[40] incluido el paquete BMS (un acrónimo de Selección de modelo bayesiano), ^[41] el paquete BAS (un acrónimo de muestreo adaptativo bayesiano), ^[42] y el paquete BMA . ^[43]
Python : scikit-learn , un paquete para aprendizaje automático en Python, ofrece paquetes para el aprendizaje conjunto, incluidos paquetes para métodos de embolsado, votación y promedio.
MATLAB : los conjuntos de clasificación se implementan en Statistics and Machine Learning Toolbox. ^[44]

Aplicaciones de aprendizaje conjunto

En los últimos años, debido al creciente poder computacional, que permite el entrenamiento en aprendizaje en conjuntos grandes en un período de tiempo razonable, el número de aplicaciones de aprendizaje en conjuntos ha crecido cada vez más. ^[45] Algunas de las aplicaciones de los clasificadores de conjuntos incluyen:

Sensores remotos

Mapeo de cobertura terrestre

El mapeo de la cobertura terrestre es una de las principales aplicaciones de los sensores satelitales de observación de la Tierra , que utilizan sensores remotos y datos geoespaciales , para identificar los materiales y objetos que se encuentran en la superficie de las áreas objetivo. Generalmente, las clases de materiales objetivo incluyen carreteras, edificios, ríos, lagos y vegetación. ^[46] Algunos enfoques diferentes de aprendizaje conjunto basados en redes neuronales artificiales , ^[47] análisis de componentes principales del kernel (KPCA), ^[48] árboles de decisión con impulso , ^[49] bosque aleatorio ^[46]^[50] y diseño automático de clasificador múltiple ^[51] se proponen sistemas para identificar eficientemente objetos de cobertura terrestre .

Detección de cambios

La detección de cambios es un problema de análisis de imágenes , consistente en la identificación de lugares donde la cobertura del suelo ha cambiado a lo largo del tiempo. La detección de cambios se utiliza ampliamente en campos como el crecimiento urbano , la dinámica de los bosques y la vegetación , el uso de la tierra y el seguimiento de desastres . ^[52] Las primeras aplicaciones de clasificadores de conjunto en la detección de cambios están diseñadas con la votación mayoritaria , ^[53] el promedio del modelo bayesiano , ^[54] y la probabilidad posterior máxima . ^[55] Dado el crecimiento de los datos satelitales a lo largo del tiempo, en la última década se ha visto un mayor uso de métodos de series de tiempo para la detección de cambios continuos a partir de pilas de imágenes. ^[56] Un ejemplo es un método de detección de puntos de cambio de conjunto bayesiano llamado BEAST, con el software disponible como paquete Rbeast en R, Python y Matlab. ^[57]

La seguridad informática

Denegación de servicio distribuida

La denegación de servicio distribuida es uno de los ciberataques más amenazantes que le puede ocurrir a un proveedor de servicios de Internet . ^[45] Al combinar la salida de clasificadores individuales, los clasificadores conjuntos reducen el error total de detectar y discriminar tales ataques de multitudes repentinas legítimas . ^[58]

Detección de malware

La clasificación de códigos maliciosos como virus informáticos , gusanos informáticos , troyanos , ransomware y spyware con el uso de técnicas de aprendizaje automático está inspirada en el problema de categorización de documentos . ^[59] Los sistemas de aprendizaje conjunto han demostrado una eficacia adecuada en esta área. ^[60]^[61]

Detección de intrusiones

Un sistema de detección de intrusos monitorea la red informática o los sistemas informáticos para identificar códigos de intruso como un proceso de detección de anomalías . El aprendizaje conjunto ayuda con éxito a dichos sistemas de monitoreo a reducir su error total. ^[62]^[63]

Reconocimiento facial

El reconocimiento facial , que recientemente se ha convertido en una de las áreas de investigación de reconocimiento de patrones más populares , se ocupa de la identificación o verificación de una persona mediante sus imágenes digitales . ^[64]

Los conjuntos jerárquicos basados en el clasificador Gabor Fisher y técnicas de preprocesamiento de análisis de componentes independientes son algunos de los primeros conjuntos empleados en este campo. ^[65]^[66]^[67]

Reconocimiento de emociones

Si bien el reconocimiento de voz se basa principalmente en el aprendizaje profundo porque la mayoría de los actores de la industria en este campo, como Google , Microsoft e IBM, revelan que la tecnología central de su reconocimiento de voz se basa en este enfoque, el reconocimiento de emociones basado en el habla también puede tener un rendimiento satisfactorio. con el aprendizaje en conjunto. ^[68]^[69]

También se está utilizando con éxito en el reconocimiento de emociones faciales . ^[70]^[71]^[72]

Detección de fraude

La detección de fraude se ocupa de la identificación de fraudes bancarios , como el blanqueo de dinero , el fraude con tarjetas de crédito y el fraude de telecomunicaciones, que tienen vastos dominios de investigación y aplicaciones del aprendizaje automático . Debido a que el aprendizaje conjunto mejora la solidez del modelado del comportamiento normal, se ha propuesto como una técnica eficiente para detectar casos y actividades fraudulentas en los sistemas bancarios y de tarjetas de crédito. ^[73]^[74]

Toma de decisiones financieras

La precisión de la predicción del fracaso empresarial es una cuestión crucial en la toma de decisiones financieras. Por lo tanto, se proponen diferentes clasificadores conjuntos para predecir crisis financieras y dificultades financieras . ^[75] Además, en el problema de la manipulación basada en el comercio , donde los comerciantes intentan manipular los precios de las acciones mediante actividades de compra y venta, se requieren clasificadores conjuntos para analizar los cambios en los datos del mercado de valores y detectar síntomas sospechosos de manipulación del precio de las acciones . ^[75]

Medicamento

Los clasificadores conjuntos se han aplicado con éxito en neurociencia , proteómica y diagnóstico médico , como en la detección de trastornos neurocognitivos (es decir, Alzheimer o distrofia miotónica ) basada en conjuntos de datos de resonancia magnética ^[76]^[77]^[78] y clasificación de citología cervical. ^[79]^[80]

Ver también

Referencias

^ Opitz, D.; Maclin, R. (1999). "Métodos de conjunto populares: un estudio empírico". Revista de investigación en inteligencia artificial . 11 : 169-198. arXiv : 1106.0257 . doi : 10.1613/jair.614 .
^ Polikar, R. (2006). "Sistemas basados en conjuntos en la toma de decisiones". Revista de sistemas y circuitos IEEE . 6 (3): 21–45. doi :10.1109/MCAS.2006.1688199. S2CID 18032543.
^ ab Rokach, L. (2010). "Clasificadores basados en conjuntos". Revisión de inteligencia artificial . 33 (1–2): 1–39. doi :10.1007/s10462-009-9124-7. hdl : 11323/1748 . S2CID 11149239.
^ Blockeel H. (2011). "Espacio de hipótesis". Enciclopedia de aprendizaje automático . págs. 511–513. doi :10.1007/978-0-387-30164-8_373. ISBN 978-0-387-30768-8.
^ Kuncheva, L. y Whitaker, C., Medidas de diversidad en conjuntos de clasificadores, Machine Learning , 51, págs. 181-207, 2003
^ Sollich, P. y Krogh, A., Aprender con conjuntos: cómo puede ser útil el sobreajuste, Avances en sistemas de procesamiento de información neuronal, volumen 8, págs. 190-196, 1996.
^ Brown, G. y Wyatt, J. y Harris, R. y Yao, X., Métodos de creación de diversidad: una encuesta y categorización., Information Fusion , 6 (1), págs.5-20, 2005.
^ Adeva, JJ García; Cerviño, Ulises; Calvo, R. (diciembre de 2005). "Precisión y diversidad en conjuntos de categorizadores de texto" (PDF) . Revista CLEI . 8 (2): 1:1–1:12. doi : 10.19153/cleiej.8.2.1 .
^ Ho, T., Bosques de decisión aleatoria, Actas de la Tercera Conferencia Internacional sobre Análisis y Reconocimiento de Documentos , págs. 278-282, 1995.
^ Gashler, M.; Giraud-Carrier, C.; Martínez, T. (2008). "Conjunto de árboles de decisión: lo pequeño y heterogéneo es mejor que lo grande y homogéneo" (PDF) . 2008 Séptimo Congreso Internacional sobre Aplicaciones y Aprendizaje Automático. vol. 2008. págs. 900–905. doi :10.1109/ICMLA.2008.154. ISBN 978-0-7695-3495-4. S2CID 614810.
^ Liu, Y.; Yao, X. (diciembre de 1999). "Aprendizaje conjunto mediante correlación negativa". Redes neuronales . 12 (10): 1399-1404. doi :10.1016/S0893-6080(99)00073-8. ISSN 0893-6080. PMID 12662623.
^ Shoham, Ron; Permutador, Haim (2019). "Costo de entropía cruzada modificado: un enfoque para fomentar la diversidad en el conjunto de clasificación (breve anuncio)". Criptografía de seguridad cibernética y aprendizaje automático . Apuntes de conferencias sobre informática. vol. 11527. págs. 202-207. doi :10.1007/978-3-030-20951-3_18. ISBN 978-3-030-20950-6. S2CID 189926552.
^ Terufumi Morishita et al, Repensar la desigualdad de Fano en el aprendizaje conjunto, Conferencia internacional sobre aprendizaje automático, 2022
^ R. Bonab, Hamed; Puede, Fazli (2016). Un marco teórico sobre el número ideal de clasificadores para conjuntos en línea en flujos de datos. CIKM. Estados Unidos: ACM. pag. 2053.
^ Bonab, Hamed; Puede, Fazli (2017). "Menos es más: un marco completo para el número de componentes de clasificadores conjuntos". arXiv : 1709.02925 [cs.LG].
^ Tom M. Mitchell , Aprendizaje automático , 1997, págs.175
^ Salman, R., Alzaatreh, A., Sulieman, H. y Faisal, S. (2021). Un marco Bootstrap para agregar dentro y entre métodos de selección de funciones. Entropy (Basilea, Suiza), 23(2), 200. doi :10.3390/e23020200
^ Breiman, L., Predictores de embolsado, aprendizaje automático , 24 (2), páginas 123-140, 1996. doi :10.1007/BF00058655
^ Brodeur, ZP, Herman, JD y Steinschneider, S. (2020). Métodos de validación cruzada y agregación Bootstrap para reducir el sobreajuste en la búsqueda de políticas de control de yacimientos. Investigación de recursos hídricos, 56, e2020WR027184. doi :10.1029/2020WR027184
^ por ejemplo, Jennifer A. Hoeting ; David Madigan ; Adrián Raftery ; Chris Volinsky (1999). "Promedio del modelo bayesiano: un tutorial". Ciencia estadística . ISSN 0883-4237. Wikidata Q98974344.
^ Chris Fraley; Adrián Raftery ; J. McLean Sloughter; Tilmann Gneiting, ensembleBMA: pronóstico probabilístico utilizando conjuntos y promedio de modelos bayesianos , Wikidata Q98972500
^ Adrián Raftery ; Jennifer A. Hoeting ; Chris Volinsky; Ian pintor; Ka Yee Yeung, BMA: Promedio del modelo bayesiano, Wikidata Q91674106.
^ Adrian Raftery (1995). "Selección de modelos bayesianos en investigación social". Metodología sociológica : 111–196. doi :10.2307/271063. ISSN 0081-1750. Wikidata Q91670340.
^ Merlise A. Clyde ; Michael L. Littman ; Quanli Wang; Joyee Ghosh; Yingbo Li; Don van den Bergh, BAS: Selección de variables bayesianas y promedio de modelos mediante muestreo adaptativo bayesiano , Wikidata Q98974089.
^ Gerda Claeskens ; Nils Lid Hjort (2008), Selección de modelos y promedio de modelos , Cambridge University Press , Wikidata Q62568358, cap. 4.
^ Haussler, David; Kearns, Michael; Schapire, Robert E. (1994). "Límites de la complejidad de la muestra del aprendizaje bayesiano utilizando la teoría de la información y la dimensión VC". Aprendizaje automático . 14 : 83-113. doi : 10.1007/bf00993163 .
^ Kenneth P. Burnham; David R. Anderson (1998), Selección e inferencia de modelos: un enfoque práctico de teoría de la información , Springer Science+Business Media , Wikidata Q62670082y Kenneth P. Burnham; David R. Anderson (2002), Selección de modelos e inferencia multimodelo: un enfoque práctico de teoría de la información , Springer Science+Business Media , Wikidata Q76889160.
^ El artículo de Wikiversity sobre Búsqueda de paquetes R menciona varias formas de encontrar paquetes disponibles para algo como esto. Por ejemplo, “sos::findFn('{Promedio del modelo bayesiano}')” desde R buscará archivos de ayuda en paquetes contribuidos que incluyan el término de búsqueda y abrirá dos pestañas en el navegador predeterminado. El primero enumerará todos los archivos de ayuda encontrados ordenados por paquete. El segundo resume los paquetes encontrados, ordenados según la fuerza aparente del partido.
^ Monteith, Kristine; Carroll, James; Seppi, Kevin; Martínez, Toni. (2011). Convertir el promedio del modelo bayesiano en una combinación de modelos bayesianos (PDF) . Actas de la Conferencia Internacional Conjunta sobre Redes Neuronales IJCNN'11. págs. 2657–2663.
^ Saso Dzeroski, Bernard Zenko, Es mejor combinar clasificadores que seleccionar el mejor , Aprendizaje automático, 2004, págs.
^ Bensusan, Hilán; Giraud-Carrier, Christophe (2000). "Descubriendo barrios de tareas a través de actuaciones de aprendizaje históricas" (PDF) . Principios de minería de datos y descubrimiento de conocimientos . Apuntes de conferencias sobre informática. vol. 1910, págs. 325–330. doi :10.1007/3-540-45372-5_32. ISBN 978-3-540-41066-9.
^ "1.11. Métodos de conjunto".
^ Wolpert (1992). "Generalización apilada". Redes neuronales . 5 (2): 241–259. doi :10.1016/s0893-6080(05)80023-1.
^ Breiman, Leo (1996). "Regresiones apiladas". Aprendizaje automático . 24 : 49–64. doi : 10.1007/BF00117832 .
^ Ozay, M.; Yarman Vural, Financial Times (2013). "Una nueva técnica de generalización apilada difusa y análisis de su desempeño". arXiv : 1204.0171 [cs.LG].
^ Smyth, padhraico; Wolpert, David (1999). "Combinación lineal de estimadores de densidad mediante apilamiento" (PDF) . Aprendizaje automático . 36 (1): 59–83. doi :10.1023/A:1007511322260. S2CID 16006860.
^ Wolpert, David H.; MacReady, William G. (1999). "Un método eficaz para estimar el error de generalización del ensacado" (PDF) . Aprendizaje automático . 35 (1): 41–55. doi :10.1023/A:1007519102914. S2CID 14357246.
^ Clarke, B., Promediado y apilamiento del modelo Bayes cuando no se puede ignorar el error de aproximación del modelo, Journal of Machine Learning Research, págs. 683-712, 2003
^ Alféizar, J.; Takacs, G.; Mackey, L.; Lin, D. (2009). "Apilamiento lineal ponderado por funciones". arXiv : 0911.0460 [cs.LG].
^ Amini, Shahram M.; Parmetro, Christopher F. (2011). "Modelo bayesiano promediando en R" (PDF) . Revista de Medición Económica y Social . 36 (4): 253–287. doi :10.3233/JEM-2011-0350.
^ "BMS: biblioteca de promedios de modelos bayesianos". La red integral de archivos de R. 2015-11-24 . Consultado el 9 de septiembre de 2016 .
^ "BAS: promedio del modelo bayesiano mediante muestreo adaptativo bayesiano". La red integral de archivos de R. Consultado el 9 de septiembre de 2016 .
^ "BMA: promedio del modelo bayesiano". La red integral de archivos de R. Consultado el 9 de septiembre de 2016 .
^ "Conjuntos de clasificación". MATLAB y Simulink . Consultado el 8 de junio de 2017 .
^ ab Woźniak, Michał; Graña, Manuel; Corchado, Emilio (marzo de 2014). "Un estudio de múltiples sistemas clasificadores como sistemas híbridos". Fusión de información . 16 : 3–17. doi :10.1016/j.inffus.2013.04.006. hdl : 10366/134320 . S2CID 11632848.
^ ab Rodríguez-Galiano, VF; Ghimire, B.; Rogan, J.; Chica-Olmo, M.; Rigol-Sánchez, JP (enero de 2012). "Una evaluación de la eficacia de un clasificador forestal aleatorio para la clasificación de la cobertura del suelo". Revista ISPRS de fotogrametría y teledetección . 67 : 93-104. Código Bib : 2012JPRS...67...93R. doi :10.1016/j.isprsjprs.2011.11.002.
^ Giacinto, Giorgio; Roli, Fabio (agosto de 2001). "Diseño de conjuntos de redes neuronales eficaces con fines de clasificación de imágenes". Computación de Imagen y Visión . 19 (9–10): 699–707. CiteSeerX 10.1.1.11.5820 . doi :10.1016/S0262-8856(01)00045-2.
^ Xia, Junshi; Yokoya, Naoto; Iwasaki, Yakira (marzo de 2017). "Un novedoso clasificador de conjunto de datos hiperespectrales y LiDAR que utiliza características morfológicas". Conferencia internacional IEEE 2017 sobre acústica, habla y procesamiento de señales (ICASSP) . págs. 6185–6189. doi :10.1109/ICASSP.2017.7953345. ISBN 978-1-5090-4117-6. S2CID 40210273.
^ Mochizuki, S.; Murakami, T. (noviembre de 2012). "Comparación de precisión del mapeo de cobertura terrestre utilizando la clasificación de imágenes orientada a objetos con algoritmos de aprendizaje automático". 33ª Conferencia Asiática sobre Teledetección 2012, ACRS 2012 . 1 : 126-133.
^ Liu, Dan; Tomán, Elizabeth; Más completo, Zane; Chen, pandilla; Londo, Alexis; Xuesong, Zhang; Kaiguang, Zhao (2018). "Integración de mapas históricos e imágenes aéreas para caracterizar el cambio de uso de la tierra y la dinámica del paisaje a largo plazo: un análisis basado en objetos a través de Random Forests" (PDF) . Indicadores Ecológicos . 95 (1): 595-605. doi :10.1016/j.ecolind.2018.08.004. S2CID 92025959.
^ Giacinto, G.; Roli, F.; Fumera, G. (septiembre de 2000). "Diseño de sistemas de clasificadores múltiples eficaces mediante agrupación de clasificadores". Actas de la XV Conferencia Internacional sobre Reconocimiento de Patrones. CIPR-2000 . vol. 2. págs. 160-163. CiteSeerX 10.1.1.11.5328 . doi :10.1109/ICPR.2000.906039. ISBN 978-0-7695-0750-7. S2CID 2625643.
^ Du, Peijun; Liu, Sicong; Xia, Junshi; Zhao, Yindi (enero de 2013). "Técnicas de fusión de información para la detección de cambios a partir de imágenes de teledetección multitemporales". Fusión de información . 14 (1): 19–27. doi :10.1016/j.inffus.2012.05.003.
^ Definido por Bruzzone et al. (2002) como "La clase de datos que recibe el mayor número de votos se toma como la clase del patrón de entrada", esto es mayoría simple , que se describe más exactamente como votación por pluralidad .
^ Zhao, Kaiguang; Wulder, Michael A; Hu, Tongx; Brillante, Ryan; Wu, Qiusheng; Qin, Haiming; Li, Yang (2019). "Detección de puntos de cambio, tendencias y estacionalidad en datos de series temporales de satélites para rastrear cambios abruptos y dinámicas no lineales: un algoritmo de conjunto bayesiano". Teledetección del Medio Ambiente . 232 : 111181. Código bibliográfico : 2019RSEnv.232k1181Z. doi : 10.1016/j.rse.2019.04.034 . hdl : 11250/2651134 . S2CID 201310998.
^ Bruzzone, Lorenzo; Cossu, Roberto; Vernazza, Gianni (diciembre de 2002). "Combinación de algoritmos paramétricos y no paramétricos para una clasificación parcialmente no supervisada de imágenes de teledetección multitemporal" (PDF) . Fusión de información . 3 (4): 289–297. doi :10.1016/S1566-2535(02)00091-X.
^ Teodomir, Mugiraneza; Nascetti, Andrea; Prohibición, Yifang (2020). "Monitoreo continuo de las trayectorias de cambio de la cobertura del suelo urbano con series temporales de landsat y computación en la nube con motor landtrendr-google Earth". Sensores remotos . 12 (18): 2883. Código bibliográfico : 2020RemS...12.2883M. doi : 10.3390/rs12182883 .
^ Li, Yang; Zhao, Kaiguang; Hu, Tongxi; Zhang, Xuesong. "BEAST: un algoritmo de conjunto bayesiano para la detección de puntos de cambio y la descomposición de series temporales". GitHub .
^ Raj Kumar, P. Arun; Selvakumar, S. (julio de 2011). "Detección distribuida de ataques de denegación de servicio mediante un conjunto de clasificadores neuronales". Comunicaciones informáticas . 34 (11): 1328-1341. doi : 10.1016/j.comcom.2011.01.012.
^ Shabtai, Asaf; Moskovitch, Robert; Elovici, Yuval; Glezer, Chanan (febrero de 2009). "Detección de código malicioso mediante la aplicación de clasificadores de aprendizaje automático sobre características estáticas: una encuesta de última generación". Informe Técnico de Seguridad de la Información . 14 (1): 16–29. doi :10.1016/j.istr.2009.03.003.
^ Zhang, Boyun; Yin, Jianping; Hao, Jingbo; Zhang, Dingxing; Wang, Shulin (2007). "Detección de códigos maliciosos basada en aprendizaje conjunto". Computación autónoma y confiable . Apuntes de conferencias sobre informática. vol. 4610. págs. 468–477. doi :10.1007/978-3-540-73547-2_48. ISBN 978-3-540-73546-5.
^ Menajem, Eitan; Shabtai, Asaf; Rokach, Lior; Elovici, Yuval (febrero de 2009). "Mejora de la detección de malware mediante la aplicación de un conjunto de múltiples inductores". Estadística computacional y análisis de datos . 53 (4): 1483-1494. CiteSeerX 10.1.1.150.2722 . doi :10.1016/j.csda.2008.10.015.
^ Locasto, Michael E.; Wang, Ke; Keromytis, Ángeles D.; Salvatore, J. Stolfo (2005). "FLIPS: Prevención de intrusiones adaptativa híbrida". Avances recientes en la detección de intrusiones . Apuntes de conferencias sobre informática. vol. 3858, págs. 82-101. CiteSeerX 10.1.1.60.3798 . doi :10.1007/11663812_5. ISBN 978-3-540-31778-4.
^ Giacinto, Giorgio; Perdisci, Roberto; Del Río, Mauro; Roli, Fabio (enero de 2008). "Detección de intrusiones en redes informáticas mediante un conjunto modular de clasificadores de una clase". Fusión de información . 9 (1): 69–82. CiteSeerX 10.1.1.69.9132 . doi :10.1016/j.inffus.2006.10.002.
^ Mu, Xiaoyan; Lu, Jiangfeng; Watta, Pablo; Hassoun, Mohamad H. (julio de 2009). "Clasificadores de conjuntos basados en votación ponderada con aplicación al reconocimiento de rostros humanos y de voz". 2009 Conferencia conjunta internacional sobre redes neuronales . págs. 2168-2171. doi :10.1109/IJCNN.2009.5178708. ISBN 978-1-4244-3548-7. S2CID 18850747.
^ Yu, Su; Shan, Shiguang; Chen, Xilin; Gao, Wen (abril de 2006). "Conjunto jerárquico del clasificador Gabor Fisher para reconocimiento facial". VII Congreso Internacional sobre Reconocimiento Automático de Rostros y Gestos (FGR06) . págs. 91–96. doi :10.1109/FGR.2006.64. ISBN 978-0-7695-2503-7. S2CID 1513315.
^ Su, Y.; Shan, S.; Chen, X.; Gao, W. (septiembre de 2006). "Clasificador Gabor Fisher basado en parches para reconocimiento facial". 18ª Conferencia Internacional sobre Reconocimiento de Patrones (ICPR'06) . vol. 2. págs. 528–531. doi :10.1109/ICPR.2006.917. ISBN 978-0-7695-2521-1. S2CID 5381806.
^ Liu, Yang; Lin, Yongzheng; Chen, Yuehui (julio de 2008). "Clasificación de conjuntos basada en ICA para reconocimiento facial". 2008 Congreso de Procesamiento de Imágenes y Señales . págs. 144-148. doi :10.1109/CISP.2008.581. ISBN 978-0-7695-3119-9. S2CID 16248842.
^ Rieger, Steven A.; Muraleedharan, Rajani; Ramachandran, Ravi P. (2014). "Reconocimiento de emociones basado en el habla mediante extracción de características espectrales y un conjunto de clasificadores KNN". El noveno simposio internacional sobre procesamiento del lenguaje hablado chino . págs. 589–593. doi :10.1109/ISCSLP.2014.6936711. ISBN 978-1-4799-4219-0. S2CID 31370450.
^ Krajewski, Jarek; Batliner, Antón; Kessel, Silke (octubre de 2010). "Comparación de varios clasificadores para la detección de la confianza en uno mismo basada en el habla: un estudio piloto". 2010 XX Conferencia Internacional sobre Reconocimiento de Patrones (PDF) . págs. 3716–3719. doi :10.1109/ICPR.2010.905. ISBN 978-1-4244-7542-1. S2CID 15431610.
^ Rani, P. Ithaya; Muneeswaran, K. (25 de mayo de 2016). "Reconocer la emoción facial en secuencias de vídeo utilizando los rasgos temporales de Gabor de ojos y boca". Herramientas y aplicaciones multimedia . 76 (7): 10017–10040. doi :10.1007/s11042-016-3592-y. S2CID 20143585.
^ Rani, P. Ithaya; Muneeswaran, K. (agosto de 2016). "Reconocimiento de emociones faciales basado en las regiones de los ojos y la boca". Revista Internacional de Reconocimiento de Patrones e Inteligencia Artificial . 30 (7): 1655020. doi : 10.1142/S021800141655020X.
^ Rani, P. Ithaya; Muneeswaran, K (28 de marzo de 2018). "Reconocimiento de emociones basado en componentes faciales". Sadhana . 43 (3). doi : 10.1007/s12046-018-0801-6 .
^ Louzada, Francisco; Ara, Anderson (octubre de 2012). "Embolsado de redes probabilísticas de dependencia k: una potente herramienta alternativa de detección de fraude". Sistemas Expertos con Aplicaciones . 39 (14): 11583–11592. doi :10.1016/j.eswa.2012.04.024.
^ Sundarkumar, G. Ganesh; Ravi, Vadlamani (enero de 2015). "Un novedoso método híbrido de submuestreo para extraer conjuntos de datos desequilibrados en banca y seguros". Aplicaciones de ingeniería de la inteligencia artificial . 37 : 368–377. doi : 10.1016/j.engappai.2014.09.019.
^ ab Kim, Yoonseong; Sohn, tan joven (agosto de 2012). "Detección de fraude bursátil mediante análisis de grupos de pares". Sistemas Expertos con Aplicaciones . 39 (10): 8986–8992. doi :10.1016/j.eswa.2012.02.025.
^ Savio, A.; García-Sebastián, MT; Chyzyk, D.; Hernández, C.; Graña, M.; Sistiaga, A.; López de Munain, A.; Villanúa, J. (agosto de 2011). "Detección de trastornos neurocognitivos basada en vectores de características extraídos del análisis VBM de resonancia magnética estructural". Computadoras en Biología y Medicina . 41 (8): 600–610. doi :10.1016/j.compbiomed.2011.05.010. PMID 21621760.
^ Ayerdi, B.; Savio, A.; Graña, M. (junio de 2013). "Metaconjuntos de clasificadores para la detección de la enfermedad de Alzheimer utilizando funciones de ROI independientes". Computación natural y artificial en aplicaciones médicas y de ingeniería . Apuntes de conferencias sobre informática. vol. 7931, págs. 122-130. doi :10.1007/978-3-642-38622-0_13. ISBN 978-3-642-38621-3.
^ Gu, Quan; Ding, Yong-Sheng; Zhang, Tong-Liang (abril de 2015). "Un clasificador de conjunto basado en la predicción de clases de receptores acoplados a proteína G en baja homología". Neurocomputación . 154 : 110-118. doi :10.1016/j.neucom.2014.12.013.
^ Xue, Dan; Zhou, Xiaomin; Li, Chen; Yao, Yudong; Rahaman, Dr. Mamunur; Zhang, Jinghua; Chen, Hao; Zhang, Jinpeng; Qi, Shouliang; Sol, Hongzan (2020). "Una aplicación de técnicas de aprendizaje por transferencia y aprendizaje conjunto para la clasificación de imágenes de histopatología cervical". Acceso IEEE . 8 : 104603–104618. doi : 10.1109/ACCESS.2020.2999816 . ISSN 2169-3536. S2CID 219689893.
^ Maná, Ankur; Kundu, Rohit; Kaplun, Dmitri; Sinitca, Aleksandr; Sarkar, Ram (diciembre de 2021). "Un conjunto difuso de modelos CNN basado en rangos para la clasificación de la citología cervical". Informes científicos . 11 (1): 14538. Código bibliográfico : 2021NatSR..1114538M. doi :10.1038/s41598-021-93783-8. ISSN 2045-2322. PMC 8282795 . PMID 34267261.

Otras lecturas

Zhou Zhihua (2012). Métodos de conjunto: fundamentos y algoritmos . Chapman y Hall/CRC. ISBN 978-1-439-83003-1.
Robert Schapire ; Yoav Freund (2012). Impulso: fundamentos y algoritmos . MIT. ISBN 978-0-262-01718-3.

enlaces externos

Robi Polikar (ed.). "Aprendizaje conjunto". Scholarpedia .
El kit de herramientas Waffles (aprendizaje automático) contiene implementaciones de Bagging, Boosting, Promedio de modelos bayesianos, Combinación de modelos bayesianos, Conjunto de modelos y otras técnicas de conjunto.