En estadística y aprendizaje automático , los métodos de conjunto utilizan múltiples algoritmos de aprendizaje para obtener un mejor rendimiento predictivo del que se podría obtener con cualquiera de los algoritmos de aprendizaje constituyentes por sí solo. [1] [2] [3] A diferencia de un conjunto estadístico en mecánica estadística, que suele ser infinito, un conjunto de aprendizaje automático consta solo de un conjunto finito concreto de modelos alternativos, pero normalmente permite que exista una estructura mucho más flexible entre esas alternativas.
Los algoritmos de aprendizaje supervisado buscan en un espacio de hipótesis una hipótesis adecuada que permita realizar buenas predicciones para un problema en particular. [4] Incluso si este espacio contiene hipótesis que son muy adecuadas para un problema en particular, puede resultar muy difícil encontrar una buena. Los conjuntos combinan múltiples hipótesis para formar una que debería ser teóricamente mejor.
El aprendizaje conjunto entrena dos o más algoritmos de aprendizaje automático en una tarea de clasificación o regresión específica . Los algoritmos dentro del modelo conjunto generalmente se denominan "modelos base", "aprendices base" o "aprendices débiles" en la literatura. Estos modelos base se pueden construir utilizando un solo algoritmo de modelado o varios algoritmos diferentes. La idea es entrenar un conjunto diverso de modelos débiles en la misma tarea de modelado, de modo que los resultados de cada aprendiz débil tengan una capacidad predictiva deficiente (es decir, un sesgo alto ), y entre todos los aprendices débiles, los valores de resultado y error exhiban una alta varianza . Fundamentalmente, un modelo de aprendizaje conjunto entrena al menos dos modelos de alto sesgo (débil) y alta varianza (diversos) para combinarlos en un modelo de mejor rendimiento. El conjunto de modelos débiles, que no producirían resultados predictivos satisfactorios individualmente, se combinan o promedian para producir un modelo único, de alto rendimiento, preciso y de baja varianza que se ajuste a la tarea según sea necesario.
El aprendizaje de conjunto generalmente se refiere al bagging ( agregación bootstrap ), boosting o técnicas de apilamiento/combinación para inducir una alta varianza entre los modelos base. El bagging crea diversidad al generar muestras aleatorias a partir de las observaciones de entrenamiento y ajustar el mismo modelo a cada muestra diferente, también conocido como conjuntos paralelos homogéneos . El boosting sigue un proceso iterativo al entrenar secuencialmente cada modelo base en los errores ponderados hacia arriba del modelo base anterior, produciendo un modelo aditivo para reducir los errores del modelo final, también conocido como aprendizaje de conjunto secuencial . El apilamiento o la combinación consiste en diferentes modelos base, cada uno entrenado de forma independiente (es decir, diverso/alta varianza) para combinarse en el modelo de conjunto, produciendo un conjunto paralelo heterogéneo . Las aplicaciones comunes del aprendizaje de conjunto incluyen bosques aleatorios (una extensión del bagging), modelos de árbol boosted y modelos de árbol boosted de gradiente . Los modelos en aplicaciones de apilamiento son generalmente más específicos de la tarea, como la combinación de técnicas de agrupamiento con otras técnicas paramétricas y/o no paramétricas. [5]
El término más amplio de sistemas de clasificación múltiple también cubre la hibridación de hipótesis que no son inducidas por el mismo aprendiz base. [ cita requerida ]
La evaluación de la predicción de un conjunto requiere normalmente más cálculos que la evaluación de la predicción de un único modelo. En cierto sentido, el aprendizaje por conjuntos puede considerarse una forma de compensar los algoritmos de aprendizaje deficientes realizando una gran cantidad de cálculos adicionales. Por otro lado, la alternativa es realizar mucho más aprendizaje con un modelo que no sea un conjunto. Un conjunto puede ser más eficiente a la hora de mejorar la precisión general para el mismo aumento de los recursos de cómputo, almacenamiento o comunicación utilizando ese aumento en dos o más métodos, de lo que se habría mejorado aumentando el uso de recursos para un único método. Los algoritmos rápidos, como los árboles de decisión, se utilizan habitualmente en los métodos de conjunto (por ejemplo, bosques aleatorios), aunque los algoritmos más lentos también pueden beneficiarse de las técnicas de conjunto.
Por analogía, las técnicas de conjunto también se han utilizado en escenarios de aprendizaje no supervisado , por ejemplo en la agrupación por consenso o en la detección de anomalías .
Empíricamente, los conjuntos tienden a producir mejores resultados cuando hay una diversidad significativa entre los modelos. [6] [7] Por lo tanto, muchos métodos de conjuntos buscan promover la diversidad entre los modelos que combinan. [8] [9] Aunque quizás no sean intuitivos, se pueden usar algoritmos más aleatorios (como árboles de decisión aleatorios) para producir un conjunto más fuerte que algoritmos muy deliberados (como árboles de decisión que reducen la entropía). [10] Sin embargo, se ha demostrado que usar una variedad de algoritmos de aprendizaje fuerte es más efectivo que usar técnicas que intentan simplificar los modelos para promover la diversidad. [11] Es posible aumentar la diversidad en la etapa de entrenamiento del modelo usando correlación para tareas de regresión [12] o usando medidas de información como la entropía cruzada para tareas de clasificación. [13]
En teoría, se puede justificar el concepto de diversidad porque el límite inferior de la tasa de error de un sistema de conjunto se puede descomponer en precisión, diversidad y el otro término. [14]
El aprendizaje en conjunto, que incluye tanto las tareas de regresión como las de clasificación, se puede explicar mediante un marco geométrico. [15] Dentro de este marco, el resultado de cada clasificador o regresor individual para todo el conjunto de datos se puede considerar como un punto en un espacio multidimensional. Además, el resultado objetivo también se representa como un punto en este espacio, denominado "punto ideal".
La distancia euclidiana se utiliza como métrica para medir tanto el rendimiento de un único clasificador o regresor (la distancia entre su punto y el punto ideal) como la disimilitud entre dos clasificadores o regresores (la distancia entre sus respectivos puntos). Esta perspectiva transforma el aprendizaje en conjunto en un problema determinista.
Por ejemplo, dentro de este marco geométrico, se puede demostrar que el promedio de los resultados (puntajes) de todos los clasificadores o regresores base puede conducir a resultados iguales o mejores que el promedio de todos los modelos individuales. También se puede demostrar que si se utiliza el esquema de ponderación óptimo, entonces un enfoque de promedio ponderado puede superar a cualquiera de los clasificadores o regresores individuales que componen el conjunto o, al menos, tan bueno como el mejor desempeño.
Si bien la cantidad de clasificadores de componentes de un conjunto tiene un gran impacto en la precisión de la predicción, existe una cantidad limitada de estudios que abordan este problema. La determinación a priori del tamaño del conjunto y el volumen y la velocidad de los flujos de datos masivos hacen que esto sea aún más crucial para los clasificadores de conjuntos en línea. Se utilizaron principalmente pruebas estadísticas para determinar la cantidad adecuada de componentes. Más recientemente, un marco teórico sugirió que existe una cantidad ideal de clasificadores de componentes para un conjunto, de modo que tener más o menos que esta cantidad de clasificadores deterioraría la precisión. Se denomina "la ley de los rendimientos decrecientes en la construcción de conjuntos". Su marco teórico muestra que usar la misma cantidad de clasificadores de componentes independientes como etiquetas de clase brinda la mayor precisión. [16] [17]
El clasificador óptimo de Bayes es una técnica de clasificación. Es un conjunto de todas las hipótesis en el espacio de hipótesis. En promedio, ningún otro conjunto puede superarlo. [18] El clasificador Bayes ingenuo es una versión de este que supone que los datos son condicionalmente independientes de la clase y hace que el cálculo sea más factible. A cada hipótesis se le otorga un voto proporcional a la probabilidad de que el conjunto de datos de entrenamiento se muestree de un sistema si esa hipótesis fuera verdadera. Para facilitar el entrenamiento de datos de tamaño finito, el voto de cada hipótesis también se multiplica por la probabilidad previa de esa hipótesis. El clasificador óptimo de Bayes se puede expresar con la siguiente ecuación:
donde es la clase predicha, es el conjunto de todas las clases posibles, es el espacio de hipótesis, se refiere a una probabilidad y son los datos de entrenamiento. Como conjunto, el clasificador óptimo de Bayes representa una hipótesis que no está necesariamente en . Sin embargo, la hipótesis representada por el clasificador óptimo de Bayes es la hipótesis óptima en el espacio de conjuntos (el espacio de todos los conjuntos posibles que consisten solo en hipótesis en ).
Esta fórmula se puede reformular utilizando el teorema de Bayes , que dice que la probabilidad posterior es proporcional a la probabilidad anterior:
por eso,
La agregación bootstrap ( bagging ) implica entrenar un conjunto con conjuntos de datos bootstrap . Un conjunto bootstrap se crea seleccionando del conjunto de datos de entrenamiento original con reemplazo. Por lo tanto, un conjunto bootstrap puede contener un ejemplo dado cero, una o varias veces. Los miembros del conjunto también pueden tener límites en las características (por ejemplo, nodos de un árbol de decisión), para alentar la exploración de diversas características. [19] La varianza de la información local en los conjuntos bootstrap y las consideraciones de características promueven la diversidad en el conjunto y pueden fortalecer el conjunto. [20] Para reducir el sobreajuste, un miembro puede validarse utilizando el conjunto fuera de la bolsa (los ejemplos que no están en su conjunto bootstrap). [21]
La inferencia se realiza mediante la votación de las predicciones de los miembros del conjunto, llamada agregación . A continuación, se ilustra con un conjunto de cuatro árboles de decisión. El ejemplo de consulta se clasifica por cada árbol. Debido a que tres de los cuatro predicen la clase positiva , la clasificación general del conjunto es positiva . Los bosques aleatorios como el que se muestra son una aplicación común del bagging.
El refuerzo implica entrenar modelos sucesivos haciendo hincapié en los datos de entrenamiento que los modelos aprendidos previamente clasificaron incorrectamente. Inicialmente, todos los datos (D1) tienen el mismo peso y se utilizan para aprender un modelo base M1. A los ejemplos clasificados incorrectamente por M1 se les asigna un peso mayor que a los ejemplos clasificados correctamente. Estos datos reforzados (D2) se utilizan para entrenar un segundo modelo base M2, y así sucesivamente. La inferencia se realiza mediante votación.
En algunos casos, el boosting ha dado mejores resultados que el bagging, pero tiende a sobreajustarse más. La implementación más común del boosting es Adaboost , pero se ha informado que algunos algoritmos más nuevos logran mejores resultados. [ cita requerida ]
El promedio del modelo bayesiano (BMA) hace predicciones promediando las predicciones de los modelos ponderados por sus probabilidades posteriores dados los datos. [22] Se sabe que el BMA generalmente brinda mejores respuestas que un modelo único, obtenido, por ejemplo, a través de regresión por pasos , especialmente cuando modelos muy diferentes tienen un rendimiento casi idéntico en el conjunto de entrenamiento pero, por lo demás, pueden tener un rendimiento bastante diferente.
La cuestión con cualquier uso del teorema de Bayes es el anterior, es decir, la probabilidad (quizás subjetiva) de que cada modelo sea el mejor para usar con un propósito dado. Conceptualmente, BMA se puede utilizar con cualquier anterior. Los paquetes R ensembleBMA [23] y BMA [24] utilizan el anterior implícito en el criterio de información bayesiano (BIC), siguiendo a Raftery (1995). [25] El paquete R BAS admite el uso de los anteriores implícitos en el criterio de información de Akaike (AIC) y otros criterios sobre los modelos alternativos, así como anteriores sobre los coeficientes. [26]
La diferencia entre BIC y AIC es la fuerza de la preferencia por la parsimonia. La penalización de BIC por la complejidad del modelo es , mientras que la de AIC es . La teoría asintótica de muestras grandes establece que si hay un mejor modelo, entonces con tamaños de muestra crecientes, BIC es fuertemente consistente, es decir, casi con certeza lo encontrará, mientras que AIC puede no hacerlo, porque AIC puede continuar colocando una probabilidad posterior excesiva en modelos que son más complicados de lo que necesitan ser. Por otro lado, AIC y AICc son asintóticamente "eficientes" (es decir, error de predicción cuadrático medio mínimo), mientras que BIC no lo es. [27]
Haussler et al. (1994) demostraron que cuando se utiliza BMA para la clasificación, su error esperado es como máximo el doble del error esperado del clasificador óptimo de Bayes. [28] Burnham y Anderson (1998, 2002) contribuyeron en gran medida a introducir a un público más amplio las ideas básicas del promedio de modelos bayesianos y a popularizar la metodología. [29] La disponibilidad de software, incluidos otros paquetes gratuitos de código abierto para R más allá de los mencionados anteriormente, ayudó a que los métodos fueran accesibles a un público más amplio. [30]
La combinación de modelos bayesianos (BMC) es una corrección algorítmica del promedio de modelos bayesianos (BMA). En lugar de muestrear cada modelo del conjunto individualmente, muestrea del espacio de conjuntos posibles (con pesos de modelos extraídos aleatoriamente de una distribución de Dirichlet que tiene parámetros uniformes). Esta modificación supera la tendencia de BMA a converger hacia dar todo el peso a un solo modelo. Aunque la BMC es algo más costosa computacionalmente que la BMA, tiende a producir resultados drásticamente mejores. Se ha demostrado que la BMC es mejor en promedio (con significancia estadística) que la BMA y el bagging. [31]
El uso de la ley de Bayes para calcular los pesos de los modelos requiere calcular la probabilidad de los datos dados para cada modelo. Normalmente, ninguno de los modelos del conjunto es exactamente la distribución a partir de la cual se generaron los datos de entrenamiento, por lo que todos ellos reciben correctamente un valor cercano a cero para este término. Esto funcionaría bien si el conjunto fuera lo suficientemente grande como para muestrear todo el espacio de modelos, pero esto rara vez es posible. En consecuencia, cada patrón en los datos de entrenamiento hará que el peso del conjunto se desplace hacia el modelo en el conjunto que esté más cerca de la distribución de los datos de entrenamiento. Básicamente, se reduce a un método innecesariamente complejo para realizar la selección de modelos.
Las ponderaciones posibles para un conjunto se pueden visualizar como si se encontraran en un símplex. En cada vértice del símplex, todo el peso se asigna a un solo modelo del conjunto. BMA converge hacia el vértice que está más cerca de la distribución de los datos de entrenamiento. Por el contrario, BMC converge hacia el punto donde esta distribución se proyecta sobre el símplex. En otras palabras, en lugar de seleccionar el modelo que está más cerca de la distribución generadora, busca la combinación de modelos que está más cerca de la distribución generadora.
Los resultados de BMA se pueden aproximar a menudo mediante el uso de validación cruzada para seleccionar el mejor modelo de un conjunto de modelos. Del mismo modo, los resultados de BMC se pueden aproximar mediante el uso de validación cruzada para seleccionar la mejor combinación de conjunto de un muestreo aleatorio de ponderaciones posibles.
Un "conjunto de modelos" es una técnica de conjunto en la que se utiliza un algoritmo de selección de modelos para elegir el mejor modelo para cada problema. Cuando se prueba con un solo problema, un conjunto de modelos no puede producir mejores resultados que el mejor modelo del conjunto, pero cuando se evalúa en muchos problemas, normalmente producirá resultados mucho mejores, en promedio, que cualquier modelo del conjunto.
El método más común utilizado para la selección de modelos es la selección por validación cruzada (a veces denominada "concurso de selección"). Se describe con el siguiente pseudocódigo:
Para cada modelo m en el bucket: Haz c veces: (donde 'c' es alguna constante) Divida aleatoriamente el conjunto de datos de entrenamiento en dos conjuntos: A y B Tren m con A Prueba m con BSeleccione el modelo que obtenga la puntuación media más alta
La selección de validación cruzada se puede resumir como: "pruébalos todos con el conjunto de entrenamiento y elige el que funcione mejor". [32]
La selección por validación cruzada es una generalización de la selección por validación cruzada. Implica entrenar otro modelo de aprendizaje para decidir cuál de los modelos del grupo es el más adecuado para resolver el problema. A menudo, se utiliza un perceptrón para el modelo de selección por validación. Se puede utilizar para elegir el "mejor" modelo o para dar un peso lineal a las predicciones de cada modelo del grupo.
Cuando se utiliza un conjunto de modelos con un gran conjunto de problemas, puede ser conveniente evitar entrenar algunos de los modelos que requieren mucho tiempo para entrenarse. El aprendizaje de referencia es un enfoque de metaaprendizaje que busca resolver este problema. Implica entrenar solo los algoritmos rápidos (pero imprecisos) del conjunto y luego usar el desempeño de estos algoritmos para ayudar a determinar qué algoritmo lento (pero preciso) tiene más probabilidades de funcionar mejor. [33]
El enfoque más común para entrenar clasificadores es usar la función de costo de entropía cruzada . Sin embargo, sería bueno entrenar un conjunto de modelos que tengan diversidad, de modo que cuando los combinemos, se obtengan los mejores resultados. [34] [35] Suponiendo que usemos un conjunto simple de clasificadores promediados, entonces el costo de entropía cruzada modificado es
donde es la función de costo del clasificador, es la probabilidad del clasificador, es la probabilidad verdadera que necesitamos estimar y es un parámetro entre 0 y 1 que define la diversidad que nos gustaría establecer. Cuando queremos que cada clasificador haga lo mejor que pueda independientemente del conjunto y cuando nos gustaría que el clasificador sea lo más diverso posible.
El apilamiento (a veces llamado generalización apilada ) implica entrenar un modelo para combinar las predicciones de varios otros algoritmos de aprendizaje. Primero, todos los demás algoritmos se entrenan usando los datos disponibles, luego se entrena un algoritmo combinador (estimador final) para hacer una predicción final usando todas las predicciones de los otros algoritmos (estimadores base) como entradas adicionales o usando predicciones validadas cruzadamente de los estimadores base que pueden prevenir el sobreajuste. [36] Si se usa un algoritmo combinador arbitrario, entonces el apilamiento puede representar teóricamente cualquiera de las técnicas de conjunto descritas en este artículo, aunque, en la práctica, a menudo se usa un modelo de regresión logística como combinador.
El apilamiento generalmente produce un mejor rendimiento que cualquiera de los modelos entrenados individualmente. [37] Se ha utilizado con éxito tanto en tareas de aprendizaje supervisado (regresión, [38] clasificación y aprendizaje a distancia [39] ) como en aprendizaje no supervisado (estimación de densidad). [40] También se ha utilizado para estimar la tasa de error de bagging. [3] [41] Se ha informado que supera al promedio de modelos bayesianos. [42] Los dos mejores en la competencia de Netflix utilizaron mezcla, que puede considerarse una forma de apilamiento. [43]
La votación es otra forma de agrupamiento. Véase, por ejemplo, el algoritmo de mayoría ponderada (aprendizaje automático) .
En los últimos años, debido al creciente poder computacional, que permite el entrenamiento en aprendizaje de conjuntos grandes en un marco de tiempo razonable, el número de aplicaciones de aprendizaje de conjuntos ha crecido cada vez más. [49] Algunas de las aplicaciones de los clasificadores de conjuntos incluyen:
El mapeo de la cobertura terrestre es una de las principales aplicaciones de los sensores satelitales de observación de la Tierra , utilizando detección remota y datos geoespaciales , para identificar los materiales y objetos que se encuentran en la superficie de las áreas objetivo. Generalmente, las clases de materiales objetivo incluyen carreteras, edificios, ríos, lagos y vegetación. [50] Se proponen algunos enfoques de aprendizaje de conjunto diferentes basados en redes neuronales artificiales , [51] análisis de componentes principales del núcleo (KPCA), [52] árboles de decisión con refuerzo , [53] bosque aleatorio [50] [54] y diseño automático de sistemas de clasificación múltiple, [55] para identificar de manera eficiente los objetos de cobertura terrestre .
La detección de cambios es un problema de análisis de imágenes que consiste en la identificación de lugares donde la cobertura del suelo ha cambiado con el tiempo. La detección de cambios se utiliza ampliamente en campos como el crecimiento urbano , la dinámica de los bosques y la vegetación , el uso del suelo y el monitoreo de desastres . [56] Las primeras aplicaciones de los clasificadores de conjunto en la detección de cambios están diseñadas con la votación por mayoría , [57] el promedio del modelo bayesiano , [58] y la probabilidad posterior máxima . [59] Dado el crecimiento de los datos satelitales a lo largo del tiempo, la última década ve un mayor uso de métodos de series de tiempo para la detección continua de cambios a partir de pilas de imágenes. [60] Un ejemplo es un método de detección de puntos de cambio de conjunto bayesiano llamado BEAST, con el software disponible como un paquete Rbeast en R, Python y Matlab. [61]
La denegación distribuida de servicio es uno de los ciberataques más amenazantes que pueden ocurrirle a un proveedor de servicios de Internet . [49] Al combinar la salida de clasificadores individuales, los clasificadores de conjunto reducen el error total de detección y discriminación de tales ataques de multitudes flash legítimas . [62]
La clasificación de códigos maliciosos como virus informáticos , gusanos informáticos , troyanos , ransomware y spyware con el uso de técnicas de aprendizaje automático se inspira en el problema de categorización de documentos . [63] Los sistemas de aprendizaje conjunto han demostrado una eficacia adecuada en esta área. [64] [65]
Un sistema de detección de intrusos monitorea redes o sistemas informáticos para identificar códigos de intrusos como un proceso de detección de anomalías . El aprendizaje por conjuntos ayuda a estos sistemas de monitoreo a reducir su error total. [66] [67]
El reconocimiento facial , que recientemente se ha convertido en una de las áreas de investigación más populares del reconocimiento de patrones , se ocupa de la identificación o verificación de una persona a partir de sus imágenes digitales . [68]
Los conjuntos jerárquicos basados en el clasificador de Gabor Fisher y técnicas de preprocesamiento de análisis de componentes independientes son algunos de los primeros conjuntos empleados en este campo. [69] [70] [71]
Si bien el reconocimiento de voz se basa principalmente en el aprendizaje profundo , debido a que la mayoría de los actores de la industria en este campo, como Google , Microsoft e IBM, revelan que la tecnología central de su reconocimiento de voz se basa en este enfoque, el reconocimiento de emociones basado en el habla también puede tener un desempeño satisfactorio con el aprendizaje en conjunto. [72] [73]
También se está utilizando con éxito en el reconocimiento de emociones faciales . [74] [75] [76]
La detección de fraudes se ocupa de la identificación de fraudes bancarios , como el lavado de dinero , el fraude con tarjetas de crédito y el fraude en telecomunicaciones, que tienen vastos dominios de investigación y aplicaciones de aprendizaje automático . Debido a que el aprendizaje conjunto mejora la solidez del modelado de comportamiento normal, se ha propuesto como una técnica eficiente para detectar tales casos y actividades fraudulentas en los sistemas bancarios y de tarjetas de crédito. [77] [78]
La precisión de la predicción de la quiebra de una empresa es una cuestión crucial en la toma de decisiones financieras. Por lo tanto, se proponen diferentes clasificadores de conjunto para predecir las crisis financieras y las dificultades financieras . [79] Además, en el problema de la manipulación basada en el comercio , donde los comerciantes intentan manipular los precios de las acciones mediante actividades de compra y venta, se requieren clasificadores de conjunto para analizar los cambios en los datos del mercado de valores y detectar síntomas sospechosos de manipulación del precio de las acciones . [79]
Los clasificadores de conjuntos se han aplicado con éxito en neurociencia , proteómica y diagnóstico médico como en la detección de trastornos neurocognitivos (es decir, Alzheimer o distrofia miotónica ) basada en conjuntos de datos de resonancia magnética, [80] [81] [82] y la clasificación de citología cervical. [83] [84]
{{cite journal}}
: CS1 maint: DOI inactive as of November 2024 (link)