En la minería de datos y el aprendizaje de reglas de asociación , el aumento es una medida del desempeño de un modelo de selección de objetivos (regla de asociación) para predecir o clasificar casos como que tienen una respuesta mejorada (con respecto a la población en su conjunto), medido contra un modelo de selección de objetivos de elección aleatoria. Un modelo de selección de objetivos está haciendo un buen trabajo si la respuesta dentro del objetivo ( ) es mucho mejor que el promedio de la línea base ( ) para la población en su conjunto. El aumento es simplemente la relación de estos valores: respuesta del objetivo dividida por la respuesta promedio. Matemáticamente,
Por ejemplo, supongamos que una población tiene una tasa de respuesta promedio del 5 %, pero un determinado modelo (o regla) ha identificado un segmento con una tasa de respuesta del 20 %. En ese caso, ese segmento tendría un aumento de 4,0 (20 %/5 %).
Por lo general, el modelador intenta dividir la población en cuantiles y clasificarlos según su influencia. Las organizaciones pueden entonces considerar cada cuantil y, al sopesar la tasa de respuesta prevista (y el beneficio financiero asociado) frente al costo, pueden decidir si comercializar en ese cuantil o no.
La curva de sustentación también puede considerarse una variación de la curva característica operativa del receptor (ROC), y también se conoce en econometría como curva de Lorenz o curva de potencia. [1]
Supongamos que el conjunto de datos que se está extrayendo es:
donde el antecedente es la variable de entrada que podemos controlar y el consecuente es la variable que intentamos predecir. Los problemas de minería reales suelen tener antecedentes más complejos, pero normalmente se centran en consecuentes de un solo valor.
La mayoría de los algoritmos de minería determinarían las siguientes reglas (modelos de orientación):
Porque estos son simplemente los patrones más comunes que se encuentran en los datos. Una simple revisión de la tabla anterior debería hacer obvias estas reglas.
El apoyo para la regla 1 es 3/7 porque ese es el número de elementos en el conjunto de datos en el que el antecedente es A y el consecuente 0. El apoyo para la regla 2 es 2/7 porque dos de los siete registros cumplen con el antecedente de B y el consecuente de 1. Los apoyos se pueden escribir como:
La confianza para la regla 1 es 3/4 porque tres de los cuatro registros que cumplen con el antecedente de A cumplen con el consecuente de 0. La confianza para la regla 2 es 2/3 porque dos de los tres registros que cumplen con el antecedente de B cumplen con el consecuente de 1. Las confianzas se pueden escribir como:
La sustentación se puede encontrar dividiendo la confianza por la probabilidad incondicional del consecuente, o dividiendo el soporte por la probabilidad del antecedente por la probabilidad del consecuente, así:
Si alguna regla tuviera un valor de 1, implicaría que la probabilidad de ocurrencia del antecedente y la del consecuente son independientes entre sí. Cuando dos eventos son independientes entre sí, no se puede establecer ninguna regla que involucre a esos dos eventos.
Si la elevación es > 1, como ocurre aquí para las reglas 1 y 2, eso nos permite saber el grado en el que esas dos ocurrencias dependen una de la otra, y hace que esas reglas sean potencialmente útiles para predecir el consecuente en futuros conjuntos de datos.
Observe que, aunque la regla 1 tiene mayor confianza, tiene menor sustentación. Intuitivamente, parecería que la regla 1 es más valiosa debido a su mayor confianza: parece más precisa (mejor sustentada). Pero la precisión de la regla independientemente del conjunto de datos puede ser engañosa. El valor de la sustentación es que considera tanto la confianza de la regla como el conjunto de datos en general.