[1] Se han investigado ampliamente diversos métodos para aprendizaje de reglas de asociación que han resultado ser muy interesantes para descubrir relaciones entre variables en grandes conjuntos de datos.
Basado en el concepto de regla fuerte, Agrawal et al.
Esta información se puede utilizar como base para tomar decisiones sobre marketing como precios promocionales para ciertos productos o dónde ubicar estos dentro del supermercado.
se denominan respectivamente "antecedente" (o parte izquierda) y "consecuente" (o parte derecha) de la regla.
Para ilustrar estos conceptos véase el siguiente ejemplo sobre ventas en un supermercado.
El conjunto de items es: A la derecha se muestra una pequeña base de datos que contiene los items, donde el código '1' se interpreta como que el producto (item) correspondiente está presente en la transacción y el código '0' significa que dicho producto no está presente.
Un ejemplo de regla para el supermercado podría ser: Significaría que si el cliente compró 'leche' y 'pan' también compró 'mantequilla', es decir, según la especificación formal anterior se tendría que: Nótese que el ejemplo anterior es muy pequeño, en la práctica, una regla necesita un soporte de varios cientos de registros (transacciones) antes de que ésta pueda considerarse significativa desde un punto de vista estadístico.
Las restricciones más conocidas son los umbrales mínimos de "soporte" y "confianza".
, la probabilidad de encontrar la parte derecha de una regla condicionada a que se encuentre también la parte izquierda.
[4] Las reglas de asociación deben satisfacer las especificaciones del usuario en cuanto a umbrales mínimos de soporte y confianza.
Aunque el tamaño del conjunto potencia crece exponencialmente con el número de items
, es posible hacer una búsqueda eficiente utilizando la propiedad "downward-closure" del soporte[3] (también llamada anti-monótona[5]) que garantiza que para un conjunto de items frecuente, todos sus subconjuntos también son frecuentes, y del mismo modo, para un conjunto de items infrecuente, todos sus superconjuntos deben ser infrecuentes.
Explotando esta propiedad se han diseñado algoritmos eficientes (por ejemplo: Apriori[6] y Eclat[7]) para encontrar los items frecuentes.