El índice de Tversky , llamado así por Amos Tversky , [1] es una medida de similitud asimétrica en conjuntos que compara una variante con un prototipo. El índice de Tversky puede considerarse una generalización del coeficiente de Sørensen-Dice y del índice de Jaccard .
Para los conjuntos X e Y el índice de Tversky es un número entre 0 y 1 dado por
Aquí, denota el complemento relativo de Y en X.
Además, se encuentran los parámetros del índice de Tversky. El ajuste produce el índice de Jaccard; el ajuste produce el coeficiente de Sørensen-Dice.
Si consideramos a X como prototipo e Y como variante, entonces corresponde al peso del prototipo y corresponde al peso de la variante. Las medidas de Tversky con son de especial interés. [2]
Debido a la asimetría inherente, el índice de Tversky no cumple los criterios para ser considerado una métrica de similitud. Sin embargo, si se necesita simetría, se ha propuesto una variante de la formulación original utilizando funciones max y min [3]
.
,
,
Esta formulación también reorganiza los parámetros y . Por lo tanto, controla el equilibrio entre y en el denominador. De manera similar, controla el efecto de la diferencia simétrica frente a en el denominador.
Notas
- ^ Tversky, Amos (1977). "Características de la similitud" (PDF) . Psychological Review . 84 (4): 327–352. doi :10.1037/0033-295x.84.4.327.
- ^ "Teoría de la luz del día: huellas dactilares".
- ^ Jiménez, S., Becerra, C., Gelbukh, A. SOFTCARDINALITY-CORE: Mejorando la superposición de textos con medidas distributivas para la similitud textual semántica. Segunda Conferencia Conjunta sobre Semántica Léxica y Computacional (*SEM), Volumen 1: Actas de la Conferencia Principal y la Tarea Compartida: Similaridad Textual Semántica, págs. 194-201, 7 y 8 de junio de 2013, Atlanta, Georgia, EE. UU.