En estadística, la D de Somers , a veces incorrectamente denominada D de Somers , es una medida de asociación ordinal entre dos variables aleatorias posiblemente dependientes X e Y. La D de Somers toma valores entre cuando todos los pares de variables están en desacuerdo y cuando todos los pares de variables están de acuerdo. La D de Somers recibe su nombre de Robert H. Somers, quien la propuso en 1962. [1]
La D de Somers desempeña un papel central en las estadísticas de rango y es el parámetro detrás de muchos métodos no paramétricos. [2] También se utiliza como una medida de calidad de la elección binaria o regresión ordinal (por ejemplo, regresiones logísticas ) y modelos de calificación crediticia .
Decimos que dos pares y son concordantes si los rangos de ambos elementos concuerdan, o y o si y . Decimos que dos pares y son discordantes, si los rangos de ambos elementos no concuerdan, o si y o si y . Si o , el par no es ni concordante ni discordante.
Sea un conjunto de observaciones de dos vectores aleatorios posiblemente dependientes X e Y. Defina el coeficiente de correlación de rango tau de Kendall como
donde es el número de pares concordantes y es el número de pares discordantes. La D de Somers de Y con respecto a X se define como . [2] Nótese que la tau de Kendall es simétrica en X e Y , mientras que la D de Somers es asimétrica en X e Y .
Como cuantifica el número de pares con valores X desiguales , la D de Somers es la diferencia entre el número de pares concordantes y discordantes, dividido por el número de pares con valores X en el par que son desiguales.
Sean dos variables aleatorias bivariadas independientes y que tengan la misma distribución de probabilidad . Nuevamente, la D de Somers , que mide la asociación ordinal de las variables aleatorias X e Y en , se puede definir a través de la tau de Kendall
o la diferencia entre las probabilidades de concordancia y discordancia. La D de Somers de Y con respecto a X se define como . Por lo tanto, es la diferencia entre las dos probabilidades correspondientes, condicionada a que los valores de X no sean iguales. Si X tiene una distribución de probabilidad continua , entonces y la tau de Kendall y la D de Somers coinciden. La D de Somers normaliza la tau de Kendall para posibles puntos de masa de la variable X .
Si X e Y son ambos binarios con valores 0 y 1, entonces la D de Somers es la diferencia entre dos probabilidades:
En la práctica, la D de Somers se utiliza con mayor frecuencia cuando la variable dependiente Y es una variable binaria , [2] es decir, para la clasificación binaria o la predicción de resultados binarios, incluidos los modelos de elección binaria en econometría. Los métodos para ajustar dichos modelos incluyen la regresión logística y probit .
Se pueden utilizar varias estadísticas para cuantificar la calidad de dichos modelos: área bajo la curva característica operativa del receptor (ROC), gamma de Goodman y Kruskal , tau de Kendall (Tau-a) , D de Somers , etc. La D de Somers es probablemente la estadística de asociación ordinal más utilizada disponible. [3] Idéntica al coeficiente de Gini , la D de Somers está relacionada con el área bajo la curva característica operativa del receptor (AUC), [2]
En el caso en que la variable independiente (predictora) X es discreta y la variable dependiente (resultado) Y es binaria, la D de Somers es igual a
donde es el número de pares ni concordantes ni discordantes que están empatados en la variable X y no en la variable Y.
Supongamos que la variable independiente (predictora) X toma tres valores,0,25 ,0,5 , o0,75 , y la variable dependiente (resultado) Y toma dos valores,0 o1. La siguiente tabla contiene las combinaciones observadas de X e Y :
El número de pares concordantes es igual
El número de pares discordantes es igual
El número de pares empatados es igual al número total de pares menos los pares concordantes y discordantes.
Por lo tanto, la D de Somers es igual a