D de Somers

En estadística, la D de Somers , a veces incorrectamente denominada D de Somers , es una medida de asociación ordinal entre dos variables aleatorias posiblemente dependientes $X$ e $Y.$ La D de Somers toma valores entre cuando todos los pares de variables están en desacuerdo y cuando todos los pares de variables están de acuerdo. La D de Somers recibe su nombre de Robert H. Somers, quien la propuso en 1962. ^[1] ${\estilo de visualización -1}$ ${\estilo de visualización 1}$

La D de Somers desempeña un papel central en las estadísticas de rango y es el parámetro detrás de muchos métodos no paramétricos. ^[2] También se utiliza como una medida de calidad de la elección binaria o regresión ordinal (por ejemplo, regresiones logísticas ) y modelos de calificación crediticia .

De SomersDPara muestra

Decimos que dos pares y son concordantes si los rangos de ambos elementos concuerdan, o y o si y . Decimos que dos pares y son discordantes, si los rangos de ambos elementos no concuerdan, o si y o si y . Si o , el par no es ni concordante ni discordante. $(x_{i},y_{i})$ $(x_{j},y_{j})$ $x_{i}>x_{j}$ $y_{i}>y_{j}$ $x_{i}<x_{j}$ $y_{i}<y_{j}$ $(x_{i},y_{i})$ $(x_{j},y_{j})$ $x_{i}>x_{j}$ $y_{i}<y_{j}$ $x_{i}<x_{j}$ $y_{i}>y_{j}$ $x_{i}=x_{j}$ $y_{i}=y_{j}$

Sea un conjunto de observaciones de dos vectores aleatorios posiblemente dependientes $X$ e $Y.$ Defina el coeficiente de correlación de rango tau de Kendall como $(x_{1},y_{1}),(x_{2},y_{2}),\ldots ,(x_{n},y_{n})$ ${\estilo de visualización \tau}$

\tau ={\frac {N_{C}-N_{D}}{n(n-1)/2}},

donde es el número de pares concordantes y es el número de pares discordantes. La D de Somers de $Y$ con respecto a $X$ se define como . ^[2] Nótese que la tau de Kendall es simétrica en $X$ e $Y , mientras que$ la D de Somers es asimétrica en $X$ e $Y$ . $Estilo de visualización N_{C}$ $Estilo de visualización N_ {D}}$ $D_{YX}=\tau (X,Y)/\tau (X,X)$

Como cuantifica el número de pares con valores $X$ desiguales , la D de Somers es la diferencia entre el número de pares concordantes y discordantes, dividido por el número de pares con valores $X$ en el par que son desiguales. $\tau(X,X)$

De SomersDPara distribución

Sean dos variables aleatorias bivariadas independientes y que tengan la misma distribución de probabilidad . Nuevamente, la D de Somers , que mide la asociación ordinal de las variables aleatorias $X$ e $Y$ en , se puede definir a través de la tau de Kendall $(X_{1},Y_{1})$ ${\estilo de visualización (X_{2},Y_{2})}$ $\nombre del operador {P} _{XY}$ $\nombre del operador {P} _{XY}$

{\begin{aligned}\tau (X,Y)&=\operatorname {E} {\Bigl (}\operatorname {sgn}(X_{1}-X_{2})\operatorname {sgn}(Y_{1}-Y_{2}){\Bigr )}\\&=\operatorname {P} {\Bigl (}\operatorname {sgn}(X_{1}-X_{2})\operatorname {sgn}(Y_{1}-Y_{2})=1{\Bigr )}-\operatorname {P} {\Bigl (}\operatorname {sgn}(X_{1}-X_{2})\operatorname {sgn}(Y_{1}-Y_{2})=-1{\Bigr )},\\\end{aligned}}

o la diferencia entre las probabilidades de concordancia y discordancia. La D de Somers de $Y$ con respecto a $X$ se define como . Por lo tanto, es la diferencia entre las dos probabilidades correspondientes, condicionada a que los valores de $X$ no sean iguales. Si $X$ tiene una distribución de probabilidad continua , entonces y la tau de Kendall y la D de Somers coinciden. La D de Somers normaliza la tau de Kendall para posibles puntos de masa de la variable $X$ . $D_{YX}=\tau (X,Y)/\tau (X,X)$ $Estilo de visualización: D_ {YX}$ $\tau(X,X)=1$

Si $X$ e $Y son ambos binarios con valores 0 y 1, entonces$ la D de Somers es la diferencia entre dos probabilidades:

D_{YX}=\nombredeloperador {P} (Y=1\mid X=1)-\nombredeloperador {P} (Y=1\mid X=0).

De SomersDpara variables dependientes binarias

En la práctica, la D de Somers se utiliza con mayor frecuencia cuando la variable dependiente Y es una variable binaria , ^[2] es decir, para la clasificación binaria o la predicción de resultados binarios, incluidos los modelos de elección binaria en econometría. Los métodos para ajustar dichos modelos incluyen la regresión logística y probit .

Se pueden utilizar varias estadísticas para cuantificar la calidad de dichos modelos: área bajo la curva característica operativa del receptor (ROC), gamma de Goodman y Kruskal , tau de Kendall (Tau-a) , D de Somers , etc. La D de Somers es probablemente la estadística de asociación ordinal más utilizada disponible. ^[3] Idéntica al coeficiente de Gini , la D de Somers está relacionada con el área bajo la curva característica operativa del receptor (AUC), ^[2]

\mathrm {AUC} ={\frac {D_{XY}+1}{2}}

En el caso en que la variable independiente (predictora) $X$ es discreta y la variable dependiente (resultado) $Y es binaria,$ la D de Somers es igual a

D_{XY}={\frac {N_{C}-N_{D}}{N_{C}+N_{D}+N_{T}}},

donde es el número de pares ni concordantes ni discordantes que están empatados en la variable $X$ y no en la variable $Y.$ $Estilo de visualización N_{T}$

Ejemplo

Supongamos que la variable independiente (predictora) $X$ toma tres valores,0,25 ,0,5 , o0,75 , y la variable dependiente (resultado) $Y$ toma dos valores,0 o1. La siguiente tabla contiene las combinaciones observadas de $X$ e $Y$ :

El número de pares concordantes es igual

N_{C}=3\veces 7+3\veces 6+5\veces 6=69.

El número de pares discordantes es igual

N_{D}=1\veces 5+1\veces 2+7\veces 2=21.

El número de pares empatados es igual al número total de pares menos los pares concordantes y discordantes.

N_{T}=(3+5+2)\times (1+7+6)-69-21=50

Por lo tanto, la D de Somers es igual a

D_{XY}={\frac {69-21}{69+21+50}}\aproximadamente 0,34.

Referencias

^ Somers, RH (1962). "Una nueva medida asimétrica de asociación para variables ordinales". American Sociological Review . 27 (6). doi :10.2307/2090408. JSTOR 2090408.
^ abcd Newson, Roger (2002). "Parámetros detrás de las estadísticas "no paramétricas": la tau de Kendall, la D de Somers y las diferencias medianas". Stata Journal . 2 (1): 45–64.
^ O'Connell, AA (2006). Modelos de regresión logística para variables de respuesta ordinales . Publicaciones SAGE.