Estadística J de Youden

La estadística J de Youden (también llamada índice de Youden ) es una estadística única que captura el desempeño de una prueba diagnóstica dicotómica . (Bookmaker) La información es su generalización al caso multiclase y estima la probabilidad de una decisión informada .

Definición

La estadística J de Youden es

J={\text{sensibilidad}}+{\text{especificidad}}-1={\text{recuperación}}_{1}+{\text{recuperación}}_{0}-1

Las dos magnitudes de la derecha son la sensibilidad y la especificidad . Por lo tanto, la fórmula expandida es:

J={\frac {\text{verdaderos positivos}}{{\text{verdaderos positivos}}+{\text{falsos negativos}}}}+{\frac {\text{verdaderos negativos}}{{\text{verdaderos negativos}}+{\text{falsos positivos}}}}-1

El índice fue sugerido por WJ Youden en 1950 ^[1] como una forma de resumir el desempeño de una prueba diagnóstica; sin embargo, la fórmula fue publicada anteriormente en Science por CS Pierce en 1884. ^[2] Su valor varía de -1 a 1 (inclusive), ^[1] y tiene un valor cero cuando una prueba diagnóstica da la misma proporción de resultados positivos para grupos con y sin la enfermedad, es decir, la prueba es inútil. Un valor de 1 indica que no hay falsos positivos o falsos negativos, es decir, la prueba es perfecta. El índice da el mismo peso a los valores falsos positivos y falsos negativos, por lo que todas las pruebas con el mismo valor del índice dan la misma proporción de resultados totales mal clasificados. Si bien es posible obtener un valor menor que cero a partir de esta ecuación, por ejemplo, la clasificación produce solo falsos positivos y falsos negativos, un valor menor que cero solo indica que se han intercambiado las etiquetas positiva y negativa. Después de corregir las etiquetas, el resultado estará en el rango de 0 a 1.

El índice de Youden se utiliza a menudo junto con el análisis de la curva ROC ( característica operativa del receptor ). ^[3] El índice se define para todos los puntos de una curva ROC, y el valor máximo del índice puede utilizarse como criterio para seleccionar el punto de corte óptimo cuando una prueba diagnóstica da un resultado numérico en lugar de dicotómico. El índice se representa gráficamente como la altura por encima de la línea de probabilidad, y también es equivalente al área bajo la curva subtendida por un único punto operativo. ^[4]

El índice de Youden también se conoce como deltaP' ^[5] y se generaliza del caso dicotómico al caso multiclase como informabilidad. ^[4]

El uso de un único índice "no es generalmente recomendable", ^[6] pero el índice de información o de Youden es la probabilidad de una decisión informada (en contraposición a una suposición aleatoria) y tiene en cuenta todas las predicciones. ^[4]

Una combinación no relacionada pero de uso común de estadísticas básicas de recuperación de información es el F-score , que es una media armónica (posiblemente ponderada) de recuperación y precisión donde recuperación = sensibilidad = tasa de verdaderos positivos. Pero la especificidad y la precisión son medidas totalmente diferentes. El F-score, como la recuperación y la precisión, solo considera las llamadas predicciones positivas, siendo la recuperación la probabilidad de predecir solo la clase positiva, la precisión la probabilidad de que una predicción positiva sea correcta y el F-score iguala estas probabilidades bajo el supuesto efectivo de que las etiquetas positivas y las predicciones positivas deben tener la misma distribución y prevalencia , ^[4] similar al supuesto subyacente al kappa de Fleiss . Youden's J, Informedness, Recall, Precision y F-score son intrínsecamente undireccionales, y apuntan a evaluar la efectividad deductiva de las predicciones en la dirección propuesta por una regla, teoría o clasificador. DeltaP es la J de Youden que se utiliza para evaluar la dirección inversa o abductiva , ^[4]^[7] (y se generaliza al caso multiclase como Marcación ), coincidiendo bien con el aprendizaje humano de asociaciones , reglas y supersticiones a medida que modelamos la posible causalidad ; ^[5] , mientras que la correlación y kappa se evalúan bidireccionalmente.

El coeficiente de correlación de Matthews es la media geométrica del coeficiente de regresión del problema dicotómico y su dual , donde los coeficientes de regresión de los componentes del coeficiente de correlación de Matthews son deltaP y deltaP' (es decir, J de Youden o I de Pierce). ^[5] El artículo principal sobre el coeficiente de correlación de Matthews analiza dos generalizaciones diferentes para el caso multiclase, una de las cuales es la media geométrica análoga de Informedness y Markedness. ^[4] Las estadísticas kappa como la kappa de Fleiss y la kappa de Cohen son métodos para calcular la confiabilidad entre evaluadores en función de diferentes suposiciones sobre las distribuciones marginales o previas, y se utilizan cada vez más como alternativas corregidas por el azar a la precisión en otros contextos (incluido el caso multiclase). La kappa de Fleiss, como la puntuación F, supone que ambas variables se extraen de la misma distribución y, por lo tanto, tienen la misma prevalencia esperada, mientras que la kappa de Cohen supone que las variables se extraen de distribuciones distintas y se referencian a un modelo de expectativa que supone que las prevalencias son independientes. ^[7]

Cuando las prevalencias reales para las dos variables positivas son iguales como se supone en el kappa de Fleiss y el puntaje F, es decir, el número de predicciones positivas coincide con el número de clases positivas en el caso dicotómico (dos clases), las diferentes medidas de correlación y kappa colapsan para identificarse con la J de Youden, y la recuperación, la precisión y el puntaje F son igualmente idénticos a la exactitud . ^[4]^[7]

Referencias

^ ab Youden, WJ (1950). "Índice para la calificación de pruebas diagnósticas". Cáncer . 3 : 32–35. doi : 10.1002/1097-0142(1950)3:1<32::aid-cncr2820030106>3.0.co;2-3 . PMID 15405679.
^ Pierce, CS (1884). "La medida numérica del éxito de las predicciones". Science . 4 (93): 453–454. doi :10.1126/science.ns-4.93.453.b.
^ Schisterman, EF; Perkins, NJ; Liu, A.; Bondell, H. (2005). "Punto de corte óptimo y su índice de Youden correspondiente para discriminar individuos utilizando muestras de sangre agrupadas". Epidemiología . 16 (1): 73–81. doi : 10.1097/01.ede.0000147512.81966.ba . PMID 15613948.
^ abcdefg Powers, David MW (2011). "Evaluación: desde precisión, recuperación y puntuación F hasta ROC, información, marcación y correlación". Revista de tecnologías de aprendizaje automático . 2 (1): 37–63. hdl :2328/27165.
^ abc Perruchet, P.; Peereman, R. (2004). "La explotación de la información distributiva en el procesamiento de sílabas". J. Neurolinguistics . 17 (2–3): 97–119. doi :10.1016/s0911-6044(03)00059-9.
^ Everitt BS (2002) Diccionario de Estadística de Cambridge. ISBN 0-521-81099-X
^ abc Powers, David MW (2012). El problema con Kappa . Conferencia del Capítulo Europeo de la Asociación de Lingüística Computacional. págs. 345–355. hdl :2328/27160.