Puntuación de riesgo

Una puntuación de riesgo es una métrica utilizada en estadística , bioestadística , econometría y disciplinas relacionadas para estratificar una población para realizar pruebas de detección específicas. Asigna puntuaciones a los individuos en función de factores de riesgo; una puntuación más alta refleja un mayor riesgo. La puntuación refleja el nivel de riesgo en presencia de algunos factores de riesgo (por ejemplo, riesgo de mortalidad o enfermedad en presencia de síntomas o perfil genético, riesgo de pérdida financiera considerando el historial crediticio y financiero, etc.).

Las puntuaciones de riesgo están diseñadas principalmente para ser:

Fácil de calcular: en casos simples, se puede utilizar la computación manual para calcular una puntuación básica (aunque algunas puntuaciones se basan en cálculos más sofisticados o menos transparentes que requieren un programa de computadora).
Fácil de interpretar: el resultado del cálculo es un único número; una puntuación más alta suele significar un riesgo mayor. Además, muchos métodos de puntuación imponen alguna forma de monotonicidad a lo largo de los factores de riesgo medidos para permitir una interpretación sencilla de la puntuación (por ejemplo, el riesgo de mortalidad sólo aumenta con la edad, el riesgo de incumplimiento de pago sólo aumenta con la cantidad de deuda total que tiene el cliente, etc. .).
Accionable: las puntuaciones están diseñadas en torno a un conjunto de posibles acciones que deben tomarse como resultado de la puntuación calculada. Se pueden diseñar y ejecutar políticas efectivas basadas en puntajes estableciendo umbrales en el valor del puntaje y asociándolos con acciones escalables.

Definicion formal

Un método de puntuación típico se compone de 3 componentes: ^[1]

Un conjunto de reglas (o ponderaciones) consistentes que asignan un valor numérico ("puntos") a cada factor de riesgo que refleja nuestra estimación del riesgo subyacente.
Una fórmula (normalmente una suma simple de todos los puntos acumulados) que calcula la puntuación.
Un conjunto de umbrales que ayuda a traducir la puntuación calculada en un nivel de riesgo, o una fórmula equivalente o un conjunto de reglas para traducir la puntuación calculada nuevamente en probabilidades (dejando la evaluación nominal de la gravedad al profesional).

Los puntos 1 y 2 se pueden lograr utilizando alguna forma de regresión , que proporcionará tanto la estimación del riesgo como la fórmula para calcular la puntuación. El punto 3 requiere establecer un conjunto arbitrario de umbrales y normalmente implicará la opinión de expertos.

Estimación del riesgo con GLM

La puntuación de riesgo está diseñada para representar una probabilidad subyacente de un evento adverso denotada dado un vector de variables explicativas que contiene mediciones de los factores de riesgo relevantes. Para establecer la conexión entre los factores de riesgo y la probabilidad, se estima un conjunto de pesos utilizando un modelo lineal generalizado : $\lbrace Y=1\rbrace$ $P$ $\mathbf {X}$ $\beta$

{\begin{aligned}\operatorname {E} (\mathbf {Y} |\mathbf {X} )=\mathbf {P} (\mathbf {Y} =1|\mathbf {X} )=g^{-1}(\mathbf {X} \beta )\end{aligned}}

¿Dónde hay una función de valor real que aumenta monótonamente y que asigna los valores del predictor lineal al intervalo ? Los métodos GLM suelen utilizar el logit o el probit como función de enlace . $g^{-1}:\mathbb {R} \rightarrow [0,1]$ $\mathbf {X} \beta$ $[0,1]$

Estimación del riesgo con otros métodos

Si bien es posible realizar estimaciones utilizando otros métodos estadísticos o de aprendizaje automático, los requisitos de simplicidad y fácil interpretación (y monotonicidad por factor de riesgo) hacen que la mayoría de estos métodos sean difíciles de usar para calificar en este contexto: $\mathbf {P} (\mathbf {Y} =1|\mathbf {X} )$

Con métodos más sofisticados resulta difícil atribuir ponderaciones simples para cada factor de riesgo y proporcionar una fórmula simple para el cálculo de la puntuación. Una excepción notable son los métodos basados en árboles como CART , que pueden proporcionar un conjunto simple de reglas de decisión y cálculos, pero no pueden garantizar la monotonicidad de la escala entre los diferentes factores de riesgo.
Debido a que el objetivo es estimar el riesgo subyacente en toda la población, los individuos no pueden etiquetarse de antemano en una escala ordinal; no se sabe de antemano si un individuo observado pertenece a un grupo de "alto riesgo". Por lo tanto, los métodos de clasificación sólo son relevantes si los individuos deben clasificarse en 2 grupos o 2 acciones posibles.

Construyendo la partitura

Cuando se utiliza GLM, el conjunto de ponderaciones estimadas se puede utilizar para asignar diferentes valores (o "puntos") a diferentes valores de los factores de riesgo (continuos o nominales como indicadores). Luego, la puntuación se puede expresar como una suma ponderada: $\beta$ $\mathbf {X}$

{\begin{aligned}{\text{Score}}=\mathbf {X} \beta =\sum _{j=1}^{P}\mathbf {X} _{j}\beta _{j}\end{aligned}}

Algunos métodos de puntuación traducirán la puntuación en probabilidades mediante el uso (por ejemplo, puntuación SAPS II ^[2] que proporciona una función explícita para calcular la mortalidad a partir de la puntuación ^[3] ) o una tabla de consulta (por ejemplo, puntuación ABCD² ^[4]^[5] o el cuadro de mando ISM7 (NI) ^[6] ). Esta práctica hace que el proceso de obtención de la puntuación sea más complicado computacionalmente, pero tiene la ventaja de traducir un número arbitrario a una escala más familiar de 0 a 1. $g^{-1}$
Las columnas de pueden representar transformaciones complejas de los factores de riesgo (incluidas interacciones múltiples ) y no solo los factores de riesgo en sí. $\mathbf {X}$
Los valores de a veces se escalan o se redondean para permitir trabajar con números enteros en lugar de fracciones muy pequeñas (lo que simplifica el cálculo). Si bien el escalado no afecta la capacidad de la puntuación para estimar el riesgo, el redondeo tiene el potencial de alterar la "optimidad" de la estimación del GLM. $\beta$

Tomar decisiones basadas en puntajes

Denotemos un conjunto de acciones "escaladas" disponibles para quien toma las decisiones (por ejemplo, para decisiones de riesgo crediticio: = "aprobar automáticamente", = "requerir más documentación y verificar manualmente", = "rechazar automáticamente"). Para definir una regla de decisión, queremos definir un mapa entre diferentes valores de la puntuación y las posibles decisiones en . Sea una partición de en intervalos consecutivos que no se superpongan, de modo que . $\mathbf {A} =\lbrace \mathbf {a} _{1},...,\mathbf {a} _{m}\rbrace$ $m\geq 2$ $\mathbf {a} _{1}$ $\mathbf {a} _{2}$ $\mathbf {a} _{3}$ $\mathbf {A}$ $\tau =\lbrace \tau _{1},...\tau _{m-1}\rbrace$ $\mathbb {R}$ $m$ $\tau _{1}<\tau _{2}<\ldots <\tau _{m-1}$

El mapa se define de la siguiente manera:

{\begin{aligned}{\text{If Score}}\in [\tau _{j-1},\tau _{j})\rightarrow {\text{Take action }}\mathbf {a} _{j}\end{aligned}}

Los valores de se establecen en función de la opinión de expertos, el tipo y prevalencia del riesgo medido, las consecuencias de una clasificación errónea, etc. Por ejemplo, un riesgo de 9 sobre 10 normalmente se considerará "alto riesgo", pero un riesgo de 7 sobre 10 puede considerarse "riesgo alto" o "riesgo medio" según el contexto. $\tau$
La definición de los intervalos está en intervalos abiertos a la derecha, pero se pueden definir de manera equivalente utilizando intervalos abiertos a la izquierda . $(\tau _{j-1},\tau _{j}]$
Para los métodos de puntuación que ya traducen la puntuación en probabilidades, definimos la partición directamente en el intervalo o traducimos los criterios de decisión a , y la monotonicidad de garantiza una traducción 1 a 1. $\tau$ $[0,1]$ $[g^{-1}(\tau _{j-1}),g^{-1}(\tau _{j}))$ $g$

Ejemplos

Bioestadística

(ver más ejemplos en la página de categorías Categoría:Sistema de puntuación médica )

Industria financiera

El uso principal de las puntuaciones en el sector financiero es para tarjetas de puntuación de crédito o puntuaciones de crédito :

En muchos países (como Estados Unidos ), la puntuación crediticia la calculan entidades comerciales y, por lo tanto, el método exacto no es de conocimiento público (por ejemplo, la puntuación de riesgo de quiebra , la puntuación FICO y otros). Las puntuaciones crediticias en Australia y el Reino Unido a menudo se calculan mediante regresión logística para estimar la probabilidad de incumplimiento y, por lo tanto, son un tipo de puntuación de riesgo.
Otras industrias financieras, como la industria de seguros , también utilizan métodos de puntuación, pero la implementación exacta sigue siendo un secreto comercial , excepto en algunos casos raros ^[6].

Ciencias Sociales

Puntuación COMPAS para reincidencia, según ingeniería inversa realizada por ProPublica ^{[7] utilizando regresión logística y}modelo de riesgo proporcional de Cox .

Referencias

Hastie, TJ; Tibshirani, RJ (1990). Modelos aditivos generalizados . Chapman y Hall/CRC. ISBN 978-0-412-34390-2.

^ Toren, Yizhar (2011). "Clasificación ordinal de grupos de riesgo". arXiv : 1012.5487 [estad.ML].
^ Le Gall, JR; Lemeshow, S; Saulnier, F (1993). "Una nueva puntuación de fisiología aguda simplificada (SAPS II) basada en un estudio multicéntrico europeo y norteamericano". JAMA . 270 (24): 2957–63. doi :10.1001/jama.1993.03510240069035. PMID 8254858.
^ "Calculadora simplificada de puntuación de fisiología aguda (SAPS II) - ClinCalc.com". clínicoc.com . Consultado el 20 de agosto de 2018 .
^ Johnston Carolina del Sur; Primer Ministro de Rothwell; Nguyen-Huynh MN; Giles MF; Elkins JS; Bernstein AL; Sidney S. "Validación y refinamiento de puntuaciones para predecir el riesgo de accidente cerebrovascular muy temprano después de un ataque isquémico transitorio" Lancet (2007): 369(9558):283-292
^ "Puntuación ABCD² para TIA". www.mdcalc.com . Consultado el 16 de diciembre de 2018 .
^ ab "Cuadro de mando ISM7 (NI), Allstate Property & Casualty Company" (PDF) . Consultado el 16 de diciembre de 2018 .
^ "Cómo analizamos el algoritmo de reincidencia COMPAS" . Consultado el 16 de diciembre de 2018 .