Análisis de supervivencia

El análisis de supervivencia es una rama de la estadística para analizar la duración esperada del tiempo hasta que ocurre un evento, como la muerte en organismos biológicos y fallas en sistemas mecánicos. Este tema se llama teoría de la confiabilidad o análisis de confiabilidad en ingeniería , análisis de duración o modelado de duración en economía y análisis de historia de eventos en sociología . El análisis de supervivencia intenta responder ciertas preguntas, como ¿cuál es la proporción de una población que sobrevivirá después de un tiempo determinado? De los que sobrevivan, ¿a qué ritmo morirán o fracasarán? ¿Se pueden tener en cuenta múltiples causas de muerte o fracaso? ¿Cómo aumentan o disminuyen las circunstancias o características particulares la probabilidad de supervivencia ?

Para responder a estas preguntas, es necesario definir "vida". En el caso de la supervivencia biológica, la muerte es inequívoca, pero en el caso de la confiabilidad mecánica, el fallo puede no estar bien definido, pues bien puede haber sistemas mecánicos en los que el fallo sea parcial, una cuestión de grado o no esté localizado en el tiempo . Incluso en los problemas biológicos, algunos acontecimientos (por ejemplo, un ataque cardíaco u otra insuficiencia orgánica) pueden tener la misma ambigüedad. La teoría que se describe a continuación supone eventos bien definidos en momentos específicos; otros casos pueden tratarse mejor mediante modelos que tengan en cuenta explícitamente acontecimientos ambiguos.

De manera más general, el análisis de supervivencia implica el modelado de datos de tiempo hasta el evento; En este contexto, la muerte o el fracaso se consideran un "evento" en la literatura sobre análisis de supervivencia; tradicionalmente, solo ocurre un evento para cada sujeto, después del cual el organismo o mecanismo muere o se rompe. Los modelos de eventos recurrentes o de eventos repetidos relajan esa suposición. El estudio de eventos recurrentes es relevante en la confiabilidad de los sistemas , y en muchas áreas de las ciencias sociales y la investigación médica.

Introducción al análisis de supervivencia.

El análisis de supervivencia se utiliza de varias maneras:

Describir los tiempos de supervivencia de los miembros de un grupo.
Comparar los tiempos de supervivencia de dos o más grupos.
- Prueba de rango logarítmico
Describir el efecto de variables categóricas o cuantitativas sobre la supervivencia.
- Regresión de riesgos proporcionales de Cox
- Modelos de supervivencia paramétricos.
- Árboles de supervivencia
- Bosques aleatorios de supervivencia.

Definiciones de términos comunes en el análisis de supervivencia.

Los siguientes términos se utilizan comúnmente en los análisis de supervivencia:

Evento: Muerte, aparición de enfermedad, recurrencia de enfermedad, recuperación u otra experiencia de interés.
Tiempo: el tiempo desde el inicio de un período de observación (como una cirugía o el inicio del tratamiento) hasta (i) un evento, o (ii) el final del estudio, o (iii) la pérdida de contacto o el retiro del estudio.
Censura / Observación censurada: La censura ocurre cuando tenemos alguna información sobre el tiempo de supervivencia individual, pero no sabemos el tiempo de supervivencia exactamente. El sujeto está censurado en el sentido de que no se observa ni se sabe nada sobre él después del momento de la censura. Un sujeto censurado puede tener o no un evento después del final del tiempo de observación.
Función de supervivencia S(t): La probabilidad de que un sujeto sobreviva más que el tiempo t.

Ejemplo: datos de supervivencia de la leucemia mielógena aguda

Este ejemplo utiliza el conjunto de datos de supervivencia de la leucemia mielógena aguda "aml" del paquete "survival" en R. El conjunto de datos es de Miller (1997) ^[1] y la pregunta es si el ciclo estándar de quimioterapia debe extenderse ('mantenerse ') para ciclos adicionales.

El conjunto de datos de aml ordenados por tiempo de supervivencia se muestra en el cuadro.

El tiempo está indicado por la variable "tiempo", que es el tiempo de supervivencia o de censura.
El evento (recurrencia del cáncer de aml) se indica mediante la variable "estado". 0 = ningún evento (censurado), 1 = evento (recurrencia)
Grupo de tratamiento: la variable "x" indica si se administró quimioterapia de mantenimiento

La última observación (11), a las 161 semanas, está censurada. La censura indica que el paciente no tuvo ningún evento (no hubo recurrencia del cáncer de aml). Otro sujeto, la observación 3, fue censurado a las 13 semanas (indicado por estado = 0). Este sujeto estuvo en el estudio solo durante 13 semanas y el cáncer de aml no recurrió durante esas 13 semanas. Es posible que este paciente fuera inscrito cerca del final del estudio, por lo que pudo ser observado durante sólo 13 semanas. También es posible que el paciente haya sido inscrito tempranamente en el estudio, pero se haya perdido durante el seguimiento o se haya retirado del estudio. La tabla muestra que otros sujetos fueron censurados a las 16, 28 y 45 semanas (observaciones 17, 6 y 9 con estado = 0). Todos los sujetos restantes experimentaron eventos (recurrencia de cáncer de aml) durante el estudio. La cuestión de interés es si la recurrencia ocurre más tarde en pacientes mantenidos que en pacientes no mantenidos.

Gráfico de Kaplan-Meier para los datos de aml

La función de supervivencia S ( t ), es la probabilidad de que un sujeto sobreviva más que el tiempo t . S ( t ) es teóricamente una curva suave, pero generalmente se estima utilizando la curva de Kaplan-Meier (KM). El gráfico muestra la gráfica de KM para los datos de aml y se puede interpretar de la siguiente manera:

El eje x es el tiempo, desde cero (cuando comenzó la observación) hasta el último punto de tiempo observado.
El eje y es la proporción de sujetos que sobrevivieron. En el momento cero, el 100% de los sujetos están vivos sin ningún evento.
La línea continua (similar a una escalera) muestra la progresión de la ocurrencia de eventos.
Una caída vertical indica un evento. En la tabla de aml que se muestra arriba, dos sujetos tuvieron eventos a las cinco semanas, dos tuvieron eventos a las ocho semanas, uno tuvo un evento a las nueve semanas, y así sucesivamente. Estos eventos en cinco semanas, ocho semanas y así sucesivamente están indicados por las caídas verticales en el gráfico de KM en esos puntos temporales.
En el extremo derecho del gráfico de KM hay una marca de 161 semanas. La marca vertical indica que un paciente fue censurado en este momento. En la tabla de datos de aml se censuraron cinco sujetos, a las 13, 16, 28, 45 y 161 semanas. Hay cinco marcas en el gráfico de KM, correspondientes a estas observaciones censuradas.

Tabla de vida para los datos de aml

Una tabla de vida resume los datos de supervivencia en términos del número de eventos y la proporción de sobrevivientes en cada momento del evento. Se muestra la tabla de mortalidad para los datos de aml, creada con el software R.

La tabla de vida resume los eventos y la proporción de supervivientes en cada momento del evento. Las columnas de la tabla de vida tienen la siguiente interpretación:

El tiempo indica los puntos temporales en los que ocurren los eventos.
n.riesgo es el número de sujetos en riesgo inmediatamente antes del momento t. Estar "en riesgo" significa que el sujeto no ha tenido un evento antes del tiempo t, y no está censurado antes o en el tiempo t.
n.event es el número de sujetos que tienen eventos en el momento t.
la supervivencia es la proporción de supervivientes, determinada mediante la estimación del límite del producto de Kaplan-Meier.
std.err es el error estándar de la supervivencia estimada. El error estándar de la estimación del límite de producto de Kaplan-Meier se calcula utilizando la fórmula de Greenwood y depende del número en riesgo (n.riesgo en la tabla), el número de muertes (n.evento en la tabla) y la proporción sobrevivir (supervivencia en la tabla).
El IC del 95 % inferior y el IC del 95 % superior son los límites de confianza del 95 % inferior y superior para la proporción de supervivientes.

Prueba de rango logarítmico: prueba de diferencias en la supervivencia en los datos de aml

La prueba de rangos logarítmicos compara los tiempos de supervivencia de dos o más grupos. Este ejemplo utiliza una prueba de rango logarítmico para una diferencia en la supervivencia en los grupos de tratamiento mantenido versus no mantenido en los datos de aml. El gráfico muestra gráficos de KM para los datos de aml desglosados por grupo de tratamiento, lo que se indica con la variable "x" en los datos.

La hipótesis nula para una prueba de rangos logarítmicos es que los grupos tienen la misma supervivencia. El número esperado de sujetos que sobreviven en cada momento de cada evento se ajusta al número de sujetos en riesgo en los grupos en cada momento del evento. La prueba de rango logarítmico determina si el número observado de eventos en cada grupo es significativamente diferente del número esperado. La prueba formal se basa en una estadística de chi-cuadrado. Cuando la estadística de rango logarítmico es grande, es evidencia de una diferencia en los tiempos de supervivencia entre los grupos. El estadístico de rango logarítmico tiene aproximadamente una distribución de Chi-cuadrado con un grado de libertad, y el valor p se calcula mediante la prueba de Chi-cuadrado .

Para los datos del ejemplo, la prueba de rangos logarítmicos para la diferencia en la supervivencia da un valor p de p=0,0653, lo que indica que los grupos de tratamiento no difieren significativamente en la supervivencia, suponiendo un nivel alfa de 0,05. El tamaño de la muestra de 23 sujetos es modesto, por lo que hay poco poder para detectar diferencias entre los grupos de tratamiento. La prueba de chi-cuadrado se basa en una aproximación asintótica, por lo que el valor p debe considerarse con precaución para tamaños de muestra pequeños .

Análisis de regresión de riesgos proporcionales (PH) de Cox

Las curvas de Kaplan-Meier y las pruebas de rango logarítmico son más útiles cuando la variable predictiva es categórica (p. ej., fármaco frente a placebo) o toma un número pequeño de valores (p. ej., dosis de fármaco de 0, 20, 50 y 100 mg/día). ) que puede ser tratado como categórico. La prueba de rango logarítmico y las curvas KM no funcionan fácilmente con predictores cuantitativos como la expresión genética, el recuento de glóbulos blancos o la edad. Para variables predictivas cuantitativas, un método alternativo es el análisis de regresión de riesgos proporcionales de Cox . Los modelos Cox PH también funcionan con variables predictoras categóricas, que están codificadas como indicador {0,1} o variables ficticias. La prueba de rango logarítmico es un caso especial de análisis de Cox PH y se puede realizar utilizando el software Cox PH.

Ejemplo: análisis de regresión de riesgos proporcionales de Cox para melanoma

Este ejemplo utiliza el conjunto de datos sobre melanoma del Capítulo 14 de Dalgaard. ^[2]

Los datos están en el paquete R ISwR. La regresión de riesgos proporcionales de Cox utilizando R proporciona los resultados que se muestran en el cuadro.

Los resultados de la regresión de Cox se interpretan de la siguiente manera.

El sexo se codifica como un vector numérico (1: femenino, 2: masculino). El resumen de R para el modelo de Cox proporciona el índice de riesgo (HR) para el segundo grupo en relación con el primer grupo, es decir, hombres versus mujeres.
coef = 0,662 es el logaritmo estimado del índice de riesgo para hombres frente a mujeres.
exp(coef) = 1,94 = exp(0,662) - El logaritmo del índice de riesgo (coef= 0,662) se transforma en el índice de riesgo utilizando exp(coef). El resumen del modelo de Cox proporciona el índice de riesgo para el segundo grupo en relación con el primer grupo, es decir, hombres versus mujeres. El índice de riesgo estimado de 1,94 indica que los hombres tienen un mayor riesgo de muerte (tasas de supervivencia más bajas) que las mujeres, en estos datos.
se(coef) = 0,265 es el error estándar del índice de riesgo logarítmico.
z = 2,5 = coef/se(coef) = 0,662/0,265. Al dividir el coeficiente por su error estándar se obtiene la puntuación z.
p=0,013. El valor p correspondiente a z=2,5 para el sexo es p=0,013, lo que indica que existe una diferencia significativa en la supervivencia en función del sexo.

El resultado resumido también proporciona intervalos de confianza superior e inferior del 95 % para el índice de riesgo: límite inferior del 95 % = 1,15; límite superior del 95% = 3,26.

Finalmente, el resultado proporciona valores p para tres pruebas alternativas de significancia general del modelo:

Prueba de razón de verosimilitud = 6,15 en 1 gl, p=0,0131
Prueba de Wald = 6,24 en 1 gl, p=0,0125
Prueba de puntuación (rango logarítmico) = 6,47 en 1 gl, p=0,0110

Estas tres pruebas son asintóticamente equivalentes. Para N lo suficientemente grande, darán resultados similares. Para N pequeño, pueden diferir algo. La última fila, "Prueba de puntuación (logrank)" es el resultado de la prueba de rango logarítmico, con p=0,011, el mismo resultado que la prueba de rango logarítmico, porque la prueba de rango logarítmico es un caso especial de Cox PH. regresión. La prueba de razón de verosimilitud tiene un mejor comportamiento para tamaños de muestra pequeños, por lo que generalmente se prefiere.

Modelo de Cox utilizando una covariable en los datos de melanoma.

El modelo de Cox amplía la prueba de rangos logarítmicos al permitir la inclusión de covariables adicionales. ^[3] Este ejemplo utiliza el conjunto de datos de melanoma donde las variables predictoras incluyen una covariable continua, el grosor del tumor (nombre de la variable = "grueso").

En los histogramas, los valores de espesor están sesgados positivamente y no tienen una distribución de probabilidad simétrica similar a Gauss . Los modelos de regresión, incluido el modelo de Cox, generalmente dan resultados más confiables con variables distribuidas normalmente. ^[^{cita necesaria}^] Para este ejemplo podemos usar una transformación logarítmica . El logaritmo del espesor del tumor parece tener una distribución más normal, por lo que los modelos de Cox utilizarán el logaritmo del espesor. El análisis de PH de Cox proporciona los resultados en el cuadro.

El valor p de las tres pruebas generales (probabilidad, Wald y puntuación) es significativo, lo que indica que el modelo es significativo. El valor p para log(grueso) es 6,9e-07, con un índice de riesgo HR = exp(coef) = 2,18, lo que indica una fuerte relación entre el espesor del tumor y un mayor riesgo de muerte.

Por el contrario, el valor p para el sexo es ahora p=0,088. El índice de riesgo HR = exp(coef) = 1,58, con un intervalo de confianza del 95% de 0,934 a 2,68. Debido a que el intervalo de confianza para la FC incluye 1, estos resultados indican que el sexo hace una contribución menor a la diferencia en la FC después de controlar el grosor del tumor, y solo tiene una tendencia hacia la significación. El examen de los gráficos de log(grosor) por sexo y una prueba t de log(grosor) por sexo indican que existe una diferencia significativa entre hombres y mujeres en el espesor del tumor cuando consultan por primera vez al médico.

El modelo de Cox supone que los riesgos son proporcionales. El supuesto de riesgo proporcional se puede probar utilizando la función R cox.zph(). Un valor p inferior a 0,05 indica que los riesgos no son proporcionales. Para los datos de melanoma obtenemos p=0,222. Por tanto, no podemos rechazar la hipótesis nula de que los riesgos son proporcionales. En los libros de texto citados se describen pruebas y gráficos adicionales para examinar un modelo de Cox.

Extensiones a los modelos Cox

Los modelos de Cox se pueden ampliar para abordar variaciones del análisis simple.

Estratificación. Los sujetos se pueden dividir en estratos, donde se espera que los sujetos dentro de un estrato sean relativamente más similares entre sí que con sujetos elegidos al azar de otros estratos. Se supone que los parámetros de regresión son los mismos en todos los estratos, pero puede existir un riesgo de referencia diferente para cada estrato. La estratificación es útil para análisis que utilizan sujetos emparejados, para tratar con subconjuntos de pacientes, como diferentes clínicas, y para abordar violaciones del supuesto de riesgo proporcional.
Covariables que varían en el tiempo. Algunas variables, como el sexo y el grupo de tratamiento, generalmente permanecen iguales en un ensayo clínico. Otras variables clínicas, como los niveles de proteína sérica o la dosis de medicamentos concomitantes, pueden cambiar durante el transcurso de un estudio. Los modelos de Cox pueden ampliarse para estas covariables que varían en el tiempo.

Modelos de supervivencia estructurados en árboles.

El modelo de regresión de Cox PH es un modelo lineal. Es similar a la regresión lineal y la regresión logística. Específicamente, estos métodos suponen que una sola línea, curva, plano o superficie es suficiente para separar grupos (vivos, muertos) o para estimar una respuesta cuantitativa (tiempo de supervivencia).

En algunos casos, las particiones alternativas dan una clasificación o estimaciones cuantitativas más precisas. Un conjunto de métodos alternativos son los modelos de supervivencia estructurados en árboles, ^[4]^[5]^[6], incluidos los bosques aleatorios de supervivencia. ^[7] Los modelos de supervivencia estructurados en árboles pueden dar predicciones más precisas que los modelos de Cox. Examinar ambos tipos de modelos para un conjunto de datos determinado es una estrategia razonable.

Ejemplo de análisis de árbol de supervivencia

Este ejemplo de análisis de árbol de supervivencia utiliza el paquete R "rpart". ^[8] El ejemplo se basa en 146 pacientes con cáncer de próstata en estadio C en el conjunto de datos stagec de la parte. Rpart y el ejemplo de stagec se describen en Atkinson y Therneau (1997), ^[9], que también se distribuye como una viñeta del paquete rpart. ^[8]

Las variables por etapas son:

pgtime : tiempo hasta la progresión, o último seguimiento libre de progresión
pgstat : estado en el último seguimiento (1=progresado, 0=censurado)
edad : edad en el momento del diagnóstico
eet : terapia endocrina temprana (1=no, 0=sí)
Ploidía : patrón de ADN diploide/tetraploide/aneuploide.
g2 : % de células en fase G2
grado : grado tumoral (1-4)
gleason : grado de Gleason (3-10)

El árbol de supervivencia producido por el análisis se muestra en la figura.

Cada rama del árbol indica una división del valor de una variable. Por ejemplo, la raíz del árbol divide las materias con una calificación < 2,5 frente a las materias con una calificación de 2,5 o superior. Los nodos terminales indican la cantidad de sujetos en el nodo, la cantidad de sujetos que tienen eventos y la tasa de eventos relativa en comparación con la raíz. En el nodo del extremo izquierdo, los valores 1/33 indican que uno de los 33 sujetos en el nodo tuvo un evento y que la tasa relativa de eventos es 0,122. En el nodo del extremo inferior derecho, los valores 11/15 indican que 11 de 15 sujetos en el nodo tuvieron un evento y la tasa relativa de eventos es 2,7.

Bosques aleatorios de supervivencia.

Una alternativa a la construcción de un único árbol de supervivencia es construir muchos árboles de supervivencia, donde cada árbol se construye utilizando una muestra de los datos y se promedian los árboles para predecir la supervivencia. ^[7] Este es el método subyacente a los modelos forestales aleatorios de supervivencia. El análisis de bosque aleatorio de supervivencia está disponible en el paquete R "randomForestSRC". ^[10]

El paquete randomForestSRC incluye un ejemplo de análisis de bosque aleatorio de supervivencia utilizando el conjunto de datos pbc. Estos datos provienen del ensayo de cirrosis biliar primaria (CBP) del hígado de Mayo Clinic realizado entre 1974 y 1984. En el ejemplo, el modelo de supervivencia del bosque aleatorio proporciona predicciones de supervivencia más precisas que el modelo de Cox PH. Los errores de predicción se estiman mediante remuestreo de arranque .

Modelos de supervivencia de aprendizaje profundo

Los avances recientes en el aprendizaje de representación profunda se han extendido a la estimación de la supervivencia. El modelo DeepSurv ^[11] propone reemplazar la parametrización log-lineal del modelo CoxPH con un perceptrón multicapa. Extensiones adicionales como Deep Survival Machines ^[12] y Deep Cox Mixtures ^[13] implican el uso de modelos de mezcla de variables latentes para modelar la distribución del tiempo hasta el evento como una mezcla de distribuciones paramétricas o semiparamétricas mientras se aprenden conjuntamente representaciones de la entrada. covariables. Los enfoques de aprendizaje profundo han demostrado un rendimiento superior, especialmente en modalidades de datos de entrada complejas, como imágenes y series temporales clínicas.

formulación general

Función de supervivencia

El objeto de interés principal es la función de supervivencia , convencionalmente denotada como S , que se define como

S(t)=\Pr(T>t)

tTvariable aleatoria probabilidadtfunción de supervivenciafunción de supervivenciafunción de fiabilidadRt

Generalmente se supone S (0) = 1, aunque podría ser menor que 1 si existe la posibilidad de muerte o fracaso inmediato.

La función de supervivencia debe ser no creciente: S ( u ) ≤ S ( t ) si u ≥ t . Esta propiedad se sigue directamente porque T > u implica T > t . Esto refleja la noción de que la supervivencia hasta una edad posterior sólo es posible si se alcanzan todas las edades más tempranas. Dada esta propiedad, la función de distribución de la vida útil y la densidad de eventos ( F y f a continuación) están bien definidas.

Generalmente se supone que la función de supervivencia se acerca a cero a medida que la edad aumenta sin límite (es decir, S ( t ) → 0 cuando t → ∞), aunque el límite podría ser mayor que cero si la vida eterna es posible. Por ejemplo, podríamos aplicar el análisis de supervivencia a una mezcla de isótopos de carbono estables e inestables ; Los isótopos inestables se desintegrarían tarde o temprano, pero los isótopos estables durarían indefinidamente.

Función de distribución de por vida y densidad de eventos.

Las cantidades relacionadas se definen en términos de la función de supervivencia.

La función de distribución de vida , convencionalmente denotada como F , se define como el complemento de la función de supervivencia,

F(t)=\Pr(T\leq t)=1-S(t).

Fdiferenciable,por f

f(t)=F'(t)={\frac {d}{dt}}F(t).

fdensidad de eventos

La función de supervivencia se puede expresar en términos de distribución de probabilidad y funciones de densidad de probabilidad.

S(t)=\Pr(T>t)=\int _{t}^{\infty }f(u)\,du=1-F(t).

s(t)=S'(t)={\frac {d}{dt}}S(t)={\frac {d}{dt}}\int _{t}^{\infty }f(u)\,du={\frac {d}{dt}}[1-F(t)]=-f(t).

de tiempo del primer paso

Función de riesgo y función de riesgo acumulativo.

La función de riesgo , denominada convencionalmente o , se define como la tasa de eventos en el tiempo condicionada a la supervivencia hasta el momento o más tarde (es decir, ). Supongamos que un elemento ha sobrevivido durante un tiempo y deseamos la probabilidad de que no sobreviva durante un tiempo adicional : $\lambda$ $h$ $t$ $t$ $T\geq t$ $t$ $dt$

h(t)=\lim _{dt\rightarrow 0}{\frac {\Pr(t\leq T<t+dt)}{dt\cdot S(t)}}={\frac {f(t)}{S(t)}}=-{\frac {S'(t)}{S(t)}}.

Fuerza de mortalidadfunción de riesgodemografía ciencia actuarialtasa de riesgo

\mu

La fuerza de mortalidad de la función de supervivencia se define como $\mu (x)=-{d \over dx}\ln(S(x))={\frac {f(x)}{S(x)}}$

La fuerza de la mortalidad también se llama fuerza del fracaso. Es la función de densidad de probabilidad de la distribución de la mortalidad.

En ciencia actuarial, la tasa de riesgo es la tasa de muerte de personas mayores . Para una vida envejecida , la fuerza de la mortalidad años después es la fuerza de la mortalidad para un niño de un año. La tasa de riesgo también se llama tasa de fracaso. Tasa de riesgo y tasa de fracaso son nombres utilizados en la teoría de la confiabilidad. $x$ $x$ $t$ $(x+t)$

Cualquier función es una función de riesgo si y sólo si satisface las siguientes propiedades: $h$

$\forall x\geq 0\left(h(x)\geq 0\right)$ ,
$\int _{0}^{\infty }h(x)dx=\infty$ .

De hecho, la tasa de riesgo suele ser más informativa sobre el mecanismo subyacente del fracaso que las otras representaciones de una distribución a lo largo de la vida.

La función de riesgo debe ser no negativa y su integral debe ser infinita, pero no está limitada de otra manera; puede ser creciente o decreciente, no monótono o discontinuo. Un ejemplo es la función de riesgo de la curva de la bañera , que es grande para valores pequeños de , disminuye hasta un mínimo y luego aumenta nuevamente; esto puede modelar la propiedad de algunos sistemas mecánicos de fallar poco después de la operación o mucho más tarde, a medida que el sistema envejece. $\lambda (t)\geq 0$ $[0,\infty ]$ $t$

La función de riesgo también se puede representar en términos de la función de riesgo acumulativo , convencionalmente denotada o : $\Lambda$ $H$

\,\Lambda (t)=-\log S(t)

\,S(t)=\exp(-\Lambda (t))

{\frac {d}{dt}}\Lambda (t)=-{\frac {S'(t)}{S(t)}}=\lambda (t).

\Lambda (t)=\int _{0}^{t}\lambda (u)\,du

De la definición de , vemos que aumenta sin límite cuando t tiende a infinito (asumiendo que tiende a cero). Esto implica que no debe disminuir demasiado rápido, ya que, por definición, el riesgo acumulativo tiene que divergir. Por ejemplo, no es la función de riesgo de ninguna distribución de supervivencia, porque su integral converge a 1. $\Lambda (t)$ $S(t)$ $\lambda (t)$ $\exp(-t)$

La función de supervivencia , la función de riesgo acumulativo , la densidad , la función de riesgo y la función de distribución de vida están relacionadas a través de $S(t)$ $\Lambda (t)$ $f(t)$ $\lambda (t)$ $F(t)$

S(t)=\exp[-\Lambda (t)]={\frac {f(t)}{\lambda (t)}}=1-F(t),\quad t>0.

Cantidades derivadas de la distribución de supervivencia.

La vida futura en un momento dado es el tiempo que queda hasta la muerte, dada la supervivencia hasta la edad . Por tanto, está en la notación actual. La vida futura esperada es el valor esperado de la vida futura. La probabilidad de morir a la edad o antes , dada la supervivencia hasta la edad , es simplemente $t_{0}$ $t_{0}$ $T-t_{0}$ $t_{0}+t$ $t_{0}$

P(T\leq t_{0}+t\mid T>t_{0})={\frac {P(t_{0}<T\leq t_{0}+t)}{P(T>t_{0})}}={\frac {F(t_{0}+t)-F(t_{0})}{S(t_{0})}}.

{\frac {d}{dt}}{\frac {F(t_{0}+t)-F(t_{0})}{S(t_{0})}}={\frac {f(t_{0}+t)}{S(t_{0})}}

{\frac {1}{S(t_{0})}}\int _{0}^{\infty }t\,f(t_{0}+t)\,dt={\frac {1}{S(t_{0})}}\int _{t_{0}}^{\infty }S(t)\,dt,

integración por partes

Para , es decir, al nacer, esto se reduce a la vida esperada. $t_{0}=0$

En problemas de confiabilidad, la vida útil esperada se llama tiempo medio hasta la falla y la vida futura esperada se llama vida residual media .

Como la probabilidad de que un individuo sobreviva hasta la edad t o más tarde es S ( t ), por definición, el número esperado de sobrevivientes a la edad t de una población inicial de n recién nacidos es n × S ( t ), suponiendo la misma función de supervivencia. para todos los individuos. Por tanto, la proporción esperada de supervivientes es S ( t ). Si la supervivencia de diferentes individuos es independiente, el número de supervivientes a la edad t tiene una distribución binomial con parámetros n y S ( t ), y la varianza de la proporción de supervivientes es S ( t ) × (1- S ( t ) )/ n .

La edad a la que permanece una proporción específica de supervivientes se puede encontrar resolviendo la ecuación S ( t ) = q para t , donde q es el cuantil en cuestión. Normalmente uno está interesado en la vida media , para la cual q = 1/2, u otros cuantiles como q = 0,90 o q = 0,99.

Censura

La censura es una forma de problema de datos faltantes en el que no se observa el tiempo hasta el evento por razones como la finalización del estudio antes de que todos los sujetos reclutados hayan mostrado el evento de interés o el sujeto haya abandonado el estudio antes de experimentar un evento. La censura es común en el análisis de supervivencia.

Si sólo se conoce el límite inferior l para el tiempo real del evento T tal que T > l , esto se llama censura derecha . La censura correcta se producirá, por ejemplo, para aquellos sujetos cuya fecha de nacimiento se conoce pero que todavía están vivos cuando se les pierde el seguimiento o cuando finaliza el estudio. Generalmente nos encontramos con datos censurados por la derecha.

Si el evento de interés ya ocurrió antes de que el sujeto fuera incluido en el estudio pero no se sabe cuándo ocurrió, se dice que los datos están censurados a la izquierda . ^[14] Cuando sólo se puede decir que el evento ocurrió entre dos observaciones o exámenes, se trata de censura de intervalo .

La censura izquierda se produce por ejemplo cuando ya ha emergido un diente permanente antes de iniciar un estudio odontológico que tiene como objetivo estimar su distribución de aparición. En el mismo estudio, el tiempo de emergencia se censura por intervalos cuando el diente permanente está presente en la boca en el examen actual pero aún no en el examen anterior. La censura por intervalos ocurre a menudo en los estudios sobre VIH/SIDA. De hecho, el tiempo transcurrido hasta la seroconversión del VIH sólo puede determinarse mediante una evaluación de laboratorio que normalmente se inicia después de una visita al médico. Entonces sólo se puede concluir que la seroconversión del VIH se produjo entre dos exámenes. Lo mismo ocurre con el diagnóstico del SIDA, que se basa en los síntomas clínicos y debe confirmarse mediante un examen médico.

También puede suceder que sujetos con una vida inferior a cierto umbral no sean observados en absoluto: esto se llama truncamiento . Tenga en cuenta que el truncamiento es diferente de la censura por la izquierda, ya que para un dato censurado por la izquierda, sabemos que el sujeto existe, pero para un dato truncado, es posible que desconozcamos por completo al sujeto. El truncamiento también es común. En el llamado estudio de entrada retrasada , los sujetos no son observados en absoluto hasta que alcanzan una determinada edad. Por ejemplo, es posible que las personas no sean observadas hasta que hayan alcanzado la edad para ingresar a la escuela. Se desconoce si hay sujetos fallecidos en el grupo de edad preescolar. Los datos truncados a la izquierda son comunes en el trabajo actuarial para seguros de vida y pensiones . ^[15]

Los datos censurados a la izquierda pueden ocurrir cuando el tiempo de supervivencia de una persona se vuelve incompleto en el lado izquierdo del período de seguimiento de la persona. Por ejemplo, en un ejemplo epidemiológico, podemos monitorear a un paciente para detectar un trastorno infeccioso a partir del momento en que la prueba de la infección da positivo. Aunque podemos conocer el lado derecho de la duración del interés, es posible que nunca sepamos el tiempo exacto de exposición al agente infeccioso. ^[dieciséis]

Ajuste de parámetros a los datos

Los modelos de supervivencia pueden considerarse útiles como modelos de regresión ordinarios en los que la variable de respuesta es el tiempo. Sin embargo, la censura complica el cálculo de la función de probabilidad (necesaria para ajustar parámetros o hacer otros tipos de inferencias). La función de probabilidad de un modelo de supervivencia, en presencia de datos censurados, se formula de la siguiente manera. Por definición, la función de verosimilitud es la probabilidad condicional de los datos dados los parámetros del modelo. Se acostumbra suponer que los datos son independientes dados los parámetros. Entonces la función de verosimilitud es el producto de la verosimilitud de cada dato. Es conveniente dividir los datos en cuatro categorías: sin censura, censurados por la izquierda, censurados por la derecha y censurados por intervalos. Estos se denominan "unc.", "lc", "rc" e "ic" en la siguiente ecuación.

L(\theta )=\prod _{T_{i}\in unc.}\Pr(T=T_{i}\mid \theta )\prod _{i\in l.c.}\Pr(T<T_{i}\mid \theta )\prod _{i\in r.c.}\Pr(T>T_{i}\mid \theta )\prod _{i\in i.c.}\Pr(T_{i,l}<T<T_{i,r}\mid \theta ).

T_{i}

\Pr(T=T_{i}\mid \theta )=f(T_{i}\mid \theta ).

T_{i}

\Pr(T<T_{i}\mid \theta )=F(T_{i}\mid \theta )=1-S(T_{i}\mid \theta ).

T_{i}

\Pr(T>T_{i}\mid \theta )=1-F(T_{i}\mid \theta )=S(T_{i}\mid \theta ).

T_{i,r}

T_{i,l}

\Pr(T_{i,l}<T<T_{i,r}\mid \theta )=S(T_{i,l}\mid \theta )-S(T_{i,r}\mid \theta ).

T_{i}

Estimación no paramétrica

El estimador de Kaplan-Meier se puede utilizar para estimar la función de supervivencia. El estimador de Nelson-Aalen se puede utilizar para proporcionar una estimación no paramétrica de la función de tasa de riesgo acumulada. Estos estimadores requieren datos de toda la vida. Los recuentos periódicos de casos (cohorte) y muertes (y recuperación) son estadísticamente suficientes para realizar estimaciones no paramétricas de máxima verosimilitud y mínimos cuadrados de las funciones de supervivencia, sin datos de vida.

Bondad de ajuste

La bondad del ajuste de los modelos de supervivencia se puede evaluar mediante reglas de puntuación . ^[17]

Software informático para análisis de supervivencia.

El libro de texto de Kleinbaum tiene ejemplos de análisis de supervivencia utilizando SAS, R y otros paquetes. ^[18] Los libros de texto de Brostrom, ^[19] Dalgaard ^[2] y Tableman y Kim ^[20] dan ejemplos de análisis de supervivencia usando R (o usando S, y que se ejecutan en R).

Distribuciones utilizadas en el análisis de supervivencia.

Aplicaciones

Riesgo de crédito ^[21]^[22]
Tasa de condenas falsas de reclusos condenados a muerte ^[23]
Plazos de entrega para componentes metálicos en la industria aeroespacial ^[24]
Predictores de reincidencia delictiva ^[25]
Distribución de supervivencia de animales marcados con radio ^[26]
Tiempo hasta la muerte violenta de los emperadores romanos ^[27]
Tiempos de espera entre operaciones de acciones negociadas electrónicamente en una bolsa de valores ^[28]

Ver también

Referencias

^ Miller, Rupert G. (1997), Análisis de supervivencia , John Wiley & Sons, ISBN 0-471-25218-2
^ ab Dalgaard, Peter (2008), Introducción a la estadística con R (Segunda ed.), Springer, ISBN 978-0387790534
^ Saegusa, Takumi; Di, Chongzhi; Chen, Ying Qing (septiembre de 2014). "Prueba de hipótesis para un modelo de Cox extendido con coeficientes variables en el tiempo". Biometría . 70 (3): 619–628. doi :10.1111/biom.12185. ISSN 0006-341X. PMC 4247822 .
^ Segal, Mark Robert (1988). "Árboles de regresión para datos censurados". Biometría . 44 (1): 35–47. doi :10.2307/2531894. JSTOR 2531894. S2CID 60974957.
^ Leblanc, Michael; Crowley, John (1993). "Árboles de supervivencia por bondad de división". Revista de la Asociación Estadounidense de Estadística . 88 (422): 457–467. doi :10.1080/01621459.1993.10476296. ISSN 0162-1459.
^ Ritschard, Gilbert; Gabadinho, Alexis; Müller, Nicolás S.; Studer, Matías (2008). "Historias de eventos mineros: una perspectiva de las ciencias sociales". Revista Internacional de Minería, Modelado y Gestión de Datos . 1 (1): 68. doi :10.1504/IJDMMM.2008.022538. ISSN 1759-1163.
^ ab Ishwaran, Hemant; Kogalur, Udaya B.; Blackstone, Eugene H.; Lauer, Michael S. (1 de septiembre de 2008). "Bosques de supervivencia aleatoria". Los anales de la estadística aplicada . 2 (3). arXiv : 0811.1645 . doi : 10.1214/08-AOAS169 . ISSN 1932-6157. S2CID 2003897.
^ ab Therneau, Terry J.; Atkinson, Elizabeth J. "rpart: árboles de regresión y particiones recursivas". GRÚA . Consultado el 12 de noviembre de 2021 .
^ Atkinson, Elizabeth J.; Therneau, Terry J. (1997). Una introducción a la partición recursiva utilizando las rutinas RPART. Fundación Mayo.
^ Ishwaran, Hemant; Kogalur, Udaya B. "randomForestSRC: bosques aleatorios unificados rápidos para supervivencia, regresión y clasificación (RF-SRC)". GRÚA . Consultado el 12 de noviembre de 2021 .
^ Singh, Jared; Katzman, L. (2018). "DeepSurv: sistema personalizado de recomendación de tratamientos que utiliza una red neuronal profunda de riesgos proporcionales de Cox". Metodología de la investigación médica del BMC .
^ Nagpal, Chirag (2021). "Máquinas de supervivencia profunda: regresión de supervivencia totalmente paramétrica y aprendizaje de representación para datos censurados con riesgos competitivos". Revista IEEE de Informática Biomédica y de Salud . 25 (8): 3163–3175. arXiv : 2003.01176 . doi :10.1109/JBHI.2021.3052441. PMID 33460387. S2CID 211817982.
^ Nagpal, Chirag (2021). "Mezclas de Deep Cox para la regresión de la supervivencia". Conferencia sobre aprendizaje automático para la atención sanitaria . arXiv : 2101.06536 .
^ Darity, William A. Jr., ed. (2008). "Censura, izquierda y derecha". Enciclopedia Internacional de las Ciencias Sociales . vol. 1 (2ª ed.). Macmillan. págs. 473–474 . Consultado el 6 de noviembre de 2016 .
^ Richards, SJ (2012). "Un manual de modelos paramétricos de supervivencia para uso actuarial". Revista actuarial escandinava . 2012 (4): 233–257. doi :10.1080/03461238.2010.506688. S2CID 119577304.
^ Singh, R.; Mukhopadhyay, K. (2011). "Análisis de supervivencia en ensayos clínicos: conceptos básicos y áreas imprescindibles". Perspectiva Clin Res . 2 (4): 145-148. doi : 10.4103/2229-3485.86872 . PMC 3227332 . PMID 22145125.
^ Reglas de puntuación adecuadas para el análisis de supervivencia, Hiroki Yanagisawa, https://arxiv.org/abs/2305.00621v3
^ Kleinbaum, David G.; Klein, Mitchel (2012), Análisis de supervivencia: un texto de autoaprendizaje (tercera ed.), Springer, ISBN 978-1441966452
^ Brostrom, Göran (2012), Análisis del historial de eventos con R (Primera ed.), Chapman & Hall/CRC, ISBN 978-1439831649
^ Hombre de mesa, Mara; Kim, Jong Sung (2003), Análisis de supervivencia utilizando S (Primera ed.), Chapman y Hall/CRC, ISBN 978-1584884088
^ Stepanova, María; Thomas, Lyn (1 de abril de 2002). "Métodos de análisis de supervivencia de datos de préstamos personales". La investigación de operaciones . 50 (2): 277–289. doi :10.1287/opre.50.2.277.426. ISSN 0030-364X.
^ Glennon, Dennis; Nigro, Peter (2005). "Medición del riesgo de incumplimiento de los préstamos para pequeñas empresas: un enfoque de análisis de supervivencia". Revista de Dinero, Crédito y Banca . 37 (5): 923–947. doi :10.1353/mcb.2005.0051. ISSN 0022-2879. JSTOR 3839153. S2CID 154615623.
^ Kennedy, Edward H.; Hu, Chen; O'Brien, Bárbara; Bruto, Samuel R. (20 de mayo de 2014). "Tasa de falsas condenas de acusados penales condenados a muerte". Procedimientos de la Academia Nacional de Ciencias . 111 (20): 7230–7235. Código Bib : 2014PNAS..111.7230G. doi : 10.1073/pnas.1306417111 . ISSN 0027-8424. PMC 4034186 . PMID 24778209.
^ de Cos Juez, FJ; García Nieto, PJ; Martínez Torres, J.; Taboada Castro, J. (2010-10-01). "Análisis de tiempos de entrega de componentes metálicos en la industria aeroespacial mediante un modelo de máquina vectorial soportado". Modelado Matemático e Informático . Modelos matemáticos en medicina, negocios e ingeniería 2009. 52 (7): 1177–1184. doi : 10.1016/j.mcm.2010.03.017 . ISSN 0895-7177.
^ Spivak, Andrew L.; Damphousse, Kelly R. (2006). "¿Quién regresa a prisión? Un análisis de supervivencia de la reincidencia entre delincuentes adultos liberados en Oklahoma, 1985-2004". Investigación y políticas de justicia . 8 (2): 57–88. doi :10.3818/jrp.8.2.2006.57. ISSN 1525-1071. S2CID 144566819.
^ Pollock, Kenneth H.; Winterstein, Scott R.; Bunck, Christine M.; Curtis, Paul D. (1989). "Análisis de supervivencia en estudios de telemetría: el diseño de entrada escalonada". La Revista de Manejo de Vida Silvestre . 53 (1): 7–15. doi :10.2307/3801296. ISSN 0022-541X. JSTOR 3801296.
^ Saleh, Joseph Homer (23 de diciembre de 2019). "Análisis de fiabilidad estadística para una ocupación muy peligrosa: el emperador romano". Comunicaciones Palgrave . 5 (1): 1–7. doi : 10.1057/s41599-019-0366-y . ISSN 2055-1045.
^ Kreer, Markus; Kizilersu, Ayse; Thomas, Anthony W. (2022). "Algoritmo de maximización de expectativas censuradas para mezclas: aplicación a tiempos de espera intercomerciales". Physica A: Mecánica estadística y sus aplicaciones . 587 (1): 126456. Código bibliográfico : 2022PhyA..58726456K. doi :10.1016/j.physa.2021.126456. ISSN 0378-4371. S2CID 244198364.

Otras lecturas

Collet, David (2003). Modelado de datos de supervivencia en investigaciones médicas (Segunda ed.). Boca Ratón: Chapman & Hall/CRC. ISBN 1584883251.
Elandt-Johnson, Regina; Johnson, normando (1999). Modelos de supervivencia y análisis de datos . Nueva York: John Wiley & Sons. ISBN 0471349925.
Kalbfleisch, JD; Prentice, Ross L. (2002). El análisis estadístico de los datos del tiempo de falla . Nueva York: John Wiley & Sons. ISBN 047136357X.
Sin ley, Jerald F. (2003). Modelos y métodos estadísticos para datos de por vida (2ª ed.). Hoboken: John Wiley e hijos. ISBN 0471372153.
Rausand, M.; Hoyland, A. (2004). Teoría de la confiabilidad del sistema: modelos, métodos estadísticos y aplicaciones . Hoboken: John Wiley e hijos. ISBN 047147133X.

enlaces externos

Terneau, Terry. "Un paquete para análisis de supervivencia en S". Archivado desde el original el 7 de septiembre de 2006.a través de la página del Dr. Therneau en el sitio web de Mayo Clinic
"Manual de estadísticas de ingeniería". NIST/SEMATEK.
SOCR , subprograma de análisis de supervivencia y actividad de aprendizaje interactivo.
Análisis del tiempo de supervivencia/falla en la página del libro de texto de Estadísticas
Análisis de supervivencia en R
Lifelines, un paquete Python para análisis de supervivencia
Análisis de supervivencia en la biblioteca NAG Fortran