stringtranslate.com

Análisis de supervivencia

El análisis de supervivencia es una rama de la estadística que analiza la duración esperada del tiempo hasta que ocurre un evento, como la muerte en organismos biológicos o la falla en sistemas mecánicos. Este tema se llama teoría de la confiabilidad , análisis de la confiabilidad o ingeniería de la confiabilidad en ingeniería , análisis de la duración o modelado de la duración en economía y análisis del historial de eventos en sociología . El análisis de supervivencia intenta responder ciertas preguntas, como ¿cuál es la proporción de una población que sobrevivirá más allá de cierto tiempo? De los que sobreviven, ¿a qué tasa morirán o fallarán? ¿Se pueden tener en cuenta múltiples causas de muerte o falla? ¿Cómo aumentan o disminuyen las circunstancias o características particulares la probabilidad de supervivencia ?

Para responder a estas preguntas, es necesario definir el concepto de "duración de la vida". En el caso de la supervivencia biológica, la muerte es inequívoca, pero en el caso de la fiabilidad mecánica, el fallo puede no estar bien definido, ya que puede haber sistemas mecánicos en los que el fallo sea parcial, una cuestión de grado o no localizado en el tiempo . Incluso en los problemas biológicos, algunos acontecimientos (por ejemplo, un ataque cardíaco o una falla de otro órgano) pueden tener la misma ambigüedad. La teoría que se describe a continuación supone acontecimientos bien definidos en momentos específicos; otros casos pueden tratarse mejor con modelos que tengan en cuenta explícitamente los acontecimientos ambiguos.

En términos más generales, el análisis de supervivencia implica la modelización de los datos de tiempo hasta el evento; en este contexto, la muerte o el fracaso se consideran un "evento" en la literatura de análisis de supervivencia; tradicionalmente, solo ocurre un único evento para cada sujeto, después del cual el organismo o mecanismo muere o se rompe. Los modelos de eventos recurrentes o eventos repetidos flexibilizan ese supuesto. El estudio de eventos recurrentes es relevante en la confiabilidad de los sistemas y en muchas áreas de las ciencias sociales y la investigación médica.

Introducción al análisis de supervivencia

El análisis de supervivencia se utiliza de varias maneras:

Definiciones de términos comunes en el análisis de supervivencia

Los siguientes términos se utilizan comúnmente en los análisis de supervivencia:

Ejemplo: Datos de supervivencia de la leucemia mieloide aguda

Este ejemplo utiliza el conjunto de datos de supervivencia de leucemia mielógena aguda "aml" del paquete "survival" de R. El conjunto de datos es de Miller (1997) [1] y la pregunta es si el tratamiento estándar de quimioterapia debería extenderse ('mantenerse') durante ciclos adicionales.

El conjunto de datos aml ordenados por tiempo de supervivencia se muestra en el cuadro.

La última observación (11), a las 161 semanas, está censurada. La censura indica que el paciente no tuvo un evento (no hubo recurrencia del cáncer de leucemia mieloide aguda). Otro sujeto, la observación 3, fue censurado a las 13 semanas (indicado por el estado = 0). Este sujeto estuvo en el estudio solo durante 13 semanas, y el cáncer de leucemia mieloide aguda no recurrió durante esas 13 semanas. Es posible que este paciente haya sido incluido cerca del final del estudio, de modo que pudiera ser observado solo durante 13 semanas. También es posible que el paciente haya sido incluido al principio del estudio, pero se haya perdido el seguimiento o se haya retirado del estudio. La tabla muestra que otros sujetos fueron censurados a las 16, 28 y 45 semanas (observaciones 17, 6 y  9 con estado = 0). Todos los sujetos restantes experimentaron eventos (recurrencia del cáncer de leucemia mieloide aguda) mientras estaban en el estudio. La pregunta de interés es si la recurrencia ocurre más tarde en los pacientes mantenidos que en los pacientes no mantenidos.

Diagrama de Kaplan-Meier para los datos de aml

La función de supervivencia S ( t ) es la probabilidad de que un sujeto sobreviva más tiempo que t . S ( t ) es teóricamente una curva suave, pero normalmente se estima utilizando la curva de Kaplan-Meier (KM). El gráfico muestra la curva de KM para los datos de aml y se puede interpretar de la siguiente manera:

Tabla de vida para los datos aml

Una tabla de vida resume los datos de supervivencia en términos de la cantidad de eventos y la proporción de sobrevivientes en cada punto temporal del evento.  Se muestra la tabla de vida para los datos de aml, creada con el software R.

Tabla de vida para los datos aml

La tabla de vida resume los eventos y la proporción de sobrevivientes en cada momento del evento. Las columnas de la tabla de vida tienen la siguiente interpretación:

Prueba de rangos logarítmicos: prueba de diferencias en la supervivencia en los datos de leucemia mieloide aguda

La prueba de rangos logarítmicos compara los tiempos de supervivencia de dos o más grupos. Este ejemplo utiliza una prueba de rangos logarítmicos para determinar la diferencia en la supervivencia entre los grupos de tratamiento mantenido y no mantenido en los datos de leucemia mieloide aguda. El gráfico muestra los gráficos de KM para los datos de leucemia mieloide aguda desglosados ​​por grupo de tratamiento, lo que se indica mediante la variable "x" en los datos.

Gráfico de Kaplan-Meier por grupo de tratamiento en leucemia mieloide aguda

La hipótesis nula para una prueba de log-rank es que los grupos tienen la misma supervivencia. El número esperado de sujetos que sobreviven en cada punto temporal de cada uno se ajusta al número de sujetos en riesgo en los grupos en cada momento del evento. La prueba de log-rank determina si el número observado de eventos en cada grupo es significativamente diferente del número esperado. La prueba formal se basa en una estadística de chi-cuadrado. Cuando la estadística de log-rank es grande, es evidencia de una diferencia en los tiempos de supervivencia entre los grupos. La estadística de log-rank tiene aproximadamente una distribución de chi-cuadrado con un grado de libertad, y el valor p se calcula utilizando la prueba de chi-cuadrado .

Para los datos de ejemplo, la prueba de log-rank para la diferencia en supervivencia arroja un valor p de p=0,0653, lo que indica que los grupos de tratamiento no difieren significativamente en cuanto a supervivencia, suponiendo un nivel alfa de 0,05. El tamaño de la muestra de 23 sujetos es modesto, por lo que hay poco poder para detectar diferencias entre los grupos de tratamiento. La prueba de chi-cuadrado se basa en una aproximación asintótica, por lo que el valor p debe considerarse con cautela para tamaños de muestra pequeños .

Análisis de regresión de riesgos proporcionales (PH) de Cox

Las curvas de Kaplan-Meier y las pruebas de log-rank son más útiles cuando la variable predictora es categórica (p. ej., fármaco frente a placebo) o toma una pequeña cantidad de valores (p. ej., dosis de fármaco de 0, 20, 50 y 100 mg/día) que pueden tratarse como categóricas. La prueba de log-rank y las curvas KM no funcionan fácilmente con predictores cuantitativos como la expresión genética, el recuento de glóbulos blancos o la edad. Para las variables predictoras cuantitativas, un método alternativo es el análisis de regresión de riesgos proporcionales de Cox . Los modelos de Cox PH también funcionan con variables predictoras categóricas, que se codifican como variables indicadoras {0,1} o variables ficticias. La prueba de log-rank es un caso especial de un análisis de Cox PH y se puede realizar utilizando el software de Cox PH.

Ejemplo: análisis de regresión de riesgos proporcionales de Cox para el melanoma

Este ejemplo utiliza el conjunto de datos de melanoma del Capítulo 14 de Dalgaard. [2]

Los datos se encuentran en el paquete R ISwR. La regresión de riesgos proporcionales de Cox con  R arroja los resultados que se muestran en el recuadro.

Resultado de la regresión de riesgos proporcionales de Cox para datos de melanoma. La variable predictora es el sexo 1: femenino, 2: masculino.

Los resultados de la regresión de Cox se interpretan de la siguiente manera.

El resultado resumido también proporciona intervalos de confianza superior e inferior del 95 % para el cociente de riesgo: límite inferior del 95 % = 1,15; límite superior del 95 % = 3,26.

Finalmente, el resultado proporciona valores p para tres pruebas alternativas de significancia general del modelo:

Estas tres pruebas son asintóticamente equivalentes. Para un N suficientemente grande, darán resultados similares. Para un N pequeño, pueden diferir un poco. La última fila, "Prueba de puntuación (logrank)" es el resultado de la prueba log-rank, con p=0,011, el mismo resultado que la prueba log-rank, porque la prueba log-rank es un caso especial de una regresión de Cox PH. La prueba de razón de verosimilitud tiene un mejor comportamiento para tamaños de muestra pequeños, por lo que generalmente se prefiere.

Modelo de Cox que utiliza una covariable en los datos de melanoma

El modelo de Cox extiende la prueba de log-rank al permitir la inclusión de covariables adicionales. [3] Este ejemplo utiliza el conjunto de datos de melanoma donde las variables predictoras incluyen una covariable continua, el grosor del tumor (nombre de la variable = "grueso").

Histogramas del espesor del tumor de melanoma

En los histogramas, los valores de espesor están sesgados positivamente y no tienen una distribución de probabilidad simétrica similar a la de Gauss . Los modelos de regresión, incluido el modelo de Cox, generalmente brindan resultados más confiables con variables distribuidas normalmente. [ cita requerida ] Para este ejemplo, podemos usar una transformación logarítmica . El logaritmo del espesor del tumor parece estar distribuido de manera más normal, por lo que los modelos de Cox usarán el logaritmo del espesor. El análisis de pH de Cox brinda los resultados en el recuadro.

Salida de pH de Cox para el conjunto de datos de melanoma con covariable de espesor tumoral logarítmico

El valor p para las tres pruebas generales (probabilidad, Wald y puntuación) es significativo, lo que indica que el modelo es significativo. El valor p para log(thick) es 6,9e-07, con un cociente de riesgo HR = exp(coef) = 2,18, lo que indica una fuerte relación entre el grosor del tumor y un mayor riesgo de muerte.

En cambio, el valor p para el sexo es ahora p=0,088. El cociente de riesgo HR = exp(coef) = 1,58, con un intervalo de confianza del 95% de 0,934 a 2,68. Como el intervalo de confianza para el HR incluye 1, estos resultados indican que el sexo hace una contribución menor a la diferencia en el HR después de controlar el grosor del tumor, y solo tiende hacia la significación. El examen de los gráficos de log(grosor) por sexo y una prueba t de log(grosor) por sexo indican que existe una diferencia significativa entre hombres y mujeres en el grosor del tumor cuando ven por primera vez al médico.

El modelo de Cox supone que los riesgos son proporcionales. La hipótesis de riesgo proporcional se puede probar utilizando la  función R cox.zph(). Un valor p inferior a 0,05 indica que los riesgos no son proporcionales. Para los datos de melanoma obtenemos p=0,222. Por lo tanto, no podemos rechazar la hipótesis nula de que los riesgos sean proporcionales. En los libros de texto citados se describen pruebas y gráficos adicionales para examinar un modelo de Cox.

Extensiones a los modelos de Cox

Los modelos de Cox se pueden ampliar para abordar variaciones en el análisis simple.

Modelos de supervivencia estructurados en forma de árbol

El modelo de regresión de Cox PH es un modelo lineal. Es similar a la regresión lineal y a la regresión logística. En concreto, estos métodos suponen que una única línea, curva, plano o superficie es suficiente para separar grupos (vivos, muertos) o para estimar una respuesta cuantitativa (tiempo de supervivencia).

En algunos casos, las particiones alternativas brindan una clasificación o estimaciones cuantitativas más precisas. Un conjunto de métodos alternativos son los modelos de supervivencia estructurados en árbol [4] [5] [6], incluidos los bosques aleatorios de supervivencia. [7] Los modelos de supervivencia estructurados en árbol pueden brindar predicciones más precisas que los modelos de Cox. Examinar ambos tipos de modelos para un conjunto de datos determinado es una estrategia razonable.

Ejemplo de análisis de árbol de supervivencia

Este ejemplo de análisis de árbol de supervivencia utiliza el  paquete R "rpart". [8] El ejemplo se basa en 146  pacientes con cáncer de próstata en estadio C del conjunto de datos stagec en rpart. Rpart y el ejemplo stagec se describen en Atkinson y Therneau (1997), [9] que también se distribuye como una viñeta del paquete rpart. [8]

Las variables en etapas son:

El árbol de supervivencia producido por el análisis se muestra en la figura.

Árbol de supervivencia para el conjunto de datos del cáncer de próstata

Cada rama del árbol indica una división en el valor de una variable. Por ejemplo, la raíz del árbol divide a los sujetos con una calificación < 2,5 frente a los sujetos con una calificación 2,5 o superior. Los nodos terminales indican la cantidad de sujetos del nodo, la cantidad de sujetos que tienen eventos y la tasa relativa de eventos en comparación con la raíz. En el nodo del extremo izquierdo, los valores 1/33 indican que uno de los 33 sujetos del nodo tuvo un evento y que la tasa relativa de eventos es 0,122. En el nodo del extremo inferior derecho, los valores 11/15 indican que 11 de los 15 sujetos del nodo tuvieron un evento y la tasa relativa de eventos es 2,7.

Bosques aleatorios de supervivencia

Una alternativa a la construcción de un único árbol de supervivencia es construir muchos árboles de supervivencia, donde cada árbol se construye utilizando una muestra de los datos y se promedian los árboles para predecir la supervivencia. [7] Este es el método subyacente a los modelos de bosque aleatorio de supervivencia. El análisis de bosque aleatorio de supervivencia está disponible en el  paquete R "randomForestSRC". [10]

El paquete randomForestSRC incluye un ejemplo de análisis de bosque aleatorio de supervivencia utilizando el conjunto de datos pbc. Estos datos proceden del ensayo de cirrosis biliar primaria (CBP) de la Clínica Mayo realizado entre 1974 y 1984. En el ejemplo, el modelo de supervivencia de bosque aleatorio proporciona predicciones de supervivencia más precisas que el modelo de PH de Cox. Los errores de predicción se calculan mediante un nuevo muestreo bootstrap .

Modelos de supervivencia de aprendizaje profundo

Los avances recientes en el aprendizaje de representaciones profundas se han extendido a la estimación de supervivencia. El modelo DeepSurv [11] propone reemplazar la parametrización log-lineal del modelo CoxPH con un perceptrón multicapa. Otras extensiones como Deep Survival Machines [12] y Deep Cox Mixtures [13] implican el uso de modelos de mezcla de variables latentes para modelar la distribución del tiempo hasta el evento como una mezcla de distribuciones paramétricas o semiparamétricas mientras se aprenden conjuntamente representaciones de las covariables de entrada. Los enfoques de aprendizaje profundo han demostrado un rendimiento superior, especialmente en modalidades de datos de entrada complejos, como imágenes y series temporales clínicas.

Formulación general

Función de supervivencia

El objeto de interés principal es la función de supervivencia , convencionalmente denominada S , que se define como

donde t es un tiempo, T es una variable aleatoria que denota el momento de la muerte y "Pr" representa la probabilidad . Es decir, la función de supervivencia es la probabilidad de que el momento de la muerte sea posterior a un tiempo especificado t . La función de supervivencia también se denomina función de supervivencia o función de supervivencia en problemas de supervivencia biológica, y función de confiabilidad en problemas de supervivencia mecánica. En este último caso, la función de confiabilidad se denota R ( t ).

Generalmente se supone que S (0) = 1, aunque podría ser menor que 1  si existe la posibilidad de muerte o falla inmediata.

La función de supervivencia debe ser no creciente: S ( u ) ≤ S ( t ) si ut . Esta propiedad se deduce directamente porque T > u implica T > t . Esto refleja la noción de que la supervivencia hasta una edad posterior es posible solo si se alcanzan todas las edades más jóvenes. Dada esta propiedad, la función de distribución de la vida útil y la densidad de eventos ( F y f a continuación) están bien definidas.

Generalmente se supone que la función de supervivencia se acerca a cero a medida que aumenta la edad sin límite (es decir, S ( t ) → 0 cuando t → ∞), aunque el límite podría ser mayor que cero si es posible la vida eterna. Por ejemplo, podríamos aplicar el análisis de supervivencia a una mezcla de isótopos de carbono estables e inestables ; los isótopos inestables se desintegrarían tarde o temprano, pero los isótopos estables durarían indefinidamente.

Función de distribución de la duración de vida y densidad de eventos

Las cantidades relacionadas se definen en términos de la función de supervivencia.

La función de distribución de vida útil , convencionalmente denominada F , se define como el complemento de la función de supervivencia,

Si F es diferenciable , entonces la derivada, que es la función de densidad de la distribución de vida útil, se denota convencionalmente f ,

La función f a veces se denomina densidad de eventos ; es la tasa de eventos de muerte o falla por unidad de tiempo.

La función de supervivencia se puede expresar en términos de funciones de distribución de probabilidad y de densidad de probabilidad.

De manera similar, una función de densidad de eventos de supervivencia se puede definir como

En otros campos, como la física estadística, la función de densidad de eventos de supervivencia se conoce como densidad de tiempo de primer paso .

Función de riesgo y función de riesgo acumulativo

La función de riesgo , convencionalmente denominada como , se define como la tasa de eventos en el momento condicional a la supervivencia hasta el momento o más tarde (es decir, ). Supongamos que un elemento ha sobrevivido durante un tiempo y deseamos la probabilidad de que no sobreviva durante un tiempo adicional :

La fuerza de mortalidad es un sinónimo de función de riesgo que se utiliza particularmente en demografía y ciencia actuarial , donde se denota por . El término tasa de riesgo es otro sinónimo.

La fuerza de mortalidad de la función de supervivencia se define como

La fuerza de la mortalidad también se denomina fuerza del fracaso. Es la función de densidad de probabilidad de la distribución de la mortalidad.

En la ciencia actuarial, la tasa de riesgo es la tasa de muerte para las personas mayores de . Para una persona mayor de , la fuerza de mortalidad años después es la fuerza de mortalidad para una persona de – años. La tasa de riesgo también se denomina tasa de fracaso. La tasa de riesgo y la tasa de fracaso son nombres que se utilizan en la teoría de la confiabilidad.

Cualquier función es una función de riesgo si y sólo si satisface las siguientes propiedades:

  1. ,
  2. .

De hecho, la tasa de riesgo suele ser más informativa acerca del mecanismo subyacente del fallo que las otras representaciones de una distribución a lo largo de la vida.

La función de riesgo debe ser no negativa, , y su integral debe ser infinita, pero no está restringida de ninguna otra manera; puede ser creciente o decreciente, no monótona o discontinua. Un ejemplo es la función de riesgo de la curva de la bañera , que es grande para valores pequeños de , decreciente hasta un mínimo y luego creciente nuevamente; esto puede modelar la propiedad de algunos sistemas mecánicos de fallar poco después de la operación o mucho más tarde, a medida que el sistema envejece.

La función de riesgo se puede representar alternativamente en términos de la función de riesgo acumulativo , denotada convencionalmente como :

Así que transponiendo signos y exponenciando

o diferenciando (con la regla de la cadena)

El nombre "función de riesgo acumulativo" se deriva del hecho de que

que es la “acumulación” del peligro a lo largo del tiempo.

De la definición de , vemos que aumenta sin límite cuando t tiende a infinito (suponiendo que tiende a cero). Esto implica que no debe disminuir demasiado rápido, ya que, por definición, el riesgo acumulado tiene que divergir. Por ejemplo, no es la función de riesgo de ninguna distribución de supervivencia, porque su integral converge a 1.

La función de supervivencia , la función de riesgo acumulativo , la densidad , la función de riesgo y la función de distribución de vida útil están relacionadas a través de

Magnitudes derivadas de la distribución de supervivencia

La vida futura en un momento dado es el tiempo restante hasta la muerte, dada la supervivencia hasta la edad . Por lo tanto, está en la notación actual. La vida futura esperada es el valor esperado de la vida futura. La probabilidad de muerte a la edad o antes , dada la supervivencia hasta la edad , es simplemente

Por lo tanto, la densidad de probabilidad de la vida futura es

y la vida útil futura esperada es

donde la segunda expresión se obtiene mediante integración por partes .

Porque , es decir, al nacer, esto se reduce al tiempo de vida esperado.

En los problemas de confiabilidad, la vida útil esperada se denomina tiempo medio hasta el fallo , y la vida útil futura esperada se denomina vida útil residual media .

Como la probabilidad de que un individuo sobreviva hasta la edad t o más es S ( t ), por definición, el número esperado de sobrevivientes a la edad t de una población inicial de n recién nacidos es n × S ( t ), asumiendo la misma función de supervivencia para todos los individuos. Por lo tanto, la proporción esperada de sobrevivientes es S ( t ). Si la supervivencia de diferentes individuos es independiente, el número de sobrevivientes a la edad t tiene una distribución binomial con parámetros n y S ( t ), y la varianza de la proporción de sobrevivientes es S ( t ) × (1- S ( t ))/ n .

La edad a la que sobreviven una determinada proporción de supervivientes se puede determinar resolviendo la ecuación S ( t ) = q para t , donde q es el cuantil en cuestión. Normalmente, se interesa por la mediana de vida , para la que q = 1/2, u otros cuantiles como q = 0,90 o q = 0,99.

Censura

La censura es una forma de problema de datos faltantes en el que no se observa el tiempo transcurrido hasta el evento por razones como la finalización del estudio antes de que todos los sujetos reclutados hayan mostrado el evento de interés o el sujeto haya abandonado el estudio antes de experimentar un evento. La censura es común en el análisis de supervivencia.

Si solo se conoce el límite inferior l para el tiempo real del evento T , de modo que T > l , esto se denomina censura derecha . La censura derecha se producirá, por ejemplo, para aquellos sujetos cuya fecha de nacimiento se conoce, pero que aún están vivos cuando se pierden para el seguimiento o cuando finaliza el estudio. Generalmente nos encontramos con datos censurados por la derecha.

Si el evento de interés ya ocurrió antes de que el sujeto fuera incluido en el estudio pero no se sabe cuándo ocurrió, se dice que los datos están censurados por la izquierda . [14] Cuando solo se puede decir que el evento ocurrió entre dos observaciones o exámenes, esto es censura de intervalo .

La censura a la izquierda se produce, por ejemplo, cuando un diente permanente ya ha salido antes de que se inicie un estudio odontológico cuyo objetivo es estimar la distribución de su aparición. En el mismo estudio, se censura el intervalo de tiempo de aparición cuando el diente permanente está presente en la boca en el examen actual pero todavía no en el examen anterior. La censura a intervalos se produce a menudo en los estudios sobre el VIH/SIDA. De hecho, el tiempo hasta la seroconversión al VIH solo se puede determinar mediante una evaluación de laboratorio que generalmente se inicia después de una visita al médico. En ese caso, solo se puede concluir que la seroconversión al VIH se ha producido entre dos exámenes. Lo mismo se aplica al diagnóstico del SIDA, que se basa en los síntomas clínicos y debe confirmarse mediante un examen médico.

También puede ocurrir que los sujetos con una vida útil inferior a un cierto umbral no sean observados en absoluto: esto se llama truncamiento . Obsérvese que el truncamiento es diferente de la censura a la izquierda, ya que para un dato censurado a la izquierda, sabemos que el sujeto existe, pero para un dato truncado, podemos ignorar por completo al sujeto. El truncamiento también es común. En un llamado estudio de entrada retrasada , los sujetos no son observados en absoluto hasta que han alcanzado una cierta edad. Por ejemplo, es posible que las personas no sean observadas hasta que hayan alcanzado la edad para ingresar a la escuela. Cualquier sujeto fallecido en el grupo de edad preescolar sería desconocido. Los datos truncados a la izquierda son comunes en el trabajo actuarial para seguros de vida y pensiones . [15]

Los datos censurados a la izquierda pueden aparecer cuando el tiempo de supervivencia de una persona se vuelve incompleto en el lado izquierdo del período de seguimiento de la misma. Por ejemplo, en un ejemplo epidemiológico, podemos hacer un seguimiento de un paciente para detectar un trastorno infeccioso a partir del momento en que da positivo en la prueba de la infección. Aunque podemos conocer el lado derecho de la duración de interés, es posible que nunca sepamos el tiempo exacto de exposición al agente infeccioso. [16]

Ajuste de parámetros a los datos

Los modelos de supervivencia pueden considerarse modelos de regresión ordinarios en los que la variable de respuesta es el tiempo. Sin embargo, el cálculo de la función de verosimilitud (necesaria para ajustar parámetros o hacer otros tipos de inferencias) se complica por la censura. La función de verosimilitud para un modelo de supervivencia, en presencia de datos censurados, se formula de la siguiente manera. Por definición, la función de verosimilitud es la probabilidad condicional de los datos dados los parámetros del modelo. Es habitual suponer que los datos son independientes dados los parámetros. Entonces, la función de verosimilitud es el producto de la verosimilitud de cada dato. Es conveniente dividir los datos en cuatro categorías: sin censura, censurados por la izquierda, censurados por la derecha y censurados por intervalo. Estas se denotan "unc.", "lc", "rc" e "ic" en la ecuación siguiente.

Para datos sin censura, con igual edad al momento de la muerte, tenemos

Para los datos censurados a la izquierda, de modo que se sabe que la edad al momento de la muerte es menor que , tenemos

Para los datos censurados a la derecha, de modo que se sabe que la edad al momento de la muerte es mayor que , tenemos

Para un dato censurado por intervalo, tal que se sabe que la edad al momento de la muerte es menor que y mayor que , tenemos

Una aplicación importante donde surgen datos censurados por intervalos son los datos de estado actual, donde se sabe que un evento no ocurrió antes de un tiempo de observación y que ocurrió antes del siguiente tiempo de observación.

Estimación no paramétrica

El estimador de Kaplan-Meier se puede utilizar para estimar la función de supervivencia. El estimador de Nelson-Aalen se puede utilizar para proporcionar una estimación no paramétrica de la función de tasa de riesgo acumulada. Estos estimadores requieren datos de toda la vida. Los recuentos periódicos de casos (cohortes) y muertes (y recuperación) son estadísticamente suficientes para realizar estimaciones no paramétricas de máxima verosimilitud y mínimos cuadrados de las funciones de supervivencia, sin datos de toda la vida.

Modelos de supervivencia en tiempo discreto

Si bien muchos modelos pramétricos asumen un tiempo continuo, los modelos de supervivencia de tiempo discreto se pueden mapear a un problema de clasificación binaria. En un modelo de supervivencia de tiempo discreto, el período de supervivencia se remuestrea artificialmente en intervalos donde para cada intervalo se registra un indicador objetivo binario si el evento tiene lugar en un cierto horizonte de tiempo. [17] Si se calibra un clasificador binario (potencialmente mejorado con una probabilidad diferente para tener más en cuenta la estructura del problema) , entonces la puntuación del clasificador es la función de riesgo (es decir, la probabilidad condicional de falla). [17]

Descripción de la transformación de datos de supervivencia en tiempo continuo a datos de supervivencia en tiempo discreto. El individuo 4 está censurado y para el individuo 5 el evento ocurre fuera de la ventana de observación 5.

Los modelos de supervivencia en tiempo discreto están conectados con la probabilidad empírica . [18] [19]

Bondad de ajuste

La bondad de ajuste de los modelos de supervivencia se puede evaluar utilizando reglas de puntuación . [20]

Software informático para análisis de supervivencia

El libro de texto de Kleinbaum tiene ejemplos de análisis de supervivencia utilizando SAS, R y otros paquetes. [21] Los libros de texto de Brostrom, [22] Dalgaard [2] y Tableman y Kim [23] dan ejemplos de análisis de supervivencia utilizando R (o utilizando S, y que se ejecutan en R).

Distribuciones utilizadas en el análisis de supervivencia

Aplicaciones

Véase también

Referencias

  1. ^ Miller, Rupert G. (1997), Análisis de supervivencia , John Wiley & Sons, ISBN 0-471-25218-2
  2. ^ ab Dalgaard, Peter (2008), Introducción a la estadística con R (segunda edición), Springer, ISBN 978-0387790534
  3. ^ Saegusa, Takumi; Di, Chongzhi; Chen, Ying Qing (septiembre de 2014). "Prueba de hipótesis para un modelo de Cox extendido con coeficientes que varían en el tiempo". Biometrics . 70 (3): 619–628. doi :10.1111/biom.12185. ISSN  0006-341X. PMC 4247822 . 
  4. ^ Segal, Mark Robert (1988). "Árboles de regresión para datos censurados". Biometrics . 44 (1): 35–47. doi :10.2307/2531894. JSTOR  2531894. S2CID  60974957.
  5. ^ Leblanc, Michael; Crowley, John (1993). "Árboles de supervivencia por bondad de división". Revista de la Asociación Estadounidense de Estadística . 88 (422): 457–467. doi :10.1080/01621459.1993.10476296. ISSN  0162-1459.
  6. ^ Ritschard, Gilbert; Gabadinho, Alexis; Muller, Nicolas S.; Studer, Matthias (2008). "Historias de eventos mineros: una perspectiva de las ciencias sociales". Revista internacional de minería de datos, modelado y gestión . 1 (1): 68. doi :10.1504/IJDMMM.2008.022538. ISSN  1759-1163.
  7. ^ ab Ishwaran, Hemant; Kogalur, Udaya B.; Blackstone, Eugene H.; Lauer, Michael S. (1 de septiembre de 2008). "Bosques de supervivencia aleatorios". Anales de estadística aplicada . 2 (3). arXiv : 0811.1645 . doi : 10.1214/08-AOAS169 . ISSN  1932-6157. S2CID  2003897.
  8. ^ ab Therneau, Terry J.; Atkinson, Elizabeth J. "rpart: Particionamiento recursivo y árboles de regresión". CRAN . Consultado el 12 de noviembre de 2021 .
  9. ^ Atkinson, Elizabeth J.; Therneau, Terry J. (1997). Introducción al particionamiento recursivo mediante las rutinas RPART. Mayo Foundation.
  10. ^ Ishwaran, Hemant; Kogalur, Udaya B. "randomForestSRC: Bosques aleatorios unificados rápidos para supervivencia, regresión y clasificación (RF-SRC)". CRAN . Consultado el 12 de noviembre de 2021 .
  11. ^ Singh, Jared; Katzman, L. (2018). "DeepSurv: sistema de recomendación de tratamiento personalizado que utiliza una red neuronal profunda de riesgos proporcionales de Cox". Metodología de investigación médica de BMC .
  12. ^ Nagpal, Chirag (2021). "Máquinas de supervivencia profunda: regresión de supervivencia totalmente paramétrica y aprendizaje de representación para datos censurados con riesgos competitivos". Revista IEEE de informática biomédica y sanitaria . 25 (8): 3163–3175. arXiv : 2003.01176 . doi :10.1109/JBHI.2021.3052441. PMID  33460387. S2CID  211817982.
  13. ^ Nagpal, Chirag (2021). "Mezclas de Cox profundas para la regresión de supervivencia". Conferencia sobre aprendizaje automático para la atención médica . arXiv : 2101.06536 .
  14. ^ Darity, William A. Jr., ed. (2008). "Censura, izquierda y derecha". Enciclopedia Internacional de las Ciencias Sociales . Vol. 1 (2.ª ed.). Macmillan. págs. 473–474 . Consultado el 6 de noviembre de 2016 .
  15. ^ Richards, SJ (2012). "Un manual de modelos de supervivencia paramétricos para uso actuarial". Scandinavian Actuarial Journal . 2012 (4): 233–257. doi :10.1080/03461238.2010.506688. S2CID  119577304.
  16. ^ Singh, R.; Mukhopadhyay, K. (2011). "Análisis de supervivencia en ensayos clínicos: aspectos básicos y áreas que se deben conocer". Perspect Clin Res . 2 (4): 145–148. doi : 10.4103/2229-3485.86872 . PMC 3227332 . PMID  22145125. 
  17. ^ ab Suresh, K., Severn, C. y Ghosh, D. Modelos de predicción de supervivencia: una introducción al modelado de tiempo discreto. BMC Med Res Methodol 22, 207 (2022). https://doi.org/10.1186/s12874-022-01679-6 , https://bmcmedresmethodol.biomedcentral.com/articles/10.1186/s12874-022-01679-6
  18. ^ Probabilidad empírica en el análisis de supervivencia, Gang Li (EE. UU.), Runze Li (EE. UU.) y Mai Zhou (EE. UU.), Análisis multivariante contemporáneo y diseño de experimentos. Marzo de 2005, 337-349, https://www.ms.uky.edu/~mai/research/llz.pdf
  19. ^ La función de distribución empírica con datos agrupados, censurados y truncados arbitrariamente, Bruce W. Turnbull, Journal of the Royal Statistical Society. Serie B (Metodológica) Vol. 38, N.º 3 (1976), págs. 290-295 (6 páginas), https://apps.dtic.mil/sti/tr/pdf/ADA030940.pdf
  20. ^ Reglas de puntuación adecuadas para el análisis de supervivencia, Hiroki Yanagisawa, https://arxiv.org/abs/2305.00621v3
  21. ^ Kleinbaum, David G.; Klein, Mitchel (2012), Análisis de supervivencia: un texto de autoaprendizaje (tercera edición), Springer, ISBN 978-1441966452
  22. ^ Brostrom, Göran (2012), Análisis del historial de eventos con R (primera edición), Chapman & Hall/CRC, ISBN 978-1439831649
  23. ^ Tableman, Mara; Kim, Jong Sung (2003), Análisis de supervivencia utilizando S (Primera edición), Chapman y Hall/CRC, ISBN 978-1584884088
  24. ^ Stepanova, Maria; Thomas, Lyn (1 de abril de 2002). "Métodos de análisis de supervivencia para datos de préstamos personales". Investigación de operaciones . 50 (2): 277–289. doi :10.1287/opre.50.2.277.426. ISSN  0030-364X.
  25. ^ Glennon, Dennis; Nigro, Peter (2005). "Medición del riesgo de impago de los préstamos a pequeñas empresas: un enfoque de análisis de supervivencia". Journal of Money, Credit and Banking . 37 (5): 923–947. doi :10.1353/mcb.2005.0051. ISSN  0022-2879. JSTOR  3839153. S2CID  154615623.
  26. ^ Kennedy, Edward H.; Hu, Chen; O'Brien, Barbara; Gross, Samuel R. (20 de mayo de 2014). "Tasa de condenas falsas de acusados ​​penales que son sentenciados a muerte". Actas de la Academia Nacional de Ciencias . 111 (20): 7230–7235. Bibcode :2014PNAS..111.7230G. doi : 10.1073/pnas.1306417111 . ISSN  0027-8424. PMC 4034186 . PMID  24778209. 
  27. ^ de Cos Juez, FJ; García Nieto, PJ; Martínez Torres, J.; Taboada Castro, J. (2010-10-01). "Análisis de tiempos de entrega de componentes metálicos en la industria aeroespacial mediante un modelo de máquina vectorial soportada". Modelado matemático y computacional . Modelos matemáticos en medicina, negocios e ingeniería 2009. 52 (7): 1177–1184. doi : 10.1016/j.mcm.2010.03.017 . ISSN  0895-7177.
  28. ^ Spivak, Andrew L.; Damphousse, Kelly R. (2006). "¿Quién vuelve a prisión? Un análisis de supervivencia de la reincidencia entre los delincuentes adultos liberados en Oklahoma, 1985-2004". Investigación y política de justicia . 8 (2): 57–88. doi :10.3818/jrp.8.2.2006.57. ISSN  1525-1071. S2CID  144566819.
  29. ^ Pollock, Kenneth H.; Winterstein, Scott R.; Bunck, Christine M.; Curtis, Paul D. (1989). "Análisis de supervivencia en estudios de telemetría: el diseño de entrada escalonada". Revista de gestión de la vida silvestre . 53 (1): 7–15. doi :10.2307/3801296. ISSN  0022-541X. JSTOR  3801296.
  30. ^ Saleh, Joseph Homer (23 de diciembre de 2019). «Análisis de fiabilidad estadística para una ocupación muy peligrosa: emperador romano». Palgrave Communications . 5 (1): 1–7. doi : 10.1057/s41599-019-0366-y . ISSN  2055-1045.
  31. ^ Kreer, Markus; Kizilersu, Ayse; Thomas, Anthony W. (2022). "Algoritmo de maximización de expectativas censuradas para mezclas: aplicación a tiempos de espera entre transacciones". Physica A: Mecánica estadística y sus aplicaciones . 587 (1): 126456. Bibcode :2022PhyA..58726456K. doi :10.1016/j.physa.2021.126456. ISSN  0378-4371. S2CID  244198364.

Lectura adicional

Enlaces externos