stringtranslate.com

Análisis de supervivencia

El análisis de supervivencia es una rama de la estadística para analizar la duración esperada del tiempo hasta que ocurre un evento, como la muerte en organismos biológicos y fallas en sistemas mecánicos. Este tema se llama teoría de la confiabilidad o análisis de confiabilidad en ingeniería , análisis de duración o modelado de duración en economía y análisis de historia de eventos en sociología . El análisis de supervivencia intenta responder ciertas preguntas, como ¿cuál es la proporción de una población que sobrevivirá después de un tiempo determinado? De los que sobrevivan, ¿a qué ritmo morirán o fracasarán? ¿Se pueden tener en cuenta múltiples causas de muerte o fracaso? ¿Cómo aumentan o disminuyen las circunstancias o características particulares la probabilidad de supervivencia ?

Para responder a estas preguntas, es necesario definir "vida". En el caso de la supervivencia biológica, la muerte es inequívoca, pero en el caso de la confiabilidad mecánica, el fallo puede no estar bien definido, pues bien puede haber sistemas mecánicos en los que el fallo sea parcial, una cuestión de grado o no esté localizado en el tiempo . Incluso en los problemas biológicos, algunos acontecimientos (por ejemplo, un ataque cardíaco u otra insuficiencia orgánica) pueden tener la misma ambigüedad. La teoría que se describe a continuación supone eventos bien definidos en momentos específicos; otros casos pueden tratarse mejor mediante modelos que tengan en cuenta explícitamente acontecimientos ambiguos.

De manera más general, el análisis de supervivencia implica el modelado de datos de tiempo hasta el evento; En este contexto, la muerte o el fracaso se consideran un "evento" en la literatura sobre análisis de supervivencia; tradicionalmente, solo ocurre un evento para cada sujeto, después del cual el organismo o mecanismo muere o se rompe. Los modelos de eventos recurrentes o de eventos repetidos relajan esa suposición. El estudio de eventos recurrentes es relevante en la confiabilidad de los sistemas , y en muchas áreas de las ciencias sociales y la investigación médica.

Introducción al análisis de supervivencia.

El análisis de supervivencia se utiliza de varias maneras:

Definiciones de términos comunes en el análisis de supervivencia.

Los siguientes términos se utilizan comúnmente en los análisis de supervivencia:

Ejemplo: datos de supervivencia de la leucemia mielógena aguda

Este ejemplo utiliza el conjunto de datos de supervivencia de la leucemia mielógena aguda "aml" del paquete "survival" en R. El conjunto de datos es de Miller (1997) [1] y la pregunta es si el ciclo estándar de quimioterapia debe extenderse ('mantenerse ') para ciclos adicionales.

El conjunto de datos de aml ordenados por tiempo de supervivencia se muestra en el cuadro.

Conjunto de datos de Aml ordenados por tiempo de supervivencia

La última observación (11), a las 161 semanas, está censurada. La censura indica que el paciente no tuvo ningún evento (no hubo recurrencia del cáncer de aml). Otro sujeto, la observación 3, fue censurado a las 13 semanas (indicado por estado = 0). Este sujeto estuvo en el estudio solo durante 13 semanas y el cáncer de aml no recurrió durante esas 13 semanas. Es posible que este paciente fuera inscrito cerca del final del estudio, por lo que pudo ser observado durante sólo 13 semanas. También es posible que el paciente haya sido inscrito tempranamente en el estudio, pero se haya perdido durante el seguimiento o se haya retirado del estudio. La tabla muestra que otros sujetos fueron censurados a las 16, 28 y 45 semanas (observaciones 17, 6 y  9 con estado = 0). Todos los sujetos restantes experimentaron eventos (recurrencia de cáncer de aml) durante el estudio. La cuestión de interés es si la recurrencia ocurre más tarde en pacientes mantenidos que en pacientes no mantenidos.

Gráfico de Kaplan-Meier para los datos de aml

La función de supervivencia S ( t ), es la probabilidad de que un sujeto sobreviva más que el tiempo t . S ( t ) es teóricamente una curva suave, pero generalmente se estima utilizando la curva de Kaplan-Meier (KM). El gráfico muestra la gráfica de KM para los datos de aml y se puede interpretar de la siguiente manera:

Tabla de vida para los datos de aml

Una tabla de vida resume los datos de supervivencia en términos del número de eventos y la proporción de sobrevivientes en cada momento del evento. Se muestra la tabla de mortalidad para los datos de aml, creada con el  software R.

Tabla de vida para los datos de aml

La tabla de vida resume los eventos y la proporción de supervivientes en cada momento del evento. Las columnas de la tabla de vida tienen la siguiente interpretación:

Prueba de rango logarítmico: prueba de diferencias en la supervivencia en los datos de aml

La prueba de rangos logarítmicos compara los tiempos de supervivencia de dos o más grupos. Este ejemplo utiliza una prueba de rango logarítmico para una diferencia en la supervivencia en los grupos de tratamiento mantenido versus no mantenido en los datos de aml. El gráfico muestra gráficos de KM para los datos de aml desglosados ​​por grupo de tratamiento, lo que se indica con la variable "x" en los datos.

Gráfico de Kaplan-Meier por grupo de tratamiento en aml

La hipótesis nula para una prueba de rangos logarítmicos es que los grupos tienen la misma supervivencia. El número esperado de sujetos que sobreviven en cada momento de cada evento se ajusta al número de sujetos en riesgo en los grupos en cada momento del evento. La prueba de rango logarítmico determina si el número observado de eventos en cada grupo es significativamente diferente del número esperado. La prueba formal se basa en una estadística de chi-cuadrado. Cuando la estadística de rango logarítmico es grande, es evidencia de una diferencia en los tiempos de supervivencia entre los grupos. La estadística de rango logarítmico tiene aproximadamente una distribución de Chi-cuadrado con un grado de libertad, y el valor p se calcula mediante la prueba de Chi-cuadrado .

Para los datos del ejemplo, la prueba de rangos logarítmicos para la diferencia en la supervivencia da un valor p de p=0,0653, lo que indica que los grupos de tratamiento no difieren significativamente en la supervivencia, suponiendo un nivel alfa de 0,05. El tamaño de la muestra de 23 sujetos es modesto, por lo que hay poco poder para detectar diferencias entre los grupos de tratamiento. La prueba de chi-cuadrado se basa en una aproximación asintótica, por lo que el valor p debe considerarse con precaución para tamaños de muestra pequeños .

Análisis de regresión de riesgos proporcionales (PH) de Cox

Las curvas de Kaplan-Meier y las pruebas de rango logarítmico son más útiles cuando la variable predictiva es categórica (p. ej., fármaco frente a placebo) o toma un número pequeño de valores (p. ej., dosis de fármaco de 0, 20, 50 y 100 mg/día). ) que puede ser tratado como categórico. La prueba de rango logarítmico y las curvas KM no funcionan fácilmente con predictores cuantitativos como la expresión genética, el recuento de glóbulos blancos o la edad. Para variables predictivas cuantitativas, un método alternativo es el análisis de regresión de riesgos proporcionales de Cox . Los modelos Cox PH también funcionan con variables predictoras categóricas, que están codificadas como indicador {0,1} o variables ficticias. La prueba de rango logarítmico es un caso especial de análisis de Cox PH y se puede realizar utilizando el software Cox PH.

Ejemplo: análisis de regresión de riesgos proporcionales de Cox para melanoma

Este ejemplo utiliza el conjunto de datos sobre melanoma del Capítulo 14 de Dalgaard. [2]

Los datos están en el paquete R ISwR. La regresión de riesgos proporcionales de Cox utilizando  R proporciona los resultados que se muestran en el cuadro.

Resultados de la regresión de riesgos proporcionales de Cox para datos de melanoma. La variable predictora es sexo 1: femenino, 2: masculino.

Los resultados de la regresión de Cox se interpretan de la siguiente manera.

El resultado resumido también proporciona intervalos de confianza superior e inferior del 95 % para el índice de riesgo: límite inferior del 95 % = 1,15; límite superior del 95% = 3,26.

Finalmente, el resultado proporciona valores p para tres pruebas alternativas de significancia general del modelo:

Estas tres pruebas son asintóticamente equivalentes. Para N lo suficientemente grande, darán resultados similares. Para N pequeño, pueden diferir algo. La última fila, "Prueba de puntuación (logrank)" es el resultado de la prueba de rango logarítmico, con p=0,011, el mismo resultado que la prueba de rango logarítmico, porque la prueba de rango logarítmico es un caso especial de Cox PH. regresión. La prueba de razón de verosimilitud se comporta mejor para tamaños de muestra pequeños, por lo que generalmente se prefiere.

Modelo de Cox utilizando una covariable en los datos de melanoma.

El modelo de Cox amplía la prueba de rangos logarítmicos al permitir la inclusión de covariables adicionales. [3] Este ejemplo utiliza el conjunto de datos de melanoma donde las variables predictoras incluyen una covariable continua, el grosor del tumor (nombre de la variable = "grueso").

Histogramas del espesor del tumor de melanoma.

En los histogramas, los valores de espesor están sesgados positivamente y no tienen una distribución de probabilidad simétrica similar a Gauss . Los modelos de regresión, incluido el modelo de Cox, generalmente dan resultados más confiables con variables distribuidas normalmente. [ cita necesaria ] Para este ejemplo podemos usar una transformación logarítmica . El logaritmo del espesor del tumor parece tener una distribución más normal, por lo que los modelos de Cox utilizarán el logaritmo del espesor. El análisis de PH de Cox proporciona los resultados en el cuadro.

Salida de Cox PH para el conjunto de datos de melanoma con espesor tumoral logarítmico covariable

El valor p de las tres pruebas generales (probabilidad, Wald y puntuación) es significativo, lo que indica que el modelo es significativo. El valor p para log(grueso) es 6,9e-07, con un índice de riesgo HR = exp(coef) = 2,18, lo que indica una fuerte relación entre el espesor del tumor y un mayor riesgo de muerte.

Por el contrario, el valor p para el sexo es ahora p=0,088. El índice de riesgo HR = exp(coef) = 1,58, con un intervalo de confianza del 95% de 0,934 a 2,68. Debido a que el intervalo de confianza para la FC incluye 1, estos resultados indican que el sexo hace una contribución menor a la diferencia en la FC después de controlar el grosor del tumor, y solo tiene una tendencia hacia la significación. El examen de los gráficos de log(grosor) por sexo y una prueba t de log(grosor) por sexo indican que existe una diferencia significativa entre hombres y mujeres en el espesor del tumor cuando consultan por primera vez al médico.

El modelo de Cox supone que los riesgos son proporcionales. El supuesto de riesgo proporcional se puede probar utilizando la  función R cox.zph(). Un valor p inferior a 0,05 indica que los riesgos no son proporcionales. Para los datos de melanoma obtenemos p=0,222. Por tanto, no podemos rechazar la hipótesis nula de que los riesgos son proporcionales. En los libros de texto citados se describen pruebas y gráficos adicionales para examinar un modelo de Cox.

Extensiones a los modelos Cox

Los modelos de Cox se pueden ampliar para abordar variaciones del análisis simple.

Modelos de supervivencia estructurados en árboles.

El modelo de regresión de Cox PH es un modelo lineal. Es similar a la regresión lineal y la regresión logística. Específicamente, estos métodos suponen que una sola línea, curva, plano o superficie es suficiente para separar grupos (vivos, muertos) o para estimar una respuesta cuantitativa (tiempo de supervivencia).

En algunos casos, las particiones alternativas dan una clasificación o estimaciones cuantitativas más precisas. Un conjunto de métodos alternativos son los modelos de supervivencia estructurados en árboles, [4] [5] [6], incluidos los bosques aleatorios de supervivencia. [7] Los modelos de supervivencia estructurados en árboles pueden dar predicciones más precisas que los modelos de Cox. Examinar ambos tipos de modelos para un conjunto de datos determinado es una estrategia razonable.

Ejemplo de análisis de árbol de supervivencia

Este ejemplo de análisis de árbol de supervivencia utiliza el  paquete R "rpart". [8] El ejemplo se basa en 146  pacientes con cáncer de próstata en estadio C en el conjunto de datos stagec de la parte. Rpart y el ejemplo de stagec se describen en Atkinson y Therneau (1997), [9] , que también se distribuye como una viñeta del paquete rpart. [8]

Las variables por etapas son:

El árbol de supervivencia producido por el análisis se muestra en la figura.

Árbol de supervivencia para el conjunto de datos del cáncer de próstata

Cada rama del árbol indica una división del valor de una variable. Por ejemplo, la raíz del árbol divide las materias con una calificación < 2,5 frente a las materias con una calificación de 2,5 o superior. Los nodos terminales indican la cantidad de sujetos en el nodo, la cantidad de sujetos que tienen eventos y la tasa relativa de eventos en comparación con la raíz. En el nodo del extremo izquierdo, los valores 1/33 indican que uno de los 33 sujetos en el nodo tuvo un evento y que la tasa relativa de eventos es 0,122. En el nodo del extremo inferior derecho, los valores 11/15 indican que 11 de 15 sujetos en el nodo tuvieron un evento y la tasa relativa de eventos es 2,7.

Bosques aleatorios de supervivencia.

Una alternativa a la construcción de un único árbol de supervivencia es construir muchos árboles de supervivencia, donde cada árbol se construye utilizando una muestra de los datos y se promedian los árboles para predecir la supervivencia. [7] Este es el método subyacente a los modelos forestales aleatorios de supervivencia. El análisis de bosque aleatorio de supervivencia está disponible en el  paquete R "randomForestSRC". [10]

El paquete randomForestSRC incluye un ejemplo de análisis de bosque aleatorio de supervivencia utilizando el conjunto de datos pbc. Estos datos provienen del ensayo de cirrosis biliar primaria (CBP) del hígado de Mayo Clinic realizado entre 1974 y 1984. En el ejemplo, el modelo de supervivencia del bosque aleatorio proporciona predicciones de supervivencia más precisas que el modelo de Cox PH. Los errores de predicción se estiman mediante remuestreo de arranque .

Modelos de supervivencia de aprendizaje profundo

Los avances recientes en el aprendizaje de representación profunda se han extendido a la estimación de la supervivencia. El modelo DeepSurv [11] propone reemplazar la parametrización log-lineal del modelo CoxPH con un perceptrón multicapa. Extensiones adicionales como Deep Survival Machines [12] y Deep Cox Mixtures [13] implican el uso de modelos de mezcla de variables latentes para modelar la distribución del tiempo hasta el evento como una mezcla de distribuciones paramétricas o semiparamétricas mientras se aprenden conjuntamente representaciones de la entrada. covariables. Los enfoques de aprendizaje profundo han demostrado un rendimiento superior, especialmente en modalidades de datos de entrada complejas, como imágenes y series temporales clínicas.

formulación general

Función de supervivencia

El objeto de interés principal es la función de supervivencia , convencionalmente denotada como S , que se define como

tTvariable aleatoriaprobabilidadtfunción de supervivenciafunción de supervivenciafunción de fiabilidadRt

Generalmente se supone S (0) = 1, aunque podría ser menor que 1  si existe la posibilidad de muerte o fracaso inmediato.

La función de supervivencia debe ser no creciente: S ( u ) ≤ S ( t ) si ut . Esta propiedad se sigue directamente porque T > u implica T > t . Esto refleja la noción de que la supervivencia hasta una edad posterior sólo es posible si se alcanzan todas las edades más tempranas. Dada esta propiedad, la función de distribución de la vida útil y la densidad de eventos ( F y f a continuación) están bien definidas.

Generalmente se supone que la función de supervivencia se acerca a cero a medida que la edad aumenta sin límite (es decir, S ( t ) → 0 cuando t → ∞), aunque el límite podría ser mayor que cero si la vida eterna es posible. Por ejemplo, podríamos aplicar el análisis de supervivencia a una mezcla de isótopos de carbono estables e inestables ; Los isótopos inestables se desintegrarían tarde o temprano, pero los isótopos estables durarían indefinidamente.

Función de distribución de por vida y densidad de eventos.

Las cantidades relacionadas se definen en términos de la función de supervivencia.

La función de distribución de vida , convencionalmente denotada como F , se define como el complemento de la función de supervivencia,

Fdiferenciable,f

fdensidad de eventos

La función de supervivencia se puede expresar en términos de distribución de probabilidad y funciones de densidad de probabilidad.

de tiempo del primer paso

Función de riesgo y función de riesgo acumulativo.

La función de riesgo , denominada convencionalmente o , se define como la tasa de eventos en el tiempo condicionada a la supervivencia hasta el momento o más tarde (es decir, ). Supongamos que un elemento ha sobrevivido durante un tiempo y deseamos la probabilidad de que no sobreviva durante un tiempo adicional :

Fuerza de mortalidadfunción de riesgodemografíaciencia actuarialtasa de riesgo

La fuerza de mortalidad de la función de supervivencia se define como

La fuerza de la mortalidad también se llama fuerza del fracaso. Es la función de densidad de probabilidad de la distribución de la mortalidad.

En ciencia actuarial, la tasa de riesgo es la tasa de muerte de personas mayores . Para una vida envejecida , la fuerza de la mortalidad años después es la fuerza de la mortalidad para un niño de un año. La tasa de riesgo también se llama tasa de fracaso. Tasa de riesgo y tasa de fracaso son nombres utilizados en la teoría de la confiabilidad.

Cualquier función es una función de riesgo si y sólo si satisface las siguientes propiedades:

  1. ,
  2. .

De hecho, la tasa de riesgo suele ser más informativa sobre el mecanismo subyacente del fracaso que las otras representaciones de una distribución a lo largo de la vida.

La función de riesgo debe ser no negativa, y su integral debe ser infinita, pero no está limitada de otra manera; puede ser creciente o decreciente, no monótono o discontinuo. Un ejemplo es la función de riesgo de la curva de la bañera , que es grande para valores pequeños de , disminuye hasta un mínimo y luego aumenta nuevamente; esto puede modelar la propiedad de algunos sistemas mecánicos de fallar poco después de la operación o mucho más tarde, a medida que el sistema envejece.

La función de riesgo también se puede representar en términos de la función de riesgo acumulativo , convencionalmente denotada o :

De la definición de , vemos que aumenta sin límite cuando t tiende a infinito (asumiendo que tiende a cero). Esto implica que no debe disminuir demasiado rápido, ya que, por definición, el riesgo acumulativo tiene que divergir. Por ejemplo, no es la función de riesgo de ninguna distribución de supervivencia, porque su integral converge a 1.

La función de supervivencia , la función de riesgo acumulativo , la densidad , la función de riesgo y la función de distribución de vida están relacionadas a través de

Cantidades derivadas de la distribución de supervivencia.

La vida futura en un momento dado es el tiempo que queda hasta la muerte, dada la supervivencia hasta la edad . Por tanto, está en la notación actual. La vida futura esperada es el valor esperado de la vida futura. La probabilidad de morir a la edad o antes , dada la supervivencia hasta la edad , es simplemente

integración por partes

Para , es decir, al nacer, esto se reduce a la vida esperada.

En problemas de confiabilidad, la vida útil esperada se llama tiempo medio hasta la falla y la vida futura esperada se llama vida residual media .

Como la probabilidad de que un individuo sobreviva hasta la edad t o más tarde es S ( t ), por definición, el número esperado de sobrevivientes a la edad t de una población inicial de n recién nacidos es n × S ( t ), suponiendo la misma función de supervivencia. para todos los individuos. Por tanto, la proporción esperada de supervivientes es S ( t ). Si la supervivencia de diferentes individuos es independiente, el número de supervivientes a la edad t tiene una distribución binomial con parámetros n y S ( t ), y la varianza de la proporción de supervivientes es S ( t ) × (1- S ( t ) )/ n .

La edad a la que permanece una proporción específica de supervivientes se puede encontrar resolviendo la ecuación S ( t ) = q para t , donde q es el cuantil en cuestión. Normalmente uno está interesado en la vida media , para la cual q = 1/2, u otros cuantiles como q = 0,90 o q = 0,99.

Censura

La censura es una forma de problema de datos faltantes en el que no se observa el tiempo hasta el evento por razones como la finalización del estudio antes de que todos los sujetos reclutados hayan mostrado el evento de interés o el sujeto haya abandonado el estudio antes de experimentar un evento. La censura es común en el análisis de supervivencia.

Si sólo se conoce el límite inferior l para el tiempo real del evento T tal que T > l , esto se llama censura derecha . La censura correcta se producirá, por ejemplo, para aquellos sujetos cuya fecha de nacimiento se conoce pero que todavía están vivos cuando se les pierde el seguimiento o cuando finaliza el estudio. Generalmente nos encontramos con datos censurados por la derecha.

Si el evento de interés ya ocurrió antes de que el sujeto fuera incluido en el estudio pero no se sabe cuándo ocurrió, se dice que los datos están censurados a la izquierda . [14] Cuando sólo se puede decir que el evento ocurrió entre dos observaciones o exámenes, se trata de censura de intervalo .

La censura izquierda ocurre por ejemplo cuando ya ha surgido un diente permanente antes de iniciar un estudio odontológico que tiene como objetivo estimar su distribución de aparición. En el mismo estudio, el tiempo de emergencia se censura por intervalos cuando el diente permanente está presente en la boca en el examen actual pero aún no en el examen anterior. La censura por intervalos ocurre a menudo en los estudios sobre VIH/SIDA. De hecho, el tiempo transcurrido hasta la seroconversión del VIH sólo puede determinarse mediante una evaluación de laboratorio que normalmente se inicia después de una visita al médico. Entonces sólo se puede concluir que la seroconversión del VIH se ha producido entre dos exámenes. Lo mismo ocurre con el diagnóstico del SIDA, que se basa en los síntomas clínicos y debe confirmarse mediante un examen médico.

También puede suceder que sujetos con una vida inferior a cierto umbral no sean observados en absoluto: esto se llama truncamiento . Tenga en cuenta que el truncamiento es diferente de la censura por la izquierda, ya que para un dato censurado por la izquierda, sabemos que el sujeto existe, pero para un dato truncado, es posible que desconozcamos por completo al sujeto. El truncamiento también es común. En el llamado estudio de entrada retrasada , los sujetos no son observados en absoluto hasta que alcanzan una determinada edad. Por ejemplo, es posible que las personas no sean observadas hasta que hayan alcanzado la edad para ingresar a la escuela. Se desconoce si hay sujetos fallecidos en el grupo de edad preescolar. Los datos truncados a la izquierda son comunes en el trabajo actuarial para seguros de vida y pensiones . [15]

Los datos censurados a la izquierda pueden ocurrir cuando el tiempo de supervivencia de una persona se vuelve incompleto en el lado izquierdo del período de seguimiento de la persona. Por ejemplo, en un ejemplo epidemiológico, podemos monitorear a un paciente para detectar un trastorno infeccioso a partir del momento en que la prueba de la infección da positivo. Aunque podemos conocer el lado derecho de la duración del interés, es posible que nunca sepamos el tiempo exacto de exposición al agente infeccioso. [dieciséis]

Ajuste de parámetros a los datos

Survival models can be usefully viewed as ordinary regression models in which the response variable is time. However, computing the likelihood function (needed for fitting parameters or making other kinds of inferences) is complicated by the censoring. The likelihood function for a survival model, in the presence of censored data, is formulated as follows. By definition the likelihood function is the conditional probability of the data given the parameters of the model. It is customary to assume that the data are independent given the parameters. Then the likelihood function is the product of the likelihood of each datum. It is convenient to partition the data into four categories: uncensored, left censored, right censored, and interval censored. These are denoted "unc.", "l.c.", "r.c.", and "i.c." in the equation below.

Non-parametric estimation

The Kaplan–Meier estimator can be used to estimate the survival function. The Nelson–Aalen estimator can be used to provide a non-parametric estimate of the cumulative hazard rate function. These estimators require lifetime data. Periodic case (cohort) and death (and recovery) counts are statistically sufficient to make nonparametric maximum likelihood and least squares estimates of survival functions, without lifetime data.

Goodness of fit

The goodness of fit of survival models can be assessed using scoring rules.[17]

Computer software for survival analysis

The textbook by Kleinbaum has examples of survival analyses using SAS, R, and other packages.[18] The textbooks by Brostrom,[19] Dalgaard[2]and Tableman and Kim[20]give examples of survival analyses using R (or using S, and which run in R).

Distributions used in survival analysis

Applications

Ver también

Referencias

  1. ^ Miller, Rupert G. (1997), Análisis de supervivencia , John Wiley & Sons, ISBN 0-471-25218-2
  2. ^ ab Dalgaard, Peter (2008), Introducción a la estadística con R (Segunda ed.), Springer, ISBN 978-0387790534
  3. ^ Saegusa, Takumi; Di, Chongzhi; Chen, Ying Qing (septiembre de 2014). "Prueba de hipótesis para un modelo de Cox extendido con coeficientes variables en el tiempo". Biometría . 70 (3): 619–628. doi :10.1111/biom.12185. ISSN  0006-341X.
  4. ^ Segal, Mark Robert (1988). "Árboles de regresión para datos censurados". Biometría . 44 (1): 35–47. doi :10.2307/2531894. JSTOR  2531894. S2CID  60974957.
  5. ^ Leblanc, Michael; Crowley, John (1993). "Árboles de supervivencia por bondad de división". Revista de la Asociación Estadounidense de Estadística . 88 (422): 457–467. doi :10.1080/01621459.1993.10476296. ISSN  0162-1459.
  6. ^ Ritschard, Gilbert; Gabadinho, Alexis; Müller, Nicolás S.; Studer, Matías (2008). "Historias de eventos mineros: una perspectiva de las ciencias sociales". Revista Internacional de Minería, Modelado y Gestión de Datos . 1 (1): 68. doi :10.1504/IJDMMM.2008.022538. ISSN  1759-1163.
  7. ^ ab Ishwaran, Hemant; Kogalur, Udaya B.; Blackstone, Eugene H.; Lauer, Michael S. (1 de septiembre de 2008). "Bosques de supervivencia aleatoria". Los anales de la estadística aplicada . 2 (3). arXiv : 0811.1645 . doi : 10.1214/08-AOAS169 . ISSN  1932-6157. S2CID  2003897.
  8. ^ ab Therneau, Terry J.; Atkinson, Elizabeth J. "rpart: árboles de regresión y particiones recursivas". GRÚA . Consultado el 12 de noviembre de 2021 .
  9. ^ Atkinson, Elizabeth J.; Therneau, Terry J. (1997). Una introducción a la partición recursiva utilizando las rutinas RPART. Fundación Mayo.
  10. ^ Ishwaran, Hemant; Kogalur, Udaya B. "randomForestSRC: bosques aleatorios unificados rápidos para supervivencia, regresión y clasificación (RF-SRC)". GRÚA . Consultado el 12 de noviembre de 2021 .
  11. ^ Singh, Jared; Katzman, L. (2018). "DeepSurv: sistema personalizado de recomendación de tratamientos que utiliza una red neuronal profunda de riesgos proporcionales de Cox". Metodología de la investigación médica del BMC .
  12. ^ Nagpal, Chirag (2021). "Máquinas de supervivencia profunda: regresión de supervivencia totalmente paramétrica y aprendizaje de representación para datos censurados con riesgos competitivos". Revista IEEE de Informática Biomédica y de Salud . 25 (8): 3163–3175. arXiv : 2003.01176 . doi :10.1109/JBHI.2021.3052441. PMID  33460387. S2CID  211817982.
  13. ^ Nagpal, Chirag (2021). "Mezclas de Deep Cox para la regresión de la supervivencia". Conferencia sobre aprendizaje automático para la atención sanitaria . arXiv : 2101.06536 .
  14. ^ Darity, William A. Jr., ed. (2008). "Censura, izquierda y derecha". Enciclopedia Internacional de las Ciencias Sociales . vol. 1 (2ª ed.). Macmillan. págs. 473–474 . Consultado el 6 de noviembre de 2016 .
  15. ^ Richards, SJ (2012). "Un manual de modelos paramétricos de supervivencia para uso actuarial". Revista actuarial escandinava . 2012 (4): 233–257. doi :10.1080/03461238.2010.506688. S2CID  119577304.
  16. ^ Singh, R.; Mukhopadhyay, K. (2011). "Análisis de supervivencia en ensayos clínicos: conceptos básicos y áreas imprescindibles". Perspectiva Clin Res . 2 (4): 145-148. doi : 10.4103/2229-3485.86872 . PMC 3227332 . PMID  22145125. 
  17. ^ Reglas de puntuación adecuadas para el análisis de supervivencia, Hiroki Yanagisawa, https://arxiv.org/abs/2305.00621v3
  18. ^ Kleinbaum, David G.; Klein, Mitchel (2012), Análisis de supervivencia: un texto de autoaprendizaje (tercera ed.), Springer, ISBN 978-1441966452
  19. ^ Brostrom, Göran (2012), Análisis del historial de eventos con R (Primera ed.), Chapman & Hall/CRC, ISBN 978-1439831649
  20. ^ Hombre de mesa, Mara; Kim, Jong Sung (2003), Análisis de supervivencia utilizando S (Primera ed.), Chapman y Hall/CRC, ISBN 978-1584884088
  21. ^ Stepanova, María; Thomas, Lyn (1 de abril de 2002). "Métodos de análisis de supervivencia de datos de préstamos personales". La investigación de operaciones . 50 (2): 277–289. doi :10.1287/opre.50.2.277.426. ISSN  0030-364X.
  22. ^ Glennon, Dennis; Nigro, Peter (2005). "Medición del riesgo de incumplimiento de los préstamos para pequeñas empresas: un enfoque de análisis de supervivencia". Revista de Dinero, Crédito y Banca . 37 (5): 923–947. doi :10.1353/mcb.2005.0051. ISSN  0022-2879. JSTOR  3839153. S2CID  154615623.
  23. ^ Kennedy, Edward H.; Hu, Chen; O'Brien, Bárbara; Bruto, Samuel R. (20 de mayo de 2014). "Tasa de falsas condenas de acusados ​​penales condenados a muerte". Procedimientos de la Academia Nacional de Ciencias . 111 (20): 7230–7235. Código Bib : 2014PNAS..111.7230G. doi : 10.1073/pnas.1306417111 . ISSN  0027-8424. PMC 4034186 . PMID  24778209. 
  24. ^ de Cos Juez, FJ; García Nieto, PJ; Martínez Torres, J.; Taboada Castro, J. (2010-10-01). "Análisis de tiempos de entrega de componentes metálicos en la industria aeroespacial mediante un modelo de máquina vectorial soportado". Modelado Matemático e Informático . Modelos matemáticos en medicina, negocios e ingeniería 2009. 52 (7): 1177–1184. doi : 10.1016/j.mcm.2010.03.017 . ISSN  0895-7177.
  25. ^ Spivak, Andrew L.; Damphousse, Kelly R. (2006). "¿Quién regresa a prisión? Un análisis de supervivencia de la reincidencia entre delincuentes adultos liberados en Oklahoma, 1985-2004". Investigación y políticas de justicia . 8 (2): 57–88. doi :10.3818/jrp.8.2.2006.57. ISSN  1525-1071. S2CID  144566819.
  26. ^ Pollock, Kenneth H.; Winterstein, Scott R.; Bunck, Christine M.; Curtis, Paul D. (1989). "Análisis de supervivencia en estudios de telemetría: el diseño de entrada escalonada". La Revista de Manejo de Vida Silvestre . 53 (1): 7–15. doi :10.2307/3801296. ISSN  0022-541X. JSTOR  3801296.
  27. ^ Saleh, Joseph Homer (23 de diciembre de 2019). "Análisis de fiabilidad estadística para una ocupación muy peligrosa: el emperador romano". Comunicaciones Palgrave . 5 (1): 1–7. doi : 10.1057/s41599-019-0366-y . ISSN  2055-1045.
  28. ^ Kreer, Markus; Kizilersu, Ayse; Thomas, Anthony W. (2022). "Algoritmo de maximización de expectativas censuradas para mezclas: aplicación a tiempos de espera intercomerciales". Physica A: Mecánica estadística y sus aplicaciones . 587 (1): 126456. Código bibliográfico : 2022PhyA..58726456K. doi :10.1016/j.physa.2021.126456. ISSN  0378-4371. S2CID  244198364.

Otras lecturas

enlaces externos