stringtranslate.com

Estimador Kaplan-Meier

Un ejemplo de diagrama de Kaplan-Meier para dos condiciones asociadas con la supervivencia del paciente.

El estimador de Kaplan-Meier , [1] [2] también conocido como estimador del límite del producto , es una estadística no paramétrica utilizada para estimar la función de supervivencia a partir de datos de vida. En la investigación médica, a menudo se utiliza para medir la fracción de pacientes que viven durante un cierto período de tiempo después del tratamiento. En otros campos, los estimadores de Kaplan-Meier se pueden utilizar para medir el tiempo que las personas permanecen desempleadas después de perder el empleo, [3] el tiempo hasta que fallan las piezas de una máquina o cuánto tiempo permanecen los frutos carnosos en las plantas antes de ser eliminados. por frugívoros . El estimador lleva el nombre de Edward L. Kaplan y Paul Meier , quienes enviaron manuscritos similares al Journal of the American Statistical Association . [4] El editor de la revista, John Tukey , los convenció de combinar su trabajo en un solo artículo, que ha sido citado más de 65.000 veces desde su publicación en 1958. [5] [6]

El estimador de la función de supervivencia (la probabilidad de que la vida sea más larga que ) viene dado por:

con un momento en el que ocurrió al menos un evento, d i el número de eventos (por ejemplo, muertes) que ocurrieron en ese momento y los individuos que se sabe que han sobrevivido (aún no han tenido un evento ni han sido censurados) hasta el momento .

Conceptos básicos

Una gráfica del estimador de Kaplan-Meier es una serie de pasos horizontales decrecientes que, con un tamaño de muestra lo suficientemente grande, se aproxima a la verdadera función de supervivencia para esa población. Se supone que el valor de la función de supervivencia entre observaciones sucesivas de muestreo distintas ("clics") es constante.

Una ventaja importante de la curva de Kaplan-Meier es que el método puede tener en cuenta algunos tipos de datos censurados , en particular la censura por la derecha , que ocurre si un paciente se retira de un estudio, se pierde durante el seguimiento o está vivo sin ningún evento. ocurrencia en el último seguimiento. En el gráfico, pequeñas marcas verticales indican pacientes individuales cuyos tiempos de supervivencia han sido censurados a la derecha. Cuando no se produce truncamiento ni censura, la curva de Kaplan-Meier es el complemento de la función de distribución empírica .

En estadística médica , una aplicación típica podría implicar agrupar a los pacientes en categorías, por ejemplo, aquellos con perfil del gen A y aquellos con perfil del gen B. En el gráfico, los pacientes con el gen B mueren mucho más rápido que aquellos con el gen A. Después de dos años, alrededor del 80% de los pacientes con el gen A sobreviven, pero menos de la mitad de los pacientes con el gen B.

Para generar un estimador de Kaplan-Meier, se requieren al menos dos datos para cada paciente (o cada sujeto): el estado en la última observación (ocurrencia del evento o censurado por la derecha) y el tiempo hasta el evento (o tiempo hasta la censura). . Si se van a comparar las funciones de supervivencia entre dos o más grupos, entonces se requiere un tercer dato: la asignación grupal de cada sujeto. [7]

Definición del problema

Sea una variable aleatoria, que consideramos como el tiempo que transcurre entre el inicio del posible período de exposición, y el momento en que tiene lugar un evento de interés ,. Como se indicó anteriormente, el objetivo es estimar la función de supervivencia subyacente . Recuerde que esta función se define como

, ¿dónde está el tiempo?

Sean variables aleatorias independientes, distribuidas idénticamente, cuya distribución común es la de : es el momento aleatorio en que ocurrió algún evento. Los datos disponibles para estimar no son , sino la lista de pares donde para , es un número entero fijo y determinista, el momento de censura del evento y . En particular, la información disponible sobre el momento del evento es si el evento ocurrió antes de la hora fijada y, de ser así, entonces también está disponible la hora real del evento. El desafío es estimar a partir de estos datos.

Derivación del estimador de Kaplan-Meier

Aquí mostramos dos derivaciones del estimador de Kaplan-Meier. Ambos se basan en reescribir la función de supervivencia en términos de lo que a veces se llama riesgo o tasas de mortalidad . Sin embargo, antes de hacer esto vale la pena considerar un estimador ingenuo.

Un estimador ingenuo

Para comprender el poder del estimador de Kaplan-Meier, vale la pena describir primero un estimador ingenuo de la función de supervivencia.

Arregla y deja . Un argumento básico muestra que se cumple la siguiente proposición:

Proposición 1: Si el tiempo de censura del evento excede ( ), entonces si y solo si .

Sea tal que . De la proposición anterior se desprende que

Consideremos sólo aquellos , es decir, los acontecimientos cuyo resultado no fue censurado antes de tiempo . Sea el número de elementos en . Tenga en cuenta que el conjunto no es aleatorio y, por lo tanto, tampoco lo es . Además, es una secuencia de variables aleatorias de Bernoulli independientes, distribuidas idénticamente y con un parámetro común . Suponiendo que esto sugiere estimar utilizando

donde la segunda igualdad sigue porque implica , mientras que la última igualdad es simplemente un cambio de notación.

La calidad de esta estimación se rige por el tamaño de . Esto puede resultar problemático cuando es pequeño, lo que ocurre, por definición, cuando muchos de los eventos están censurados. Una propiedad particularmente desagradable de este estimador, que sugiere que quizás no sea el "mejor" estimador, es que ignora todas las observaciones cuyo tiempo de censura precede . Intuitivamente, estas observaciones todavía contienen información sobre : ​​Por ejemplo, cuando para muchos eventos con , también se cumple, podemos inferir que los eventos a menudo ocurren temprano, lo que implica que es grande, lo cual, significa que debe ser pequeño. Sin embargo, este ingenuo estimador ignora esta información. La pregunta entonces es si existe un estimador que haga un mejor uso de todos los datos. Esto es lo que logra el estimador de Kaplan-Meier. Tenga en cuenta que el estimador ingenuo no se puede mejorar cuando no se realiza la censura; por lo tanto, si es posible una mejora depende fundamentalmente de si existe o no censura.

El enfoque del complemento

Mediante cálculos elementales,

donde se utiliza la penúltima igualdad que tiene un valor entero y para la última línea introdujimos

Mediante una expansión recursiva de la igualdad , obtenemos

Tenga en cuenta que aquí .

El estimador de Kaplan-Meier puede verse como un "estimador complementario" donde cada uno se estima en función de los datos y el estimador se obtiene como producto de estas estimaciones.

Queda por especificar cómo se estimará. Por la Proposición 1, para cualquiera tal que , y ambos se cumplan. Por lo tanto, para cualquier cosa que ,

Por un razonamiento similar que llevó a la construcción del estimador ingenuo anterior, llegamos al estimador

(piense en estimar el numerador y el denominador por separado en la definición de "tasa de riesgo" ). El estimador de Kaplan-Meier viene dado entonces por

La forma del estimador indicada al principio del artículo se puede obtener mediante algo de álgebra adicional. Para esto, escriba donde, usando la terminología de la ciencia actuarial, es el número de muertes conocidas en ese momento , mientras que es el número de aquellas personas que están vivas (y no están siendo censuradas) en ese momento .

Tenga en cuenta que si , . Esto implica que podemos omitir del producto definir todos aquellos términos donde . Luego, dejando los tiempos en que , y , llegamos a la forma del estimador de Kaplan-Meier dada al inicio del artículo:

A diferencia del estimador ingenuo, se puede ver que este estimador utiliza la información disponible de manera más efectiva: en el caso especial mencionado anteriormente, cuando se registran muchos eventos tempranos, el estimador multiplicará muchos términos con un valor inferior a uno y, por lo tanto, tomará tener en cuenta que la probabilidad de supervivencia no puede ser grande.

Derivación como estimador de máxima verosimilitud

El estimador de Kaplan-Meier se puede derivar de la estimación de máxima verosimilitud de la función de riesgo discreta . [8] [¿ fuente autoeditada? ] Más específicamente, dada como el número de eventos y el total de individuos en riesgo en un momento dado  , la tasa de riesgo discreta puede definirse como la probabilidad de que un individuo tenga un evento en un momento dado  . Entonces la tasa de supervivencia se puede definir como:

y la función de probabilidad para la función de riesgo hasta el momento es:

por lo tanto la probabilidad logarítmica será:

encontrar el máximo de probabilidad logarítmica con respecto a los rendimientos:

donde hat se utiliza para denotar la estimación de máxima verosimilitud. Dado este resultado, podemos escribir:

De manera más general (tanto para distribuciones de supervivencia continuas como discretas), el estimador de Kaplan-Meier puede interpretarse como un estimador de máxima verosimilitud no paramétrico. [9]

Beneficios y limitaciones

El estimador de Kaplan-Meier es uno de los métodos de análisis de supervivencia más utilizados. La estimación puede resultar útil para examinar las tasas de recuperación, la probabilidad de muerte y la eficacia del tratamiento. Tiene una capacidad limitada para estimar la supervivencia ajustada por covariables ; Los modelos paramétricos de supervivencia y el modelo de riesgos proporcionales de Cox pueden ser útiles para estimar la supervivencia ajustada por covariables.

El estimador de Kaplan-Meier está directamente relacionado con el estimador de Nelson-Aalen y ambos maximizan la probabilidad empírica . [10]

Consideraciones estadísticas

El estimador de Kaplan-Meier es un estadístico y se utilizan varios estimadores para aproximar su varianza . Uno de los estimadores más comunes es la fórmula de Greenwood: [11]

donde es el número de casos y es el número total de observaciones, para .

Para ver un 'bosquejo' de la derivación matemática de la ecuación anterior, haga clic en "mostrar" para revelar

Se deriva la fórmula de Greenwood [12] [¿ fuente autoeditada? ] al observar que la probabilidad de obtener fallas en los casos sigue una distribución binomial con la probabilidad de falla . Como resultado, para la tasa de riesgo de máxima probabilidad tenemos y . Para evitar tener que lidiar con probabilidades multiplicativas, calculamos la varianza del logaritmo de y usaremos el método delta para convertirla nuevamente a la varianza original:

Utilizando el teorema del límite central de la martingala , se puede demostrar que la varianza de la suma en la siguiente ecuación es igual a la suma de las varianzas: [12]

como resultado podemos escribir:

usando el método delta una vez más:

como se desee.


En algunos casos, es posible que desee comparar diferentes curvas de Kaplan-Meier. Esto se puede hacer mediante la prueba de rango logarítmico y la prueba de riesgos proporcionales de Cox .

Otras estadísticas que pueden ser útiles con este estimador son los intervalos de confianza puntuales, [13] la banda de Hall-Wellner [14] y la banda de igual precisión. [15]

Software

Ver también

Referencias

  1. ^ Kaplan, EL; Meier, P. (1958). "Estimación no paramétrica a partir de observaciones incompletas". J.Amer. Estadístico. Asociación. 53 (282): 457–481. doi :10.2307/2281868. JSTOR  2281868.
  2. ^ Kaplan, EL en una retrospectiva del artículo fundamental en "El clásico de citas de esta semana". Contenidos actuales 24 , 14 (1983). Disponible en UPenn como PDF.
  3. ^ Meyer, Bruce D. (1990). «Seguro de desempleo y períodos de desempleo» (PDF) . Econométrica . 58 (4): 757–782. doi :10.2307/2938349. JSTOR  2938349. S2CID  154632727.
  4. ^ Acosadores, Lukas JA; Kaplan, Edward L (4 de mayo de 2018). "Edward L. Kaplan y la curva de supervivencia de Kaplan-Meier". Boletín BSHM: Revista de la Sociedad Británica de Historia de las Matemáticas . 33 (2): 109-135. doi : 10.1080/17498430.2018.1450055 . S2CID  125941631.
  5. ^ Kaplan, EL; Meier, Paul (1958). "Estimación no paramétrica a partir de observaciones incompletas". Revista de la Asociación Estadounidense de Estadística . 53 (282): 457–481. doi : 10.1080/01621459.1958.10501452 . Consultado el 27 de febrero de 2023 .
  6. ^ "Paul Meier, 1924-2011". Tribuna de Chicago . 18 de agosto de 2011.
  7. ^ Rico, Jason T.; Neely, J. Gail; Paniello, Randal C.; Voelker, Courtney CJ; Nussenbaum, Brian; Wang, Eric W. (septiembre de 2010). "Una guía práctica para comprender las curvas de Kaplan-Meier". Otorrinolaringología – Cirugía de cabeza y cuello . 143 (3): 331–336. doi :10.1016/j.otohns.2010.05.007. PMC 3932959 . PMID  20723767. 
  8. ^ "STAT331 Unidad 3" (PDF) . Consultado el 12 de mayo de 2023 .
  9. ^ Andersen, por Kragh; Borgan, Ornulf; Gill, Richard D.; Keiding, Niels (1993). Modelos estadísticos basados ​​en procesos de conteo . Nueva York: Springer-Verlag. ISBN 0-387-97872-0.
  10. ^ Zhou, M. (2015). Método de probabilidad empírica en el análisis de supervivencia (1ª ed.). Chapman y Hall/CRC. https://doi.org/10.1201/b18598, https://books.google.com/books?id=9-b5CQAAQBAJ&dq=Does+the+Nelson%E2%80%93Aalen+estimator+construct+an+empirical+ probabilidad%3F&pg=PA7
  11. ^ Greenwood, mayor (1926). Un informe sobre la duración natural del cáncer . Número 33 de Informes sobre salud pública y temas médicos. HMSO . OCLC  14713088.
  12. ^ ab "Los intervalos de confianza de Greenwood y exponencial de Greenwood en el análisis de supervivencia" (PDF) . Consultado el 12 de mayo de 2023 .
  13. ^ Fay, Michael P.; Bretaña, Erica H .; Proschan, Michael A. (1 de septiembre de 2013). "Intervalos de confianza puntuales para una distribución de supervivencia con muestras pequeñas o fuerte censura". Bioestadística . 14 (4): 723–736. doi : 10.1093/bioestadística/kxt016. PMC 3769999 . PMID  23632624. 
  14. ^ Salón, WJ; Wellner, Jon A. (1980). "Bandas de confianza para una curva de supervivencia a partir de datos censurados". Biometrika . 67 (1): 133-143. doi :10.1093/biomet/67.1.133.
  15. ^ Nair, Vijayan N. (agosto de 1984). "Bandas de confianza para funciones de supervivencia con datos censurados: un estudio comparativo". Tecnometría . 26 (3): 265–275. doi :10.1080/00401706.1984.10487964.
  16. ^ "Análisis de supervivencia - Mathematica SurvivalModelFit". wolfram.com . Consultado el 14 de agosto de 2017 .
  17. ^ "Guía del usuario de SAS/STAT(R) 14.1". soporte.sas.com . Consultado el 12 de mayo de 2023 .
  18. ^ Therneau, Terry M. (9 de agosto de 2022). "supervivencia: análisis de supervivencia". La red integral de archivos de R. Consultado el 30 de noviembre de 2022 .
  19. ^ Willekens, Frans (2014). "Paquetes estadísticos para el análisis del historial de vida en varios estados". Análisis multiestado de historias de vida con R. Utilice R!. Saltador. págs. 135-153. doi :10.1007/978-3-319-08383-4_6. ISBN 978-3-319-08383-4.
  20. ^ Chen, Ding-Geng; Paz, Karl E. (2014). Análisis de datos de ensayos clínicos utilizando R. CRC Press. págs. 99-108. ISBN 9781439840214.
  21. ^ "sts: genere, represente gráficamente, enumere y pruebe las funciones de riesgo acumulativo y de supervivencia" (PDF) . Manual de estadísticas .
  22. ^ Cleves, Mario (2008). Introducción al análisis de supervivencia utilizando Stata (Segunda ed.). Estación universitaria: Stata Press. págs. 93-107. ISBN 978-1-59718-041-2.
  23. ^ "lifelines - documentación de lifelines 0.27.7". líneas de vida.readthedocs.io . Consultado el 12 de mayo de 2023 .
  24. ^ "sksurv.nonparametric.kaplan_meier_estimator - scikit-survival 0.20.0". scikit-survival.readthedocs.io . Consultado el 12 de mayo de 2023 .
  25. ^ "Función de distribución acumulativa empírica - MATLAB ecdf". mathworks.com . Consultado el 16 de junio de 2016 .
  26. ^ "Estimaciones de supervivencia de Kaplan-Meier". statsdirect.co.uk . Consultado el 12 de mayo de 2023 .
  27. ^ "Método de Kaplan-Meier en SPSS Statistics | Laerd Statistics".
  28. ^ "Kaplan-Meier · Supervivencia.jl".
  29. ^ "Guía del usuario de Epi Info™ - Referencia de comandos - Comandos de análisis: KMSURVIVAL" . Consultado el 30 de octubre de 2023 .

Otras lecturas

enlaces externos