Estadística no paramétrica utilizada para estimar la función de supervivencia
El estimador de Kaplan-Meier , [1] [2] también conocido como estimador de límite de producto , es una estadística no paramétrica que se utiliza para estimar la función de supervivencia a partir de datos de vida útil. En la investigación médica, a menudo se utiliza para medir la fracción de pacientes que viven durante una cierta cantidad de tiempo después del tratamiento. En otros campos, los estimadores de Kaplan-Meier se pueden utilizar para medir el tiempo que las personas permanecen desempleadas después de una pérdida de trabajo, [3] el tiempo hasta el fallo de las piezas de la máquina o cuánto tiempo permanecen las frutas carnosas en las plantas antes de que sean eliminadas por los frugívoros . El estimador recibe su nombre de Edward L. Kaplan y Paul Meier , quienes enviaron manuscritos similares al Journal of the American Statistical Association . [4] El editor de la revista, John Tukey , los convenció de combinar su trabajo en un solo artículo, que ha sido citado más de 34.000 veces desde su publicación en 1958. [5] [6]
con un tiempo en el que ocurrió al menos un evento, d i el número de eventos (por ejemplo, muertes) que ocurrieron en el tiempo , y los individuos que se sabe que sobrevivieron (aún no han tenido un evento o han sido censurados) hasta el tiempo .
Conceptos básicos
Un gráfico del estimador de Kaplan-Meier es una serie de pasos horizontales decrecientes que, con un tamaño de muestra suficientemente grande, se aproxima a la función de supervivencia real para esa población. Se supone que el valor de la función de supervivencia entre observaciones muestreadas sucesivas distintas ("clics") es constante.
Una ventaja importante de la curva de Kaplan-Meier es que el método puede tener en cuenta algunos tipos de datos censurados , en particular la censura a la derecha , que se produce si un paciente se retira de un estudio, se pierde el seguimiento o está vivo sin que se produzca ningún evento en el último seguimiento. En el gráfico, pequeñas marcas verticales indican los pacientes individuales cuyos tiempos de supervivencia se han censurado a la derecha. Cuando no se produce ningún truncamiento ni censura, la curva de Kaplan-Meier es el complemento de la función de distribución empírica .
En las estadísticas médicas , una aplicación típica podría implicar agrupar a los pacientes en categorías, por ejemplo, aquellos con perfil genético A y aquellos con perfil genético B. En el gráfico, los pacientes con gen B mueren mucho más rápido que aquellos con gen A. Después de dos años, aproximadamente el 80% de los pacientes con gen A sobreviven, pero menos de la mitad de los pacientes con gen B.
Para generar un estimador de Kaplan-Meier, se requieren al menos dos datos para cada paciente (o cada sujeto): el estado en la última observación (ocurrencia del evento o censurado a la derecha) y el tiempo hasta el evento (o tiempo hasta la censura). Si se van a comparar las funciones de supervivencia entre dos o más grupos, se requiere un tercer dato: la asignación de grupo de cada sujeto. [7]
Definición del problema
Sea una variable aleatoria el tiempo que transcurre entre el inicio del posible período de exposición, , y el momento en que se produce el evento de interés, . Como se indicó anteriormente, el objetivo es estimar la función de supervivencia subyacente a . Recordemos que esta función se define como
,donde es el tiempo.
Sean variables aleatorias independientes, idénticamente distribuidas, cuya distribución común es la de : es el tiempo aleatorio en el que ocurrió algún evento. Los datos disponibles para la estimación no son , sino la lista de pares donde para , es un entero fijo y determinista, el tiempo de censura del evento y . En particular, la información disponible sobre el momento del evento es si el evento ocurrió antes del tiempo fijo y, de ser así, entonces también está disponible el tiempo real del evento. El desafío es estimar dados estos datos.
Derivación del estimador de Kaplan-Meier
Se muestran dos derivaciones del estimador de Kaplan-Meier. Ambas se basan en la reescritura de la función de supervivencia en términos de lo que a veces se denomina riesgo o tasas de mortalidad . Sin embargo, antes de hacer esto, vale la pena considerar un estimador ingenuo.
Un estimador ingenuo
Para comprender el poder del estimador de Kaplan-Meier, vale la pena describir primero un estimador ingenuo de la función de supervivencia.
Fijemos y dejemos que . Un argumento básico muestra que la siguiente proposición es válida:
Proposición 1: Si el tiempo de censura del evento excede ( ), entonces si y sólo si .
Sea tal que . De la proposición anterior se sigue que
Sea y considere solo aquellos , es decir, los eventos para los cuales el resultado no fue censurado antes del tiempo . Sea el número de elementos en . Nótese que el conjunto no es aleatorio y, por lo tanto, tampoco lo es . Además, es una secuencia de variables aleatorias de Bernoulli independientes, idénticamente distribuidas con parámetro común . Suponiendo que , esto sugiere estimar usando
donde la segunda igualdad se sigue porque implica , mientras que la última igualdad es simplemente un cambio de notación.
La calidad de esta estimación está determinada por el tamaño de . Esto puede ser problemático cuando es pequeño, lo que sucede, por definición, cuando muchos de los eventos están censurados. Una propiedad particularmente desagradable de este estimador, que sugiere que quizás no es el "mejor" estimador, es que ignora todas las observaciones cuyo tiempo de censura precede a . Intuitivamente, estas observaciones aún contienen información sobre : Por ejemplo, cuando para muchos eventos con , también se cumple, podemos inferir que los eventos a menudo ocurren temprano, lo que implica que es grande, lo que, a través de significa que debe ser pequeño. Sin embargo, esta información es ignorada por este estimador ingenuo. La pregunta es entonces si existe un estimador que haga un mejor uso de todos los datos. Esto es lo que logra el estimador de Kaplan-Meier. Nótese que el estimador ingenuo no se puede mejorar cuando no se realiza la censura; por lo tanto, si una mejora es posible depende críticamente de si se aplica la censura.
El enfoque del plug-in
Por cálculos elementales,
donde se utiliza la segunda última igualdad que tiene un valor entero y para la última línea introdujimos
Mediante una expansión recursiva de la igualdad , obtenemos
Tenga en cuenta que aquí .
El estimador de Kaplan-Meier puede verse como un "estimador complementario" donde cada uno se estima en función de los datos y el estimador se obtiene como producto de estas estimaciones.
Queda por especificar cómo se debe estimar. Por la Proposición 1, para cualquier tal que , y ambas son válidas. Por lo tanto, para cualquier tal que ,
Mediante un razonamiento similar al que condujo a la construcción del estimador ingenuo anterior, llegamos al estimador
(Piense en estimar el numerador y el denominador por separado en la definición de la "tasa de riesgo" ). El estimador de Kaplan-Meier viene dado por
La forma del estimador indicado al principio del artículo se puede obtener con un poco más de álgebra. Para ello, escriba donde, utilizando la terminología de la ciencia actuarial, es el número de muertes conocidas en el momento , mientras que es el número de personas que están vivas (y no están siendo censuradas) en el momento .
Nótese que si , . Esto implica que podemos dejar fuera del producto que define todos aquellos términos donde . Entonces, dejando que sean los tiempos en que , y , llegamos a la forma del estimador de Kaplan-Meier dado al comienzo del artículo:
A diferencia del estimador ingenuo, se puede observar que este estimador utiliza la información disponible de manera más efectiva: en el caso especial mencionado anteriormente, cuando hay muchos eventos tempranos registrados, el estimador multiplicará muchos términos con un valor inferior a uno y, por lo tanto, tendrá en cuenta que la probabilidad de supervivencia no puede ser grande.
La derivación como estimador de máxima verosimilitud
El estimador de Kaplan-Meier se puede derivar de la estimación de máxima verosimilitud de la función de riesgo discreta . [8] [ ¿ Fuente autopublicada? ] Más específicamente, dada como el número de eventos y el total de individuos en riesgo en el momento , la tasa de riesgo discreta se puede definir como la probabilidad de que un individuo tenga un evento en el momento . Entonces, la tasa de supervivencia se puede definir como:
y la función de probabilidad para la función de riesgo hasta el momento es:
Por lo tanto, la probabilidad logarítmica será:
Encontrar el máximo de verosimilitud logarítmica con respecto a los rendimientos:
donde hat se utiliza para indicar la estimación de máxima verosimilitud. Dado este resultado, podemos escribir:
De manera más general (tanto para distribuciones de supervivencia continuas como discretas), el estimador de Kaplan-Meier puede interpretarse como un estimador de máxima verosimilitud no paramétrico. [9]
Beneficios y limitaciones
El estimador de Kaplan-Meier es uno de los métodos de análisis de supervivencia más utilizados. La estimación puede ser útil para examinar las tasas de recuperación, la probabilidad de muerte y la eficacia del tratamiento. Su capacidad para estimar la supervivencia ajustada a las covariables es limitada ; los modelos de supervivencia paramétricos y el modelo de riesgos proporcionales de Cox pueden ser útiles para estimar la supervivencia ajustada a las covariables.
El estimador de Kaplan-Meier es un estadístico y se utilizan varios estimadores para aproximar su varianza . Uno de los estimadores más comunes es la fórmula de Greenwood: [11]
donde es el número de casos y es el número total de observaciones, para .
Para ver un 'bosquejo' de la derivación matemática de la ecuación anterior, haga clic en "mostrar" para revelar
La fórmula de Greenwood se deriva [12] [¿ fuente autopublicada? ] al observar que la probabilidad de obtener fallas de los casos sigue una distribución binomial con probabilidad de falla . Como resultado, para la tasa de riesgo de máxima verosimilitud tenemos y . Para evitar tratar con probabilidades multiplicativas, calculamos la varianza del logaritmo de y usaremos el método delta para convertirlo nuevamente a la varianza original:
Otras estadísticas que pueden ser de utilidad con este estimador son los intervalos de confianza puntuales, [13] la banda de Hall-Wellner [14] y la banda de igual precisión. [15]
Software
Mathematica : la función incorporada SurvivalModelFitcrea modelos de supervivencia. [16]
SAS : El estimador Kaplan-Meier se implementa en el proc lifetestprocedimiento. [17]
R : el estimador Kaplan-Meier está disponible como parte del survivalpaquete. [18] [19] [20]
Stata : el comando stsdevuelve el estimador de Kaplan-Meier. [21] [22]
Python : los paquetes lifelinesy scikit-survivalincluyen el estimador de Kaplan-Meier. [23] [24]
MATLAB : la ecdffunción con los 'function','survivor'argumentos puede calcular o graficar el estimador de Kaplan-Meier. [25]
StatsDirect : El estimador Kaplan-Meier está implementado en el Survival Analysismenú. [26]
SPSS : El estimador Kaplan-Meier está implementado en el Analyze > Survival > Kaplan-Meier...menú. [27]
Julia : el Survival.jlpaquete incluye el estimador Kaplan-Meier. [28]
Epi Info : Las curvas de supervivencia del estimador Kaplan-Meier y los resultados de la prueba de log rank se obtienen con el KMSURVIVALcomando. [29]
^ Kaplan, EL; Meier, P. (1958). "Estimación no paramétrica a partir de observaciones incompletas". J. Amer. Statist. Assoc. 53 (282): 457–481. doi :10.2307/2281868. JSTOR 2281868.
^ Kaplan, EL en una retrospectiva sobre el artículo seminal en "El clásico de las citas de esta semana". Current Contents 24 , 14 (1983). Disponible en formato PDF en la Universidad de Pensilvania.
^ Meyer, Bruce D. (1990). "Seguro de desempleo y períodos de desempleo" (PDF) . Econometrica . 58 (4): 757–782. doi :10.2307/2938349. JSTOR 2938349. S2CID 154632727.
^ Stalpers, Lukas JA; Kaplan, Edward L (4 de mayo de 2018). "Edward L. Kaplan y la curva de supervivencia de Kaplan-Meier". Boletín BSHM: Revista de la Sociedad Británica de Historia de las Matemáticas . 33 (2): 109–135. doi : 10.1080/17498430.2018.1450055 . S2CID 125941631.
^ Kaplan, EL; Meier, Paul (1958). "Estimación no paramétrica a partir de observaciones incompletas". Journal of the American Statistical Association . 53 (282): 457–481. doi :10.1080/01621459.1958.10501452 . Consultado el 27 de febrero de 2023 .
^ "Paul Meier, 1924–2011". Chicago Tribune . 18 de agosto de 2011. Archivado desde el original el 13 de septiembre de 2017.
^ Rich, Jason T.; Neely, J. Gail; Paniello, Randal C.; Voelker, Courtney CJ; Nussenbaum, Brian; Wang, Eric W. (septiembre de 2010). "Una guía práctica para comprender las curvas de Kaplan-Meier". Otorrinolaringología–Cirugía de cabeza y cuello . 143 (3): 331–336. doi :10.1016/j.otohns.2010.05.007. PMC 3932959 . PMID 20723767.
^ "STAT331 Unidad 3" (PDF) . Consultado el 12 de mayo de 2023 .
^ Andersen, por Kragh; Borgan, Ornulf; Gill, Richard D.; Keiding, Niels (1993). Modelos estadísticos basados en procesos de conteo . Nueva York: Springer-Verlag. ISBN0-387-97872-0.
^ Zhou, M. (2015). Método de verosimilitud empírica en el análisis de supervivencia (1.ª ed.). Chapman y Hall/CRC. https://doi.org/10.1201/b18598, https://books.google.com/books?id=9-b5CQAAQBAJ&dq=¿Construye el estimador de Nelson una verosimilitud empírica?&pg=PA7
^ Greenwood, Major (1926). Un informe sobre la duración natural del cáncer . Número 33 de Informes sobre salud pública y temas médicos. HMSO . OCLC 14713088.
^ ab "Los intervalos de confianza de Greenwood y Greenwood exponencial en el análisis de supervivencia" (PDF) . Consultado el 12 de mayo de 2023 .
^ Fay, Michael P.; Brittain, Erica H .; Proschan, Michael A. (1 de septiembre de 2013). "Intervalos de confianza puntuales para una distribución de supervivencia con muestras pequeñas o censura intensa". Bioestadística . 14 (4): 723–736. doi :10.1093/biostatistics/kxt016. PMC 3769999 . PMID 23632624.
^ Hall, WJ; Wellner, Jon A. (1980). "Bandas de confianza para una curva de supervivencia a partir de datos censurados". Biometrika . 67 (1): 133–143. doi :10.1093/biomet/67.1.133.
^ Nair, Vijayan N. (agosto de 1984). "Bandas de confianza para funciones de supervivencia con datos censurados: un estudio comparativo". Technometrics . 26 (3): 265–275. doi :10.1080/00401706.1984.10487964.
^ "Análisis de supervivencia: Mathematica SurvivalModelFit". wolfram.com . Consultado el 14 de agosto de 2017 .
^ "Guía del usuario de SAS/STAT(R) 14.1". support.sas.com . Consultado el 12 de mayo de 2023 .
^ Therneau, Terry M. (9 de agosto de 2022). «Supervivencia: análisis de supervivencia». The Comprehensive R Archive Network . Consultado el 30 de noviembre de 2022 .
^ Willekens, Frans (2014). "Paquetes estadísticos para el análisis de historias de vida en múltiples estados". Análisis de historias de vida en múltiples estados con R. Use R!. Springer. págs. 135–153. doi :10.1007/978-3-319-08383-4_6. ISBN978-3-319-08383-4.
^ Chen, Ding-Geng; Peace, Karl E. (2014). Análisis de datos de ensayos clínicos con R. CRC Press. págs. 99-108. ISBN9781439840214.
^ "sts — Generar, graficar, enumerar y probar las funciones de supervivencia y riesgo acumulativo" (PDF) . Manual de Stata .
^ Cleves, Mario (2008). Introducción al análisis de supervivencia con Stata (segunda edición). College Station: Stata Press. pp. 93–107. ISBN978-1-59718-041-2.
^ "lifelines — documentación de lifelines 0.27.7". lifelines.readthedocs.io . Consultado el 12 de mayo de 2023 .
^ "sksurv.nonparametric.kaplan_meier_estimator — scikit-survival 0.20.0". scikit-survival.readthedocs.io . Consultado el 12 de mayo de 2023 .
^ "Función de distribución acumulativa empírica – MATLAB ecdf". mathworks.com . Consultado el 16 de junio de 2016 .
^ "Estimaciones de supervivencia de Kaplan-Meier". statsdirect.co.uk . Consultado el 12 de mayo de 2023 .
^ "Método Kaplan-Meier en SPSS Statistics | Laerd Statistics".
^ "Kaplan-Meier · Survival.jl".
^ "Guía del usuario de Epi Info™ - Referencia de comandos - Comandos de análisis: KMSURVIVAL" . Consultado el 30 de octubre de 2023 .
Lectura adicional
Aalen, Odd; Borgan, Ornulf; Gjessing, Hakon (2008). Análisis de la historia de supervivencia y de eventos: un punto de vista de proceso . Springer. págs. 90–104. ISBN 978-0-387-68560-1.
Greene, William H. (2012). "Enfoques no paramétricos y semiparamétricos". Análisis econométrico (séptima edición). Prentice-Hall. pp. 909–912. ISBN 978-0-273-75356-8.
Jones, Andrew M.; Rice, Nigel; D'Uva, Teresa Bago; Balia, Silvia (2013). "Datos de duración". Applied Health Economics . Londres: Routledge. págs. 139–181. ISBN 978-0-415-67682-3.
Singer, Judith B.; Willett, John B. (2003). Análisis de datos longitudinales aplicados: modelado del cambio y la ocurrencia de eventos. Nueva York: Oxford University Press. pp. 483–487. ISBN 0-19-515296-4.
Enlaces externos
Dunn, Steve (2002). "Curvas de supervivencia: acumulación y estimación de Kaplan-Meier". Guía del cáncer . Estadísticas.
Tres curvas de Kaplan-Meier en evolución en YouTube