Censura (estadísticas)

En estadística , la censura es una condición en la que el valor de una medición u observación sólo se conoce parcialmente.

Por ejemplo, supongamos que se lleva a cabo un estudio para medir el impacto de un medicamento en la tasa de mortalidad . En dicho estudio, se puede saber que la edad de un individuo al morir es de al menos 75 años (pero puede ser mayor). Tal situación podría ocurrir si el individuo se retira del estudio a los 75 años, o si el individuo está vivo actualmente a la edad de 75 años.

La censura también se produce cuando un valor se encuentra fuera del rango de un instrumento de medición . Por ejemplo, una báscula de baño podría medir solo hasta 140 kg. Si se pesa a una persona de 160 kg utilizando la báscula, el observador solo sabría que el peso de la persona es de al menos 140 kg.

El problema de los datos censurados, en los que el valor observado de alguna variable es parcialmente conocido, está relacionado con el problema de los datos faltantes , donde el valor observado de alguna variable es desconocido.

La censura no debe confundirse con la idea relacionada truncamiento . Con la censura, las observaciones dan como resultado el conocimiento del valor exacto que se aplica o el conocimiento de que el valor se encuentra dentro de un intervalo . Con el truncamiento, las observaciones nunca dan como resultado valores fuera de un rango determinado: los valores de la población fuera del rango nunca se ven o nunca se registran si se ven. Tenga en cuenta que en estadística, el truncamiento no es lo mismo que el redondeo .

Tipos

Censura a la izquierda : un punto de datos está por debajo de un valor determinado, pero se desconoce en qué medida.
Censura de intervalo : un punto de datos está en algún lugar de un intervalo entre dos valores.
Censura derecha : un punto de datos está por encima de un valor determinado, pero se desconoce en qué medida.
La censura de tipo I ocurre si un experimento tiene una cantidad determinada de sujetos o elementos y detiene el experimento en un momento predeterminado, momento en el cual todos los sujetos restantes son censurados a la derecha.
La censura de tipo II ocurre si un experimento tiene un número determinado de sujetos o elementos y detiene el experimento cuando se observa que un número predeterminado ha fallado; los sujetos restantes son luego censurados a la derecha.
La censura aleatoria (o no informativa ) es cuando cada sujeto tiene un tiempo de censura que es estadísticamente independiente de su tiempo de falla. El valor observado es el mínimo de los tiempos de censura y falla; los sujetos cuyo tiempo de falla es mayor que su tiempo de censura son censurados por la derecha.

La censura por intervalos puede ocurrir cuando la observación de un valor requiere seguimientos o inspecciones. La censura por la izquierda y por la derecha son casos especiales de censura por intervalos, con el comienzo del intervalo en cero o el final en infinito, respectivamente.

Los métodos de estimación para utilizar datos censurados a la izquierda varían, y no todos los métodos de estimación pueden ser aplicables o los más confiables para todos los conjuntos de datos. ^[1]

Un error común con los datos de intervalos de tiempo es clasificar como intervalos censurados por la izquierda cuando se desconoce el tiempo de inicio. En estos casos, tenemos un límite inferior en el intervalo de tiempo , por lo que los datos están censurados por la derecha (a pesar del hecho de que el punto de inicio faltante está a la izquierda del intervalo conocido cuando se ve como una línea de tiempo).

Análisis

Se pueden utilizar técnicas especiales para manejar datos censurados. Las pruebas con tiempos de falla específicos se codifican como fallas reales; los datos censurados se codifican según el tipo de censura y el intervalo o límite conocido. Los programas de software especiales (a menudo orientados a la confiabilidad ) pueden realizar una estimación de máxima verosimilitud para estadísticas resumidas, intervalos de confianza, etc.

Epidemiología

Uno de los primeros intentos de analizar un problema estadístico que involucraba datos censurados fue el análisis de Daniel Bernoulli de 1766 de los datos de morbilidad y mortalidad por viruela para demostrar la eficacia de la vacunación . ^[2] Uno de los primeros artículos que utilizó el estimador de Kaplan-Meier para estimar los costos censurados fue Quesenberry et al. (1989), ^{[3] sin embargo, Lin et al.}^[4] encontraron que este enfoque no era válido a menos que todos los pacientes acumularan costos con una función de tasa determinista común a lo largo del tiempo, propusieron una técnica de estimación alternativa conocida como el estimador de Lin. ^[5]

Prueba de vida útil operativa

Las pruebas de confiabilidad a menudo consisten en realizar una prueba en un elemento (bajo condiciones específicas) para determinar el tiempo que tarda en ocurrir una falla.

A veces, se planifica y se espera que ocurra un fallo, pero no ocurre: error del operador, mal funcionamiento del equipo, anomalía en la prueba, etc. El resultado de la prueba no fue el tiempo deseado hasta el fallo, pero se puede (y se debe) utilizar como tiempo hasta la terminación. El uso de datos censurados es involuntario, pero necesario.
A veces, los ingenieros planifican un programa de pruebas de modo que, después de un cierto límite de tiempo o de una cantidad determinada de fallos, se detengan todas las demás pruebas. Estos tiempos de suspensión se tratan como datos censurados por la derecha. El uso de datos censurados es intencional.

Un análisis de los datos de pruebas replicadas incluye tanto los tiempos hasta el fallo de los elementos que fallaron como el tiempo de finalización de la prueba para aquellos que no fallaron.

Regresión censurada

Un modelo anterior para la regresión censurada , el modelo Tobit , fue propuesto por James Tobin en 1958. ^[6]

Probabilidad

La probabilidad es la probabilidad o densidad de probabilidad de lo observado, vista como una función de parámetros en un modelo supuesto. Para incorporar puntos de datos censurados en la probabilidad, los puntos de datos censurados se representan por la probabilidad de los puntos de datos censurados como una función de los parámetros del modelo dado un modelo, es decir, una función de CDF(s) en lugar de la densidad o masa de probabilidad.

El caso de censura más general es la censura por intervalo: , donde es la CDF de la distribución de probabilidad, y los dos casos especiales son: $Pr(a<x\leqslant b)=F(b)-F(a)$ ${\estilo de visualización F(x)}$

censura de izquierda: $Pr(-\infty <x\leqslant b)=F(b)-F(-\infty )=F(b)-0=F(b)=Pr(x\leqslant b)$

censura derecha: $Pr(a<x\leqslant \infty )=F(\infty )-F(a)=1-F(a)=1-Pr(x\leqslant a)=Pr(x>a)$

Para distribuciones de probabilidad continuas: $Pr(a<x\leqslant b)=Pr(a<x<b)$

Ejemplo

Supongamos que nos interesan los tiempos de supervivencia, , pero no observamos para todos los . En cambio, observamos $T_{1},T_{2},...,T_{n}$ $Estilo de visualización T_{i}}$ $i$

(U_{i},\delta _{i})

, con y si se observa realmente, y

U_{i}=T_{i}

\delta _{i}=1

T_{i}

(U_{i},\delta _{i})

, con y si todo lo que sabemos es que es más largo que .

U_{i}<T_{i}

\delta _{i}=0

T_{i}

U_{i}

¿Cuándo se llama tiempo de censura ? ^[7] $T_{i}>U_{i},U_{i}$

Si los tiempos de censura son todos constantes conocidas, entonces la probabilidad es

L=\prod _{i,\delta _{i}=1}f(u_{i})\prod _{i,\delta _{i}=0}S(u_{i})

donde = la función de densidad de probabilidad evaluada en , $f(u_{i})$ $u_{i}$

y = la probabilidad de que sea mayor que , llamada función de supervivencia . $S(u_{i})$ $T_{i}$ $u_{i}$

Esto se puede simplificar definiendo la función de riesgo , la fuerza instantánea de mortalidad, como

\lambda (u)=f(u)/S(u)

entonces

f(u)=\lambda (u)S(u)

Entonces

L=\prod _{i}\lambda (u_{i})^{\delta _{i}}S(u_{i})

Para la distribución exponencial , esto se vuelve aún más simple, porque la tasa de riesgo, , es constante y . Entonces: $\lambda$ $S(u)=\exp(-\lambda u)$

L(\lambda )=\lambda ^{k}\exp(-\lambda \sum {u_{i}})

dónde . $k=\sum {\delta _{i}}$

A partir de esto, calculamos fácilmente , la estimación de máxima verosimilitud (EMV) de , de la siguiente manera: ${\hat {\lambda }}$ $\lambda$

l(\lambda )=\log(L(\lambda ))=k\log(\lambda )-\lambda \sum {u_{i}}

Entonces

dl/d\lambda =k/\lambda -\sum {u_{i}}

Establecemos esto en 0 y resolvemos para obtener: $\lambda$

{\hat {\lambda }}=k/\sum u_{i}

De manera equivalente, el tiempo medio hasta el fallo es:

1/{\hat {\lambda }}=\sum u_{i}/k

Esto difiere del MLE estándar para la distribución exponencial en que las observaciones censuradas se consideran solo en el numerador.

Véase también

Referencias

^ Helsel, D. (2010). "Mucho ruido y pocas nueces: Incorporación de elementos no detectables en la ciencia". Anales de higiene ocupacional . 54 (3): 257–262. doi : 10.1093/annhyg/mep092 . PMID 20032004.
^ Bernoulli, D. (1766). "Essai d'une nouvelle analyse de la mortalité causée par la petite vérole". Memoria. Matemáticas. Phy. Acad. Roy. Ciencia. París ,Reimpreso en Bradley (1971) 21 y Blower (2004)
^ Quesenberry, CP Jr.; et al. (1989). "Un análisis de supervivencia de la hospitalización entre pacientes con síndrome de inmunodeficiencia adquirida". American Journal of Public Health . 79 (12): 1643–1647. doi :10.2105/AJPH.79.12.1643. PMC 1349769 . PMID 2817192.
^ Lin, DY; et al. (1997). "Estimación de costos médicos a partir de datos de seguimiento incompletos". Biometrics . 53 (2): 419–434. doi :10.2307/2533947. JSTOR 2533947. PMID 9192444.
^ Wijeysundera, HC; et al. (2012). "Técnicas para estimar los costos de la atención médica con datos censurados: una descripción general para el investigador de servicios de salud". Investigación en economía clínica y resultados . 4 : 145–155. doi : 10.2147/CEOR.S31552 . PMC: 3377439. PMID: 22719214 .
^ Tobin, James (1958). "Estimación de relaciones para variables dependientes limitadas" (PDF) . Econometrica . 26 (1): 24–36. doi :10.2307/1907382. JSTOR 1907382.
^ Lu Tian, Construcción de verosimilitud, inferencia para distribuciones de supervivencia paramétricas (PDF) , Wikidata Q98961801.

Lectura adicional

Blower, S. (2004), D, Bernoulli's " Un intento de un nuevo análisis de la mortalidad causada por la viruela y de las ventajas de la inoculación para prevenirla" (PDF) . Archivado desde el original (PDF) el 2017-08-08 . Consultado el 2019-06-25 . (146 KiB ) ", Reseñas de Virología Médica , 14 : 275–288
Bradley, L. (1971). Inoculación de la viruela: una controversia matemática del siglo XVIII . Nottingham. ISBN 0-902031-23-6.{{cite book}}: CS1 maint: location missing publisher (link)
Mann, NR ; et al. (1975). Métodos para el análisis estadístico de datos de confiabilidad y vida . Nueva York: Wiley. ISBN 047156737X.
Bagdonavicius, V., Kruopis, J., Nikulin, MS (2011), "Pruebas no paramétricas para datos censurados", Londres, ISTE/WILEY, ISBN 9781848212893 .

Enlaces externos

"Manual de estadística de ingeniería", NIST/SEMATEK, [1]