Censura (estadísticas)

En estadística , la censura es una condición en la que el valor de una medición u observación sólo se conoce parcialmente.

Por ejemplo, supongamos que se realiza un estudio para medir el impacto de un medicamento en la tasa de mortalidad . En un estudio de este tipo, se puede saber que la edad de un individuo al morir es de al menos 75 años (pero puede ser más). Tal situación podría ocurrir si el individuo se retirara del estudio a los 75 años, o si el individuo estuviera vivo actualmente a la edad de 75 años.

La censura también ocurre cuando un valor ocurre fuera del rango de un instrumento de medición . Por ejemplo, una báscula de baño puede pesar sólo hasta 140 kg. Si se pesa un individuo de 160 kg con la báscula, el observador sólo sabrá que el peso del individuo es de al menos 140 kg.

El problema de los datos censurados, en los que se conoce parcialmente el valor observado de alguna variable, está relacionado con el problema de los datos faltantes , donde se desconoce el valor observado de alguna variable.

La censura no debe confundirse con la idea relacionada de truncamiento . Con la censura, las observaciones dan como resultado conocer el valor exacto que se aplica o saber que el valor se encuentra dentro de un intervalo . Con el truncamiento, las observaciones nunca dan como resultado valores fuera de un rango determinado: los valores en la población fuera del rango nunca se ven o nunca se registran si se ven. Tenga en cuenta que en estadística, truncar no es lo mismo que redondear .

Tipos

Censura izquierda : un punto de datos está por debajo de cierto valor pero se desconoce en qué medida.
Censura de intervalo : un punto de datos se encuentra en algún lugar de un intervalo entre dos valores.
Censura derecha : un punto de datos está por encima de cierto valor pero se desconoce en qué medida.
La censura de tipo I ocurre si un experimento tiene un número determinado de sujetos o elementos y detiene el experimento en un momento predeterminado, momento en el cual los sujetos restantes son censurados por la derecha.
La censura de tipo II ocurre si un experimento tiene un número determinado de sujetos o elementos y detiene el experimento cuando se observa que un número predeterminado ha fallado; los temas restantes son luego censurados por la derecha.
La censura aleatoria (o no informativa ) se produce cuando cada sujeto tiene un tiempo de censura que es estadísticamente independiente de su tiempo de fracaso. El valor observado es el mínimo de los tiempos de censura y falla; los sujetos cuyo tiempo de fracaso es mayor que su tiempo de censura son censurados por la derecha.

La censura por intervalos puede ocurrir cuando la observación de un valor requiere seguimientos o inspecciones. La censura izquierda y derecha son casos especiales de censura de intervalo, con el comienzo del intervalo en cero o el final en el infinito, respectivamente.

Los métodos de estimación para utilizar datos censurados por la izquierda varían, y no todos los métodos de estimación pueden ser aplicables o ser más confiables para todos los conjuntos de datos. ^[1]

Un error común con respecto a los datos de intervalos de tiempo es clasificarlos como intervalos censurados por la izquierda en los que se desconoce la hora de inicio. En estos casos tenemos un límite inferior en el intervalo de tiempo , por lo que los datos se censuran a la derecha (¡a pesar de que el punto de inicio que falta está a la izquierda del intervalo conocido cuando se ve como una línea de tiempo!).

Análisis

Se pueden utilizar técnicas especiales para manejar datos censurados. Las pruebas con tiempos de falla específicos se codifican como fallas reales; Los datos censurados se codifican según el tipo de censura y el intervalo o límite conocido. Programas de software especiales (a menudo orientados a la confiabilidad ) pueden realizar una estimación de máxima verosimilitud para estadísticas resumidas, intervalos de confianza, etc.

Epidemiología

Uno de los primeros intentos de analizar un problema estadístico relacionado con datos censurados fue el análisis de Daniel Bernoulli en 1766 de los datos de morbilidad y mortalidad de la viruela para demostrar la eficacia de la vacunación . ^[2] Uno de los primeros artículos que utilizó el estimador de Kaplan-Meier para estimar los costos censurados fue Quesenberry et al. (1989), ^[3] sin embargo, Lin et al. ^[4] a menos que todos los pacientes acumularan costos con una función de tasa determinista común a lo largo del tiempo, propusieron una técnica de estimación alternativa conocida como estimador de Lin. ^[5]

Pruebas de vida operativa

Las pruebas de confiabilidad a menudo consisten en realizar una prueba en un artículo (bajo condiciones específicas) para determinar el tiempo que lleva hasta que ocurra una falla.

A veces se planifica y espera una falla, pero no ocurre: error del operador, mal funcionamiento del equipo, anomalía de la prueba, etc. El resultado de la prueba no fue el tiempo deseado hasta la falla, pero puede (y debe usarse) como un tiempo hasta la falla. terminación. El uso de datos censurados no es intencionado pero es necesario.
A veces, los ingenieros planifican un programa de pruebas de modo que, después de un cierto límite de tiempo o de un número de fallas, todas las demás pruebas finalicen. Estos tiempos suspendidos se tratan como datos censurados por la derecha. El uso de datos censurados es intencional.

Un análisis de los datos de pruebas replicadas incluye tanto los tiempos de falla de los elementos que fallaron como el tiempo de finalización de la prueba de aquellos que no fallaron.

Regresión censurada

James Tobin propuso un modelo anterior de regresión censurada , el modelo Tobit , en 1958. ^[6]

Probabilidad

La verosimilitud es la probabilidad o densidad de probabilidad de lo observado, vista como una función de los parámetros en un modelo supuesto. Para incorporar puntos de datos censurados en la probabilidad, los puntos de datos censurados están representados por la probabilidad de los puntos de datos censurados como una función de los parámetros del modelo dado un modelo, es decir, una función de CDF(s) en lugar de la densidad o masa de probabilidad.

El caso de censura más general es la censura de intervalo: , donde es la CDF de la distribución de probabilidad, y los dos casos especiales son: $Pr(a<x\leqslant b)=F(b)-F(a)$ $F(x)$

censura izquierda: $Pr(-\infty <x\leqslant b)=F(b)-F(-\infty )=F(b)-0=F(b)=Pr(x\leqslant b)$

censura derecha: $Pr(a<x\leqslant \infty )=F(\infty )-F(a)=1-F(a)=1-Pr(x\leqslant a)=Pr(x>a)$

Para distribuciones de probabilidad continuas: $Pr(a<x\leqslant b)=Pr(a<x<b)$

Ejemplo

Supongamos que estamos interesados en los tiempos de supervivencia, pero no observamos para todos . En cambio, observamos $T_{1},T_{2},...,T_{n}$ $T_{i}$ $i$

{\ Displaystyle (U_ {i}, \ delta _ {i})}

, con y si realmente se observa, y

U_{i}=T_{i}

\delta _{i}=1

T_{i}

(U_{i},\delta _{i})

, con y si todo lo que sabemos es que es más largo que .

U_{i}<T_{i}

\delta _{i}=0

T_{i}

U_{i}

Cuando se llama el momento de la censura . ^[7] $T_{i}>U_{i},U_{i}$

Si todos los tiempos de censura son constantes conocidas, entonces la probabilidad es

L=\prod _{i,\delta _{i}=1}f(u_{i})\prod _{i,\delta _{i}=0}S(u_{i})

donde = la función de densidad de probabilidad evaluada en , $f(u_{i})$ $u_{i}$

y = la probabilidad de que sea mayor que , llamada función de supervivencia . $S(u_{i})$ $T_{i}$ $u_{i}$

Esto se puede simplificar definiendo la función de riesgo , la fuerza instantánea de la mortalidad, como

\lambda (u)=f(u)/S(u)

entonces

f(u)=\lambda (u)S(u)

Entonces

L=\prod _{i}\lambda (u_{i})^{\delta _{i}}S(u_{i})

Para la distribución exponencial , esto se vuelve aún más simple, porque la tasa de riesgo, , es constante y . Entonces: $\lambda$ $S(u)=\exp(-\lambda u)$

L(\lambda )=\lambda ^{k}\exp(-\lambda \sum {u_{i}})

dónde . $k=\sum {\delta _{i}}$

A partir de esto calculamos fácilmente la estimación de máxima verosimilitud (MLE) de , de la siguiente manera: ${\hat {\lambda }}$ $\lambda$

l(\lambda )=\log(L(\lambda ))=k\log(\lambda )-\lambda \sum {u_{i}}

Entonces

dl/d\lambda =k/\lambda -\sum {u_{i}}

Establecemos esto en 0 y resolvemos para obtener: $\lambda$

{\hat {\lambda }}=k/\sum u_{i}

De manera equivalente, el tiempo medio hasta el fallo es:

1/{\hat {\lambda }}=\sum u_{i}/k

Esto difiere del MLE estándar para la distribución exponencial en que cualquier observación censurada se considera solo en el numerador.

Ver también

Referencias

^ Helsel, D. (2010). "Mucho ruido y pocas nueces: incorporación de no detección en la ciencia". Anales de Higiene Ocupacional . 54 (3): 257–262. doi : 10.1093/annhyg/mep092 . PMID 20032004.
^ Bernoulli, D. (1766). "Essai d'une nouvelle analyse de la mortalité causée par la petite vérole". Memoria. Matemáticas. Phy. Acad. Roy. Ciencia. París ,reimpreso en Bradley (1971) 21 y Blower (2004)
^ Quesenberry, CP Jr.; et al. (1989). "Un análisis de supervivencia de la hospitalización entre pacientes con síndrome de inmunodeficiencia adquirida". Revista Estadounidense de Salud Pública . 79 (12): 1643-1647. doi :10.2105/AJPH.79.12.1643. PMC 1349769 . PMID 2817192.
^ Lin, DY; et al. (1997). "Estimación de costos médicos a partir de datos de seguimiento incompletos". Biometría . 53 (2): 419–434. doi :10.2307/2533947. JSTOR 2533947. PMID 9192444.
^ Wijeysundera, HC; et al. (2012). "Técnicas para estimar costos de atención médica con datos censurados: una visión general para el investigador de servicios de salud". Investigación Clínica, Económica y de Resultados . 4 : 145-155. doi : 10.2147/CEOR.S31552 . PMC 3377439 . PMID 22719214.
^ Tobin, James (1958). "Estimación de relaciones para variables dependientes limitadas" (PDF) . Econométrica . 26 (1): 24–36. doi :10.2307/1907382. JSTOR 1907382.
^ Lu Tian, Construcción de probabilidad, inferencia para distribuciones de supervivencia paramétricas (PDF) , Wikidata Q98961801.

Otras lecturas

Blower, S. (2004), D, Bernoulli " "Un intento de un nuevo análisis de la mortalidad causada por la viruela y de las ventajas de la inoculación para prevenirla" (PDF) . Archivado desde el original (PDF) en 2017-08. -08 . Consultado el 25 de junio de 2019 . (146 KiB ) ", Reseñas de Virología Médica , 14 : 275–288
Bradley, L. (1971). Inoculación contra la viruela: una controversia matemática del siglo XVIII . Nottingham. ISBN 0-902031-23-6.{{cite book}}: CS1 maint: location missing publisher (link)
Mann, NR ; et al. (1975). Métodos para el análisis estadístico de datos de confiabilidad y vida . Nueva York: Wiley. ISBN 047156737X.
Bagdonavicius, V., Kruopis, J., Nikulin, MS (2011), "Pruebas no paramétricas para datos censurados", Londres, ISTE/WILEY, ISBN 9781848212893 .

enlaces externos

"Manual de estadísticas de ingeniería", NIST/SEMATEK, [1]