stringtranslate.com

Censura (estadísticas)

En estadística , la censura es una condición en la que el valor de una medición u observación sólo se conoce parcialmente.

Por ejemplo, supongamos que se lleva a cabo un estudio para medir el impacto de un medicamento en la tasa de mortalidad . En dicho estudio, se puede saber que la edad de un individuo al morir es de al menos 75 años (pero puede ser mayor). Tal situación podría ocurrir si el individuo se retira del estudio a los 75 años, o si el individuo está vivo actualmente a la edad de 75 años.

La censura también se produce cuando un valor se encuentra fuera del rango de un instrumento de medición . Por ejemplo, una báscula de baño podría medir solo hasta 140 kg. Si se pesa a una persona de 160 kg utilizando la báscula, el observador solo sabría que el peso de la persona es de al menos 140 kg.

El problema de los datos censurados, en los que el valor observado de alguna variable es parcialmente conocido, está relacionado con el problema de los datos faltantes , donde el valor observado de alguna variable es desconocido.

La censura no debe confundirse con la idea relacionada truncamiento . Con la censura, las observaciones dan como resultado el conocimiento del valor exacto que se aplica o el conocimiento de que el valor se encuentra dentro de un intervalo . Con el truncamiento, las observaciones nunca dan como resultado valores fuera de un rango determinado: los valores de la población fuera del rango nunca se ven o nunca se registran si se ven. Tenga en cuenta que en estadística, el truncamiento no es lo mismo que el redondeo .

Tipos

La censura por intervalos puede ocurrir cuando la observación de un valor requiere seguimientos o inspecciones. La censura por la izquierda y por la derecha son casos especiales de censura por intervalos, con el comienzo del intervalo en cero o el final en infinito, respectivamente.

Los métodos de estimación para utilizar datos censurados a la izquierda varían, y no todos los métodos de estimación pueden ser aplicables o los más confiables para todos los conjuntos de datos. [1]

Un error común con los datos de intervalos de tiempo es clasificar como intervalos censurados por la izquierda cuando se desconoce el tiempo de inicio. En estos casos, tenemos un límite inferior en el intervalo de tiempo , por lo que los datos están censurados por la derecha (a pesar del hecho de que el punto de inicio faltante está a la izquierda del intervalo conocido cuando se ve como una línea de tiempo).

Análisis

Se pueden utilizar técnicas especiales para manejar datos censurados. Las pruebas con tiempos de falla específicos se codifican como fallas reales; los datos censurados se codifican según el tipo de censura y el intervalo o límite conocido. Los programas de software especiales (a menudo orientados a la confiabilidad ) pueden realizar una estimación de máxima verosimilitud para estadísticas resumidas, intervalos de confianza, etc.

Epidemiología

Uno de los primeros intentos de analizar un problema estadístico que involucraba datos censurados fue el análisis de Daniel Bernoulli de 1766 de los datos de morbilidad y mortalidad por viruela para demostrar la eficacia de la vacunación . [2] Uno de los primeros artículos que utilizó el estimador de Kaplan-Meier para estimar los costos censurados fue Quesenberry et al. (1989), [3] sin embargo, Lin et al. [4] encontraron que este enfoque no era válido a menos que todos los pacientes acumularan costos con una función de tasa determinista común a lo largo del tiempo, propusieron una técnica de estimación alternativa conocida como el estimador de Lin. [5]

Prueba de vida útil operativa

Ejemplo de cinco pruebas replicadas que dieron como resultado cuatro fallas y un tiempo de suspensión que resultó en censura.

Las pruebas de confiabilidad a menudo consisten en realizar una prueba en un elemento (bajo condiciones específicas) para determinar el tiempo que tarda en ocurrir una falla.

Un análisis de los datos de pruebas replicadas incluye tanto los tiempos hasta el fallo de los elementos que fallaron como el tiempo de finalización de la prueba para aquellos que no fallaron.

Regresión censurada

Un modelo anterior para la regresión censurada , el modelo Tobit , fue propuesto por James Tobin en 1958. [6]

Probabilidad

La probabilidad es la probabilidad o densidad de probabilidad de lo observado, vista como una función de parámetros en un modelo supuesto. Para incorporar puntos de datos censurados en la probabilidad, los puntos de datos censurados se representan por la probabilidad de los puntos de datos censurados como una función de los parámetros del modelo dado un modelo, es decir, una función de CDF(s) en lugar de la densidad o masa de probabilidad.

El caso de censura más general es la censura por intervalo: , donde es la CDF de la distribución de probabilidad, y los dos casos especiales son:

Para distribuciones de probabilidad continuas:

Ejemplo

Supongamos que nos interesan los tiempos de supervivencia, , pero no observamos para todos los . En cambio, observamos

, con y si se observa realmente, y
, con y si todo lo que sabemos es que es más largo que .

¿Cuándo se llama tiempo de censura ? [7]

Si los tiempos de censura son todos constantes conocidas, entonces la probabilidad es

donde = la función de densidad de probabilidad evaluada en ,

y = la probabilidad de que sea mayor que , llamada función de supervivencia .

Esto se puede simplificar definiendo la función de riesgo , la fuerza instantánea de mortalidad, como

entonces

.

Entonces

.

Para la distribución exponencial , esto se vuelve aún más simple, porque la tasa de riesgo, , es constante y . Entonces:

,

dónde .

A partir de esto, calculamos fácilmente , la estimación de máxima verosimilitud (EMV) de , de la siguiente manera:

.

Entonces

.

Establecemos esto en 0 y resolvemos para obtener:

.

De manera equivalente, el tiempo medio hasta el fallo es:

.

Esto difiere del MLE estándar para la distribución exponencial en que las observaciones censuradas se consideran solo en el numerador.

Véase también

Referencias

  1. ^ Helsel, D. (2010). "Mucho ruido y pocas nueces: Incorporación de elementos no detectables en la ciencia". Anales de higiene ocupacional . 54 (3): 257–262. doi : 10.1093/annhyg/mep092 . PMID  20032004.
  2. ^ Bernoulli, D. (1766). "Essai d'une nouvelle analyse de la mortalité causée par la petite vérole". Memoria. Matemáticas. Phy. Acad. Roy. Ciencia. París ,Reimpreso en Bradley (1971) 21 y Blower (2004)
  3. ^ Quesenberry, CP Jr.; et al. (1989). "Un análisis de supervivencia de la hospitalización entre pacientes con síndrome de inmunodeficiencia adquirida". American Journal of Public Health . 79 (12): 1643–1647. doi :10.2105/AJPH.79.12.1643. PMC 1349769 . PMID  2817192. 
  4. ^ Lin, DY; et al. (1997). "Estimación de costos médicos a partir de datos de seguimiento incompletos". Biometrics . 53 (2): 419–434. doi :10.2307/2533947. JSTOR  2533947. PMID  9192444.
  5. ^ Wijeysundera, HC; et al. (2012). "Técnicas para estimar los costos de la atención médica con datos censurados: una descripción general para el investigador de servicios de salud". Investigación en economía clínica y resultados . 4 : 145–155. doi : 10.2147/CEOR.S31552 . PMC: 3377439. PMID:  22719214 . 
  6. ^ Tobin, James (1958). "Estimación de relaciones para variables dependientes limitadas" (PDF) . Econometrica . 26 (1): 24–36. doi :10.2307/1907382. JSTOR  1907382.
  7. ^ Lu Tian, ​​Construcción de verosimilitud, inferencia para distribuciones de supervivencia paramétricas (PDF) , Wikidata  Q98961801.

Lectura adicional

Enlaces externos