stringtranslate.com

Censura (estadísticas)

En estadística , la censura es una condición en la que el valor de una medición u observación sólo se conoce parcialmente.

Por ejemplo, supongamos que se realiza un estudio para medir el impacto de un medicamento en la tasa de mortalidad . En un estudio de este tipo, se puede saber que la edad de un individuo al morir es de al menos 75 años (pero puede ser más). Tal situación podría ocurrir si el individuo se retirara del estudio a los 75 años, o si el individuo estuviera vivo actualmente a la edad de 75 años.

La censura también ocurre cuando un valor ocurre fuera del rango de un instrumento de medición . Por ejemplo, una báscula de baño puede pesar sólo hasta 140 kg. Si se pesa un individuo de 160 kg con la báscula, el observador sólo sabrá que el peso del individuo es de al menos 140 kg.

El problema de los datos censurados, en los que se conoce parcialmente el valor observado de alguna variable, está relacionado con el problema de los datos faltantes , donde se desconoce el valor observado de alguna variable.

La censura no debe confundirse con la idea relacionada de truncamiento . Con la censura, las observaciones dan como resultado conocer el valor exacto que se aplica o saber que el valor se encuentra dentro de un intervalo . Con el truncamiento, las observaciones nunca dan como resultado valores fuera de un rango determinado: los valores en la población fuera del rango nunca se ven o nunca se registran si se ven. Tenga en cuenta que en estadística, truncar no es lo mismo que redondear .

Tipos

La censura por intervalos puede ocurrir cuando la observación de un valor requiere seguimientos o inspecciones. La censura izquierda y derecha son casos especiales de censura de intervalo, con el comienzo del intervalo en cero o el final en el infinito, respectivamente.

Los métodos de estimación para utilizar datos censurados por la izquierda varían, y no todos los métodos de estimación pueden ser aplicables o ser más confiables para todos los conjuntos de datos. [1]

Un error común con respecto a los datos de intervalos de tiempo es clasificarlos como intervalos censurados por la izquierda en los que se desconoce la hora de inicio. En estos casos tenemos un límite inferior en el intervalo de tiempo , por lo que los datos se censuran a la derecha (¡a pesar de que el punto de inicio que falta está a la izquierda del intervalo conocido cuando se ve como una línea de tiempo!).

Análisis

Se pueden utilizar técnicas especiales para manejar datos censurados. Las pruebas con tiempos de falla específicos se codifican como fallas reales; Los datos censurados se codifican según el tipo de censura y el intervalo o límite conocido. Programas de software especiales (a menudo orientados a la confiabilidad ) pueden realizar una estimación de máxima verosimilitud para estadísticas resumidas, intervalos de confianza, etc.

Epidemiología

Uno de los primeros intentos de analizar un problema estadístico relacionado con datos censurados fue el análisis de Daniel Bernoulli en 1766 de los datos de morbilidad y mortalidad de la viruela para demostrar la eficacia de la vacunación . [2] Uno de los primeros artículos que utilizó el estimador de Kaplan-Meier para estimar los costos censurados fue Quesenberry et al. (1989), [3] sin embargo, Lin et al. [4] a menos que todos los pacientes acumularan costos con una función de tasa determinista común a lo largo del tiempo, propusieron una técnica de estimación alternativa conocida como estimador de Lin. [5]

Pruebas de vida operativa

Ejemplo de cinco pruebas repetidas que resultaron en cuatro fallas y un tiempo de suspensión que resultó en censura.

Las pruebas de confiabilidad a menudo consisten en realizar una prueba en un artículo (bajo condiciones específicas) para determinar el tiempo que lleva hasta que ocurra una falla.

Un análisis de los datos de pruebas replicadas incluye tanto los tiempos de falla de los elementos que fallaron como el tiempo de finalización de la prueba de aquellos que no fallaron.

Regresión censurada

James Tobin propuso un modelo anterior de regresión censurada , el modelo Tobit , en 1958. [6]

Probabilidad

La verosimilitud es la probabilidad o densidad de probabilidad de lo observado, vista como una función de los parámetros en un modelo supuesto. Para incorporar puntos de datos censurados en la probabilidad, los puntos de datos censurados están representados por la probabilidad de los puntos de datos censurados como una función de los parámetros del modelo dado un modelo, es decir, una función de CDF(s) en lugar de la densidad o masa de probabilidad.

El caso de censura más general es la censura de intervalo: , donde es la CDF de la distribución de probabilidad, y los dos casos especiales son:

Para distribuciones de probabilidad continuas:

Ejemplo

Supongamos que estamos interesados ​​en los tiempos de supervivencia, pero no observamos para todos . En cambio, observamos

, con y si realmente se observa, y
, con y si todo lo que sabemos es que es más largo que .

Cuando se llama el momento de la censura . [7]

Si todos los tiempos de censura son constantes conocidas, entonces la probabilidad es

donde = la función de densidad de probabilidad evaluada en ,

y = la probabilidad de que sea mayor que , llamada función de supervivencia .

Esto se puede simplificar definiendo la función de riesgo , la fuerza instantánea de la mortalidad, como

entonces

.

Entonces

.

Para la distribución exponencial , esto se vuelve aún más simple, porque la tasa de riesgo, , es constante y . Entonces:

,

dónde .

A partir de esto calculamos fácilmente la estimación de máxima verosimilitud (MLE) de , de la siguiente manera:

.

Entonces

.

Establecemos esto en 0 y resolvemos para obtener:

.

De manera equivalente, el tiempo medio hasta el fallo es:

.

Esto difiere del MLE estándar para la distribución exponencial en que cualquier observación censurada se considera solo en el numerador.

Ver también

Referencias

  1. ^ Helsel, D. (2010). "Mucho ruido y pocas nueces: incorporación de no detección en la ciencia". Anales de Higiene Ocupacional . 54 (3): 257–262. doi : 10.1093/annhyg/mep092 . PMID  20032004.
  2. ^ Bernoulli, D. (1766). "Essai d'une nouvelle analyse de la mortalité causée par la petite vérole". Memoria. Matemáticas. Phy. Acad. Roy. Ciencia. París ,reimpreso en Bradley (1971) 21 y Blower (2004)
  3. ^ Quesenberry, CP Jr.; et al. (1989). "Un análisis de supervivencia de la hospitalización entre pacientes con síndrome de inmunodeficiencia adquirida". Revista Estadounidense de Salud Pública . 79 (12): 1643-1647. doi :10.2105/AJPH.79.12.1643. PMC 1349769 . PMID  2817192. 
  4. ^ Lin, DY; et al. (1997). "Estimación de costos médicos a partir de datos de seguimiento incompletos". Biometría . 53 (2): 419–434. doi :10.2307/2533947. JSTOR  2533947. PMID  9192444.
  5. ^ Wijeysundera, HC; et al. (2012). "Técnicas para estimar costos de atención médica con datos censurados: una visión general para el investigador de servicios de salud". Investigación Clínica, Económica y de Resultados . 4 : 145-155. doi : 10.2147/CEOR.S31552 . PMC 3377439 . PMID  22719214. 
  6. ^ Tobin, James (1958). "Estimación de relaciones para variables dependientes limitadas" (PDF) . Econométrica . 26 (1): 24–36. doi :10.2307/1907382. JSTOR  1907382.
  7. ^ Lu Tian, ​​Construcción de probabilidad, inferencia para distribuciones de supervivencia paramétricas (PDF) , Wikidata  Q98961801.

Otras lecturas

enlaces externos