Truncamiento (estadísticas)

En estadística , el truncamiento da como resultado valores que están limitados por encima o por debajo, lo que da como resultado una muestra truncada . ^[1] Se dice que una variable aleatoria está truncada desde abajo si, para algún valor umbral , el valor exacto de es conocido para todos los casos , pero desconocido para todos los casos . De manera similar, el truncamiento desde arriba significa que el valor exacto de se conoce en los casos en que , pero se desconoce cuando . ^[2] $y$ $c$ $y$ $y>c$ $y\leq c$ $y$ $y<c$ $y\geq c$

El truncamiento es similar pero distinto del concepto de censura estadística . Se puede considerar que una muestra truncada es equivalente a una muestra subyacente en la que todos los valores fuera de los límites se omiten por completo y ni siquiera se mantiene un recuento de los omitidos. Con la censura estadística, se registraría una nota documentando qué límite (superior o inferior) se había excedido y el valor de ese límite. Con el muestreo truncado no se registra ninguna nota.

Aplicaciones

Por lo general, los valores que reciben los ajustadores de seguros están truncados a la izquierda, censurados a la derecha o ambos. Por ejemplo, si los asegurados están sujetos a un límite de póliza u , entonces cualquier monto de pérdida que en realidad esté por encima de u se informa a la compañía de seguros como exactamente u porque u es el monto que paga la compañía de seguros . El asegurador sabe que la pérdida real es mayor que usted, pero no sabe cuál es. Por otro lado, el truncamiento por la izquierda ocurre cuando los asegurados están sujetos a un deducible. Si los asegurados están sujetos a un deducible d , cualquier monto de pérdida menor que d ni siquiera se informará a la compañía de seguros. Si hay un reclamo sobre un límite de póliza de u y un deducible de d , cualquier monto de pérdida mayor que u se informará a la compañía de seguros como una pérdida de porque ese es el monto que la compañía de seguros tiene que pagar. Por lo tanto, los datos de pérdidas de seguros se truncan a la izquierda porque la compañía de seguros no sabe si hay valores por debajo del deducible d porque los asegurados no presentarán un reclamo. La pérdida del seguro también está censurada por la derecha si la pérdida es mayor que u porque u es lo máximo que pagará la compañía de seguros. Por lo tanto, solo sabe que su reclamo es mayor que u , no el monto exacto del reclamo. $ud$

Distribuciones de probabilidad

El truncamiento se puede aplicar a cualquier distribución de probabilidad . Por lo general, esto dará lugar a una nueva distribución, no a una dentro de la misma familia. Por lo tanto, si una variable aleatoria X tiene F ( x ) como función de distribución, la nueva variable aleatoria Y definida con la distribución de X truncada al intervalo semiabierto ( a , b ] tiene la función de distribución

F_{Y}(y)={\frac {F(y)-F(a)}{F(b)-F(a)}}\,

para y en el intervalo ( a , b ], y 0 o 1 en caso contrario. Si el truncamiento fuera al intervalo cerrado [ a , b ], la función de distribución sería

F_{Y}(y)={\frac {F(y)-F(a-)}{F(b)-F(a-)}}\,

para y en el intervalo [ a , b ], y 0 o 1 en caso contrario.

Análisis de los datos

El análisis de datos en los que las observaciones se tratan como si procedieran de versiones truncadas de distribuciones estándar se puede realizar utilizando la máxima verosimilitud , donde la probabilidad se derivaría de la distribución o densidad de la distribución truncada. Esto implica tener en cuenta el factor en la función de densidad modificada que dependerá de los parámetros de la distribución original. ${F(b)-F(a)}$

En la práctica, si la fracción truncada es muy pequeña, el efecto del truncamiento podría ignorarse al analizar los datos. Por ejemplo, es común utilizar una distribución normal para modelar datos cuyos valores sólo pueden ser positivos pero para los cuales el rango típico de valores está muy alejado de cero. En tales casos, formalmente puede ser preferible una versión truncada o censurada de la distribución normal (aunque habría alternativas); Habría muy pocos cambios en los resultados del análisis más complicado. Sin embargo, hay software disponible para la estimación de máxima verosimilitud de modelos incluso moderadamente complicados, como los modelos de regresión , para datos truncados. ^[3]

En econometría , las variables dependientes truncadas son variables para las cuales no se pueden realizar observaciones para ciertos valores en algún rango. ^[4] Los modelos de regresión con tales variables dependientes requieren un cuidado especial que reconozca adecuadamente la naturaleza truncada de la variable. La estimación de dicho modelo de regresión truncado se puede realizar en marcos paramétricos, ^[5]^[6]^[7] o semiparamétricos y no paramétricos. ^[8]^[9]

Ver también

Referencias

^ Dodge, Y. (2003) Diccionario Oxford de términos estadísticos . OUP. ISBN 0-19-920613-9
^ Breen, Richard (1996). Modelos de regresión: datos censurados, de muestra seleccionada o truncados. Aplicaciones cuantitativas en las ciencias sociales. vol. 111. Thousand Oaks: Salvia. págs. 2–4. ISBN 0-8039-5710-6.
^ Wolynetz, MS (1979). "Estimación de máxima verosimilitud en un modelo lineal a partir de datos normales confinados y censurados". Revista de la Real Sociedad de Estadística . Serie C. 28 (2): 195–206. doi :10.2307/2346749. JSTOR 2346749.
^ "Variables dependientes truncadas". Acerca de.com . Consultado el 22 de marzo de 2008 .
^ Amemiya, T. (1973). "Análisis de regresión cuando la variable dependiente se trunca en la normalidad". Econométrica . 41 (6): 997–1016. doi :10.2307/1914031. JSTOR 1914031.
^ Heckman, James (1976). "La estructura común de los modelos estadísticos de truncamiento, selección de muestras y variables dependientes limitadas y un estimador simple para dichos modelos". Anales de medición económica y social . 5 (4): 475–492.
^ Vancak, V.; Goldberg, Y.; Bar-Lev, SK; Boukai, B. (2015). "Modelos estadísticos continuos: ¿con o sin parámetros de truncamiento?". Métodos matemáticos de estadística . 24 (1): 55–73. doi :10.3103/S1066530715010044. hdl : 1805/7048 . S2CID 255455365.{{cite journal}}: Mantenimiento CS1: varios nombres: lista de autores ( enlace )
^ Lewbel, A .; Linton, O. (2002). "Regresión truncada y censurada no paramétrica". Econométrica . 70 (2): 765–779. doi :10.1111/1468-0262.00304. JSTOR 2692291. S2CID 120113700.
^ Parque, BU; Simar, L.; Zelenyuk, V. (2008). "Estimación de probabilidad local de regresión truncada y sus derivadas parciales: teoría y aplicación" (PDF) . Revista de Econometría . 146 (1): 185-198. doi :10.1016/j.jeconom.2008.08.007. S2CID 55496460.