stringtranslate.com

Contracción (estadísticas)

En estadística , la contracción es la reducción de los efectos de la variación del muestreo. En el análisis de regresión , una relación ajustada parece funcionar peor en un nuevo conjunto de datos que en el conjunto de datos utilizado para el ajuste. [1] En particular, el valor del coeficiente de determinación se "encoge". Esta idea es complementaria al sobreajuste y, por separado, al ajuste estándar realizado en el coeficiente de determinación para compensar los efectos subjuntivos de un muestreo adicional, como controlar el potencial de nuevos términos explicativos que mejoran el modelo por casualidad: es decir, la fórmula de ajuste en sí misma proporciona una "contracción". Pero la fórmula de ajuste produce una contracción artificial.

Un estimador de contracción es un estimador que, ya sea explícita o implícitamente, incorpora los efectos de la contracción. En términos generales, esto significa que una estimación ingenua o bruta se mejora al combinarla con otra información. El término se relaciona con la noción de que la estimación mejorada se acerca más al valor proporcionado por la "otra información" que la estimación bruta. En este sentido, la contracción se utiliza para regularizar problemas de inferencia mal planteados .

La contracción está implícita en la inferencia bayesiana y en la inferencia de verosimilitud penalizada, y explícita en la inferencia de tipo James-Stein . Por el contrario, los tipos simples de procedimientos de estimación de máxima verosimilitud y mínimos cuadrados no incluyen efectos de contracción, aunque pueden utilizarse dentro de esquemas de estimación de contracción.

Descripción

Muchos estimadores estándar pueden mejorarse , en términos de error cuadrático medio (EMM), al reducirlos hacia cero (o cualquier otro valor constante finito). En otras palabras, la mejora en la estimación a partir de la reducción correspondiente en la amplitud del intervalo de confianza puede compensar el empeoramiento de la estimación introducido al sesgar la estimación hacia cero (véase el equilibrio entre sesgo y varianza ).

Supongamos que el valor esperado de la estimación bruta no es cero y consideremos otros estimadores obtenidos al multiplicar la estimación bruta por un parámetro determinado. Se puede especificar un valor para este parámetro de modo de minimizar el MSE de la nueva estimación. Para este valor del parámetro, la nueva estimación tendrá un MSE menor que la bruta. Por lo tanto, se ha mejorado. Un efecto en este caso puede ser convertir una estimación bruta imparcial en una sesgada mejorada.

Ejemplos

Un ejemplo bien conocido surge en la estimación de la varianza de la población por la varianza de la muestra . Para un tamaño de muestra de n , el uso de un divisor n  − 1 en la fórmula habitual ( corrección de Bessel ) proporciona un estimador insesgado, mientras que otros divisores tienen un MSE menor, a expensas del sesgo. La elección óptima del divisor (ponderación de la contracción) depende del exceso de curtosis de la población, como se analiza en error cuadrático medio: varianza , pero siempre se puede hacer algo mejor (en términos de MSE) que el estimador insesgado; para la distribución normal, un divisor de n  + 1 proporciona uno que tiene el error cuadrático medio mínimo.

Métodos

Los tipos de regresión que involucran estimaciones de contracción incluyen la regresión de cresta , donde los coeficientes derivados de una regresión de mínimos cuadrados regular se acercan a cero al multiplicarlos por una constante (el factor de contracción ), y la regresión lasso , donde los coeficientes se acercan a cero al sumar o restar una constante.

Copas [2] describió el uso de estimadores de contracción en el contexto del análisis de regresión, donde puede haber una gran cantidad de variables explicativas. En este caso, los valores de los coeficientes de regresión estimados se reducen hacia cero con el efecto de reducir el error cuadrático medio de los valores predichos a partir del modelo cuando se aplican a datos nuevos. En un artículo posterior de Copas [3] se aplica la contracción en un contexto donde el problema consiste en predecir una respuesta binaria sobre la base de variables explicativas binarias.

Hausser y Strimmer "desarrollan un estimador de contracción de tipo James-Stein, lo que da como resultado un procedimiento que es altamente eficiente tanto estadística como computacionalmente. A pesar de su simplicidad, ... supera a otros ocho procedimientos de estimación de entropía en una amplia gama de escenarios de muestreo y modelos de generación de datos, incluso en casos de submuestreo severo. ... El método es completamente analítico y, por lo tanto, computacionalmente económico. Además, ... el procedimiento proporciona simultáneamente estimaciones de la entropía y de las frecuencias de celda. ... Los estimadores de contracción propuestos de entropía e información mutua, así como todos los demás estimadores de entropía investigados, se han implementado en R (R Development Core Team, 2008). Un paquete R correspondiente "entropy" se depositó en el archivo R CRAN y es accesible en la URL https://cran.r-project.org/web/packages/entropy/ bajo la Licencia Pública General de GNU". [4]

Véase también

Software estadístico

Referencias

  1. ^ Everitt BS (2002) Diccionario de Estadística de Cambridge (2.ª edición), CUP. ISBN 0-521-81099-X 
  2. ^ Copas, JB (1983). "Regresión, predicción y contracción". Revista de la Royal Statistical Society, Serie B . 45 (3): 311–354. JSTOR  2345402. MR  0737642.
  3. ^ Copas, JB (1993). "La reducción de los métodos de puntuación". Revista de la Royal Statistical Society, Serie C . 42 (2): 315–331. JSTOR  2986235.
  4. ^ Hausser, Jean; Strimmer (2009). "Inferencia de entropía y estimador de James-Stein, con aplicación a redes de asociación de genes no lineales" (PDF) . Journal of Machine Learning Research . 10 : 1469–1484 . Consultado el 23 de marzo de 2013 .