Estadística auxiliar

Una estadística auxiliar es una medida de una muestra cuya distribución (o cuya fmp o pdf ) no depende de los parámetros del modelo. ^[1]^[2]^[3] Una estadística auxiliar es una cantidad fundamental que también es una estadística . Se pueden utilizar estadísticas auxiliares para construir intervalos de predicción . También se utilizan en relación con el teorema de Basu para demostrar la independencia entre estadísticas. ^[4]

Este concepto fue introducido por primera vez por Ronald Fisher en la década de 1920, ^[5] pero su definición formal no fue proporcionada hasta 1964 por Debabrata Basu . ^[6]^[7]

Ejemplos

Supongamos que X ₁ , ..., X _n son independientes y están distribuidos idénticamente , y están distribuidos normalmente con un valor esperado μ desconocido y una varianza conocida 1. Sea

{\overline {X}}_{n}={\frac {X_{1}+\,\cdots \,+X_{n}}{n}}

ser la media muestral .

Las siguientes medidas estadísticas de dispersión de la muestra.

Rango : máximo ( X ₁ , ..., X _n ) - mínimo ( X ₁ , ..., X _n )
Rango intercuartil : Q ₃ − Q ₁
Variación de la muestra :

{\hat {\sigma }}^{2}:=\,{\frac {\sum \left(X_{i}-{\overline {X}}\right)^{2}}{n}}

son todas estadísticas auxiliares , porque sus distribuciones muestrales no cambian a medida que cambia μ . Computacionalmente, esto se debe a que en las fórmulas, los términos μ se cancelan: agregar un número constante a una distribución (y a todas las muestras) cambia su máximo y mínimo de muestra en la misma cantidad, por lo que no cambia su diferencia, y lo mismo ocurre con otros: estas medidas de dispersión no dependen de la ubicación.

Por el contrario, dadas variables normales iid con media conocida 1 y varianza desconocida σ ² , la media muestral no es una estadística auxiliar de la varianza, ya que la distribución muestral de la media muestral es N (1, σ ² / n ), que sí depende en σ ² – esta medida de ubicación (específicamente, su error estándar ) depende de la dispersión. ^[8] ${\overline {X}}$

En familias a escala de ubicación

En una familia de distribuciones de ubicación , es una estadística auxiliar. $(X_{1}-X_{n},X_{2}-X_{n},\dots ,X_{n-1}-X_{n})$

En una familia de escalas de distribuciones, es una estadística auxiliar. $({\frac {X_{1}}{X_{n}}},{\frac {X_{2}}{X_{n}}},\dots ,{\frac {X_{n-1}}{X_{n}}})$

En una familia de distribuciones a escala de ubicación , , donde es la varianza muestral, es una estadística auxiliar. ^[3]^[9] $({\frac {X_{1}-X_{n}}{S}},{\frac {X_{2}-X_{n}}{S}},\dots ,{\frac {X_{n-1}-X_{n}}{S}})$ $S^{2}$

En recuperación de información

Resulta que, si es una estadística insuficiente y auxiliar, a veces se puede recuperar toda la información sobre el parámetro desconocido contenida en los datos completos informando mientras se condiciona al valor observado de . Esto se conoce como inferencia condicional . ^[3] $T_{1}$ $T_{2}$ $T_{1}$ $T_{2}$

Por ejemplo, supongamos que sigue la distribución donde se desconoce. Tenga en cuenta que, aunque no es suficiente para (ya que su información de Fisher es 1, mientras que la información de Fisher de la estadística completa es 2), al informar adicionalmente la estadística auxiliar , se obtiene una distribución conjunta con la información de Fisher 2. ^[3] $X_{1},X_{2}$ $N(\theta ,1)$ $\theta$ $X_{1}$ $\theta$ ${\overline {X}}$ $X_{1}-X_{2}$

Complemento auxiliar

Dado un estadístico T que no es suficiente , un complemento auxiliar es un estadístico U que es auxiliar y tal que ( T , U ) es suficiente. ^[2] Intuitivamente, un complemento auxiliar "agrega la información que falta" (sin duplicar ninguna).

La estadística es particularmente útil si se toma a T como un estimador de máxima verosimilitud , lo que en general no será suficiente; entonces se puede pedir un complemento auxiliar. En este caso, Fisher sostiene que se debe condicionar un complemento auxiliar para determinar el contenido de la información: se debe considerar que el contenido de información de Fisher de T no es el marginal de T , sino la distribución condicional de T , dada U : ¿cuánta información ¿ Agregar ? Esto no es posible en general, ya que no es necesario que exista un complemento auxiliar y, si existe, no es necesario que sea único ni existe un complemento auxiliar máximo.

Ejemplo

En béisbol , supongamos que un cazatalentos observa a un bateador en N turnos al bate. Supongamos (de manera poco realista) que el número N se elige mediante algún proceso aleatorio que es independiente de la habilidad del bateador; digamos que se lanza una moneda después de cada turno al bate y el resultado determina si el explorador se quedará para observar el siguiente turno al bate del bateador. Los datos eventuales son el número N de turnos al bate y el número X de hits: los datos ( X , N ) son una estadística suficiente. El promedio de bateo observado X / N no transmite toda la información disponible en los datos porque no informa el número N de turnos al bate (por ejemplo, un promedio de bateo de 0,400, que es muy alto , basado en sólo cinco turnos). bates no inspira tanta confianza en la habilidad del jugador como un promedio de 0.400 basado en 100 turnos al bate). El número N de turnos al bate es una estadística auxiliar porque

Es parte de los datos observables (es una estadística ), y
Su distribución de probabilidad no depende de la habilidad del bateador, ya que fue elegida mediante un proceso aleatorio independiente de la habilidad del bateador.

Esta estadística auxiliar es un complemento auxiliar al promedio de bateo observado X / N , es decir, el promedio de bateo X / N no es una estadística suficiente , ya que transmite menos que toda la información relevante en los datos, pero está conjuntada con N , se vuelve suficiente.

Ver también

Notas

^ Lehmann, EL; Scholz, FW (1992). "Ancilaridad" (PDF) . Serie de monografías y notas de conferencias . Apuntes de conferencias del Instituto de Estadística Matemática - Serie de monografías. 17 : 32–51. doi : 10.1214/lnms/1215458837. ISBN 0-940600-24-2. ISSN 0749-2170. JSTOR 4355624.
^ ab Ghosh, M.; Reid, N.; Fraser, DAS (2010). "Estadísticas auxiliares: una revisión". Estadística Sínica . 20 (4): 1309-1332. ISSN 1017-0405. JSTOR 24309506.
^ abcd Mukhopadhyay, Nitis (2000). Probabilidad e Inferencia Estadística . Estados Unidos de América: Marcel Dekker, Inc. págs. 309–318. ISBN 0-8247-0379-0.
^ Dawid, Philip (2011), DasGupta, Anirban (ed.), "Basu on Ancillarity", Obras seleccionadas de Debabrata Basu , Nueva York, NY: Springer, págs. 5–8, doi : 10.1007/978-1-4419 -5825-9_2 , ISBN 978-1-4419-5825-9
^ Pescador, RA (1925). "Teoría de la estimación estadística". Actas matemáticas de la Sociedad Filosófica de Cambridge . 22 (5): 700–725. Código Bib : 1925PCPS...22..700F. doi :10.1017/S0305004100009580. hdl : 2440/15186 . ISSN 0305-0041.
^ Basu, D. (1964). "Recuperación de Información Auxiliar". Sankhyā: Revista india de estadística, serie A (1961-2002) . 26 (1): 3–16. ISSN 0581-572X. JSTOR 25049300.
^ Stigler, Stephen M. (2001), Historia auxiliar, Notas de conferencias del Instituto de Estadística Matemática - Serie de monografías, Beachwood, OH: Instituto de Estadística Matemática, págs. 555–567, doi : 10.1214/lnms/1215090089 , ISBN 978-0-940600-50-8, recuperado el 24 de abril de 2023
^ Buehler, Robert J. (1982). "Algunas estadísticas auxiliares y sus propiedades". Revista de la Asociación Estadounidense de Estadística . 77 (379): 581–589. doi :10.1080/01621459.1982.10477850. hdl : 11299/199392 . ISSN 0162-1459.
^ "Estadísticas auxiliares" (PDF) .