Estadística de buen comportamiento

Aunque el término estadística de buen comportamiento a menudo parece usarse en la literatura científica de la misma manera que se usa en matemáticas (es decir, en el sentido de "no patológico " ^[1]^[2] ), también puede usarse Se le asigna un significado matemático preciso, y en más de una manera. En el primer caso, el significado de este término variará de un contexto a otro. En el último caso, las condiciones matemáticas se pueden utilizar para derivar clases de combinaciones de distribuciones con estadísticas que se comporten bien en todos los sentidos.

Primera definición: La varianza de un estimador estadístico de buen comportamiento es finita y una condición de su media es que sea diferenciable en el parámetro que se estima. ^[3]

Segunda definición: la estadística es monótona, bien definida y localmente suficiente. ^[4]

Condiciones para una estadística de buen comportamiento: primera definición

Más formalmente las condiciones pueden expresarse de esta manera. es una estadística que es función de la muestra, . Para tener un buen comportamiento requerimos: ${\estilo de texto T}$ ${\estilo de texto \theta }$ ${\textstyle {X}_{1},...,{X}_{n}}$ ${\estilo de texto T}$

${\textstyle {Var}_{\theta }\left[T\left({X}_{1},...,{X}_{n}\right)\right]<\infty \quad \forall \quad \theta \en \Theta }$ : Condición 1

${\textstyle {E}_{\theta}\left(T\right)}$ diferenciable en , y la derivada satisface: ${\textstyle \theta \quad \forall \quad \theta \in \Theta }$

${\textstyle {\frac {d}{d\theta }}\int {T\left({X}_{1},...,{X}_{n}\right)}\prod _{i =1}^{n}{f\left({x}_{i}|\theta \right)}d{x}_{1}....d{x}_{n}=\int {T \left({X}_{1},...,{X}_{n}\right)\left[{\frac {\partial }{\partial \theta }}\prod _{i=1} ^{n}{f\left({x}_{i}|\theta \right)}\right]}d{x}_{1}....d{x}_{n}}$ : Condición 2

Condiciones para una estadística de buen comportamiento: segunda definición

Para derivar la ley de distribución del parámetro T , compatible con , el estadístico debe obedecer a algunas propiedades técnicas. Es decir, se dice que un estadístico s se comporta bien si satisface las tres afirmaciones siguientes: ${\boldsymbol {x}}$

monotonicidad . ¿Existe una relación uniformemente monótona entre s y ? para cualquier semilla fija – para tener una solución única de (1); $\{z_{1},\ldots,z_{m}\}$
bien definido . En cada s observado , el estadístico está bien definido para cada valor de ?, es decir, cualquier especificación de muestra que tenga una densidad de probabilidad diferente de 0, para evitar considerar un mapeo no sobreyectivo de a , es decir, asociar vía a una muestra a? que no pudo generar la muestra en sí; $\{x_{1},\ldots ,x_{m}\}\in {\mathfrak {X}}^{m}$ $\rho (x_{1},\ldots,x_{m})=s$ ${\mathfrak {X}}^{m}$ ${\mathfrak {S}}$ $s$ $\{x_{1},\ldots,x_{m}\}$
suficiencia local . constituye una muestra T verdadera para los s observados , de modo que se puede atribuir la misma distribución de probabilidad a cada valor muestreado. Ahora, es una solución de (1) con la semilla . Dado que las semillas están distribuidas equitativamente, la única salvedad proviene de su independencia o, a la inversa, de su dependencia de ? sí mismo. Esta verificación puede restringirse a las semillas involucradas en s , es decir, este inconveniente puede evitarse exigiendo que la distribución de sea independiente de ?. Una manera fácil de verificar esta propiedad es mapear las especificaciones de las semillas en especificaciones. El mapeo, por supuesto, depende de ?, pero la distribución de no dependerá de ?, si se cumple la independencia inicial anterior, una condición que parece una suficiencia local del estadístico S. $\{{\breve {\theta }}_{1},\ldots ,{\breve {\theta }}_{N}\}$ ${\breve {\theta }}_{j}=h^{-1}(s,{\breve {z}}_{1}^{j},\ldots,{\breve {z} }_ {m}^{j})$ $\{{\breve {z}}_{1}^{j},\ldots ,{\breve {z}}_{m}^{j}\}$ $\{Z_{1},\ldots ,Z_{m}|S=s\}$ $x_{i}$ $\{X_{1},\ldots ,X_{m}|S=s\}$

El resto del presente artículo se ocupa principalmente del contexto de los procedimientos de minería de datos aplicados a la inferencia estadística y, en particular, al grupo de procedimientos computacionalmente intensivos que se han denominado inferencia algorítmica .

inferencia algorítmica

En la inferencia algorítmica , la propiedad de una estadística que es más relevante es el paso pivotante que permite la transferencia de consideraciones de probabilidad de la distribución de la muestra a la distribución de los parámetros que representan la distribución de la población de tal manera que la conclusión de esta estadística El paso de inferencia es compatible con la muestra realmente observada.

Por defecto, las letras mayúsculas (como U , X ) denotarán variables aleatorias y las minúsculas ( u , x ) sus correspondientes realizaciones y con letras góticas (como ) el dominio donde la variable toma especificaciones. Frente a una muestra , dado un mecanismo de muestreo , con escalar, para la variable aleatoria X , tenemos ${\mathfrak {U}},{\mathfrak {X}}$ ${\boldsymbol {x}}=\{x_{1},\ldots,x_{m}\}$ $(g_{\theta },Z)$ $\theta$

{\boldsymbol {x}}=\{g_{\theta }(z_{1}),\ldots ,g_{\theta }(z_{m})\}.

¿El mecanismo de muestreo , del estadístico s , en función? de con especificaciones en , tiene una función explicativa definida por la ecuación maestra: $(g_{\theta },{\boldsymbol {z}})$ $\{x_{1},\ldots ,x_{m}\}$ ${\mathfrak {S}}$

s=\rho (x_{1},\ldots ,x_{m})=\rho (g_{\theta }(z_{1}),\ldots ,g_{\theta }(z_{m}))=h(\theta ,z_{1},\ldots ,z_{m}),\qquad \qquad \qquad (1)

¿Para semillas y parámetros adecuados ? ${\boldsymbol {z}}=\{z_{1},\ldots ,z_{m}\}$

Ejemplo

Por ejemplo, tanto para la distribución de Bernoulli con parámetro p como para la distribución exponencial con parámetro ? la estadística se porta bien. La satisfacción de las tres propiedades anteriores es sencilla cuando se analizan ambas funciones explicativas: si , 0 en caso contrario en el caso de la variable aleatoria de Bernoulli y para la variable aleatoria exponencial, dando lugar a estadísticas. $\sum _{i=1}^{m}x_{i}$ $g_{p}(u)=1$ $u\leq p$ $g_{\lambda }(u)=-\log u/\lambda$

s_{p}=\sum _{i=1}^{m}I_{[0,p]}(u_{i})

s_{\lambda }=-{\frac {1}{\lambda }}\sum _{i=1}^{m}\log u_{i}.

Viceversa , en el caso de X seguir una distribución uniforme continua sobre las mismas estadísticas no cumple el segundo requisito. Por ejemplo, la muestra observada da . Pero la función explicativa de esta X es . Por lo tanto , se produciría una ecuación maestra con una muestra U y una solución . Esto entra en conflicto con la muestra observada ya que el primer valor observado debería resultar mayor que el extremo derecho del rango X. La estadística se comporta bien en este caso. $[0,A]$ $\{c,c/2,c/3\}$ $s'_{A}=11/6c$ $g_{a}(u)=ua$ $s_{A}=\sum _{i=1}^{m}u_{i}a$ $\{0.8,0.8,0.8\}$ ${\breve {a}}=0.76c$ $s_{A}=\max\{x_{1},\ldots ,x_{m}\}$

De manera análoga, para una variable aleatoria X que sigue la distribución de Pareto con parámetros K y A (consulte el ejemplo de Pareto para obtener más detalles de este caso),

s_{1}=\sum _{i=1}^{m}\log x_{i}

s_{2}=\min _{i=1,\ldots ,m}\{x_{i}\}

pueden utilizarse como estadísticas conjuntas para estos parámetros.

Como afirmación general que se cumple en condiciones débiles, hay suficientes estadísticas que se comportan bien con respecto a los parámetros relacionados. La siguiente tabla proporciona estadísticas suficientes/de buen comportamiento para los parámetros de algunas de las distribuciones de probabilidad más utilizadas.

Referencias

^ Amanecer Iacobucci. «Análisis de mediación y variables categóricas: La última frontera» (PDF) . Consultado el 7 de febrero de 2017 .
^ John DiNardo; Jason Winfree. «La ley del genio y los jonrones refutada» (PDF) . Consultado el 7 de febrero de 2017 .
^ Un DasGupta. "(sin título)" (PDF) . Consultado el 7 de febrero de 2017 . {{cite web}}: La cita utiliza un título genérico ( ayuda )
^ Apoloni, B; Bassis, S.; Malchiodi, D.; Witold, P. (2008). El rompecabezas de la computación granular . Estudios en Inteligencia Computacional. vol. 138. Berlín: Springer.

Bahadur, RR ; Lehmann, EL (1955). "Dos comentarios sobre funciones de suficiencia y decisión estadística". Anales de estadística matemática . 26 : 139-142. doi : 10.1214/aoms/1177728604 .