Aunque el término estadística de buen comportamiento a menudo parece usarse en la literatura científica de manera similar a como se usa en matemáticas (es decir, para significar "no patológico " [1] [2] ), también se le puede asignar un significado matemático preciso, y de más de una manera. En el primer caso, el significado de este término variará de un contexto a otro. En el segundo caso, las condiciones matemáticas se pueden usar para derivar clases de combinaciones de distribuciones con estadísticas que se comportan bien en cada sentido.
Primera definición: La varianza de un estimador estadístico que funciona bien es finita y una condición para su media es que sea diferenciable en el parámetro que se está estimando. [3]
Segunda definición: La estadística es monótona, bien definida y localmente suficiente. [4]
Condiciones para que una estadística se comporte bien: Primera definición
De manera más formal, las condiciones se pueden expresar de esta manera. es una estadística para que es una función de la muestra, . Para que se comporte bien, requerimos:
: Condición 1
diferenciable en , y la derivada satisface:
: Condición 2
Condiciones para que una estadística se comporte bien: segunda definición
Para derivar la ley de distribución del parámetro T , compatible con , el estadístico debe cumplir con algunas propiedades técnicas. Es decir, se dice que un estadístico s se comporta bien si satisface las tres afirmaciones siguientes:
- monotonía . Existe una relación uniformemente monótona entre s y ? para cualquier semilla fija , de modo que se tiene una solución única de (1);
- bien definido . En cada s observado la estadística está bien definida para cada valor de ?, es decir, cualquier especificación de muestra tal que tenga una densidad de probabilidad diferente de 0 – para evitar considerar una aplicación no sobreyectiva de a , es decir, asociar vía a una muestra un ? que no podría generar la muestra en sí;
- suficiencia local . constituye una muestra T verdadera para el s observado , de modo que se puede atribuir la misma distribución de probabilidad a cada valor muestreado. Ahora, es una solución de (1) con la semilla . Dado que las semillas están distribuidas de manera uniforme, la única salvedad proviene de su independencia o, a la inversa, de su dependencia de ? en sí. Esta comprobación se puede restringir a las semillas involucradas por s , es decir, este inconveniente se puede evitar al requerir que la distribución de sea independiente de ?. Una forma fácil de comprobar esta propiedad es mapear las especificaciones de semilla en las especificaciones de s. El mapeo, por supuesto, depende de ?, pero la distribución de no dependerá de ?, si se cumple la independencia de semilla anterior, una condición que parece una suficiencia local del estadístico S .
El resto del presente artículo se centra principalmente en el contexto de los procedimientos de minería de datos aplicados a la inferencia estadística y, en particular, al grupo de procedimientos computacionalmente intensivos que se han denominado inferencia algorítmica .
Inferencia algorítmica
En la inferencia algorítmica , la propiedad de una estadística que es de mayor relevancia es el paso pivotante que permite transferir consideraciones de probabilidad de la distribución de la muestra a la distribución de los parámetros que representan la distribución de la población, de tal manera que la conclusión de este paso de inferencia estadística sea compatible con la muestra realmente observada.
Por defecto, las letras mayúsculas (como U , X ) denotarán variables aleatorias y las minúsculas ( u , x ) sus correspondientes realizaciones y con letras góticas (como ) el dominio donde la variable toma especificaciones. Frente a una muestra , dado un mecanismo de muestreo , con escalar, para la variable aleatoria X , tenemos
El mecanismo de muestreo , del estadístico s , en función de ? con especificaciones en , tiene una función explicativa definida por la ecuación maestra:
¿Para semillas y parámetros adecuados ?
Ejemplo
Por ejemplo, tanto para la distribución de Bernoulli con parámetro p como para la distribución exponencial con parámetro ?, el estadístico se comporta bien. La satisfacción de las tres propiedades anteriores es sencilla cuando se observan ambas funciones explicativas: si , 0 en caso contrario en el caso de la variable aleatoria de Bernoulli, y para la variable aleatoria exponencial, lo que da lugar al estadístico
y
Viceversa , en el caso de que X siga una distribución uniforme continua en las mismas estadísticas no se cumple el segundo requisito. Por ejemplo, la muestra observada da . Pero la función explicativa de esta X es . Por lo tanto, una ecuación maestra produciría con una muestra U y una solución . Esto entra en conflicto con la muestra observada ya que el primer valor observado debería resultar mayor que el extremo derecho del rango de X. La estadística se comporta bien en este caso.
De manera análoga, para una variable aleatoria X que sigue la distribución de Pareto con parámetros K y A (ver el ejemplo de Pareto para más detalles de este caso),
y
se pueden utilizar como estadísticas conjuntas para estos parámetros.
Como afirmación general válida en condiciones débiles, las estadísticas suficientes se comportan bien con respecto a los parámetros relacionados. La siguiente tabla muestra estadísticas suficientes/de buen comportamiento para los parámetros de algunas de las distribuciones de probabilidad más utilizadas.
Referencias
- ^ Dawn Iacobucci. «Análisis de mediación y variables categóricas: la última frontera» (PDF) . Consultado el 7 de febrero de 2017 .
- ^ John DiNardo; Jason Winfree. "La ley del genio y los jonrones refutada" (PDF) . Consultado el 7 de febrero de 2017 .
- ^ A DasGupta. "(sin título)" (PDF) . Consultado el 7 de febrero de 2017 .
- ^ Apolloni, B; Bassis, S.; Malchiodi, D.; Witold, P. (2008). El rompecabezas de la computación granular . Estudios en inteligencia computacional. Vol. 138. Berlín: Springer.
- Bahadur, RR ; Lehmann, EL (1955). "Dos comentarios sobre suficiencia y funciones de decisión estadística". Anales de estadística matemática . 26 : 139–142. doi : 10.1214/aoms/1177728604 .