stringtranslate.com

Distribución nula

En las pruebas de hipótesis estadísticas , la distribución nula es la distribución de probabilidad de la estadística de prueba cuando la hipótesis nula es verdadera. [1] Por ejemplo, en una prueba F , la distribución nula es una distribución F. [2] La distribución nula es una herramienta que los científicos suelen utilizar al realizar experimentos. La distribución nula es la distribución de dos conjuntos de datos bajo una hipótesis nula. Si los resultados de los dos conjuntos de datos no están fuera de los parámetros de los resultados esperados, entonces se dice que la hipótesis nula es verdadera.

Distribución nula y alternativa

Ejemplos de aplicación

La hipótesis nula suele ser parte de un experimento. La hipótesis nula intenta demostrar que, entre dos conjuntos de datos, no hay diferencia estadística entre los resultados de hacer una cosa y los de hacer otra. Por ejemplo, un científico podría intentar demostrar que las personas que caminan dos millas al día tienen corazones más sanos que las personas que caminan menos de dos millas al día. El científico utilizaría la hipótesis nula para comparar la salud de los corazones de las personas que caminan dos millas al día con la salud de los corazones de las personas que caminan menos de dos millas al día. Si no hubiera diferencia entre sus frecuencias cardíacas, entonces el científico podría decir que las estadísticas de la prueba seguirían la distribución nula. Entonces, los científicos podrían determinar que, si hubiera una diferencia significativa, eso significa que la prueba sigue la distribución alternativa.

Obtención de la distribución nula

En el procedimiento de prueba de hipótesis , uno necesita formar la distribución conjunta de las estadísticas de prueba para realizar la prueba y controlar los errores de tipo I. Sin embargo, la distribución verdadera es a menudo desconocida y se debe utilizar una distribución nula adecuada para representar los datos. Por ejemplo, las pruebas de medias de una muestra y dos muestras pueden utilizar las estadísticas t que tienen una distribución nula gaussiana, mientras que las estadísticas F , que prueban k grupos de medias de población, que tienen una distribución nula cuadrática gaussiana, forman la distribución nula. [3] La distribución nula se define como las distribuciones asintóticas de las estadísticas de prueba transformadas por cuantiles nulos, basadas en la distribución nula marginal. [4] Durante la práctica, las estadísticas de prueba de la distribución nula son a menudo desconocidas, ya que se basan en la distribución generadora de datos desconocidos. Los procedimientos de remuestreo, como el bootstrap no paramétrico o basado en modelos , pueden proporcionar estimadores consistentes para las distribuciones nulas. La elección incorrecta de la distribución nula plantea una influencia significativa en el error de tipo I y las propiedades de potencia en el proceso de prueba. Otro enfoque para obtener la distribución nula de las estadísticas de prueba es utilizar los datos de la estimación de la distribución nula generadora.

Distribución nula con gran tamaño de muestra

La distribución nula juega un papel crucial en las pruebas a gran escala. Un tamaño de muestra grande nos permite implementar una distribución nula empírica más realista. Se puede generar la nula empírica utilizando un algoritmo de ajuste MLE . [5] Bajo un marco bayesiano , los estudios a gran escala permiten que la distribución nula se coloque en un contexto probabilístico con sus contrapartes no nulas. Cuando el tamaño de la muestra n es grande, como más de 10,000, las nulas empíricas utilizan los propios datos de un estudio para estimar una distribución nula apropiada. El supuesto importante es que debido a la gran proporción de casos nulos (> 0.9), los datos pueden mostrar la distribución nula en sí. La nula teórica puede fallar en algunos casos, lo que no es completamente incorrecto pero necesita un ajuste en consecuencia. En los conjuntos de datos a gran escala, es fácil encontrar las desviaciones de los datos del marco matemático ideal, por ejemplo, muestras independientes e idénticamente distribuidas (iid). Además, la correlación entre unidades de muestreo y covariables no observadas puede conducir a una distribución nula teórica incorrecta. [6] Los métodos de permutación se utilizan con frecuencia en pruebas múltiples para obtener una distribución nula empírica generada a partir de los datos. Los métodos nulos empíricos se introdujeron con el algoritmo de coincidencia central en el artículo de Efron . [7]

Se deben tener en cuenta varios puntos al utilizar el método de permutación. Los métodos de permutación no son adecuados para unidades de muestreo correlacionadas, ya que el proceso de muestreo de permutación implica independencia y requiere suposiciones de iid. Además, la literatura mostró que la distribución de permutación converge a N(0,1) rápidamente a medida que n se vuelve grande. En algunos casos, las técnicas de permutación y los métodos empíricos se pueden combinar utilizando la permutación nula reemplazando N(0,1) en el algoritmo empírico. [8]

Referencias

  1. ^ Staley, Kent W. Introducción a la filosofía de la ciencia . 2014. pág. 142. ISBN 9780521112499.
  2. ^ Jackson, Sally Ann . Factores aleatorios en ANOVA . 1994. pág. 38. ISBN. 9780803950900.
  3. ^ Dudoit, S. y MJ Van Der Laan . "Múltiples procedimientos de prueba con aplicaciones a la genómica. 2008".
  4. ^ Van Der Laan, Mark J. y Alan E. Hubbard. "Distribución nula basada en función cuantil en pruebas múltiples basadas en remuestreo". Aplicaciones estadísticas en genética y biología molecular 5.1 (2006): 1199.
  5. ^ Efron, Bradley y Trevor Hastie . Inferencia estadística en la era informática. Cambridge University Press, 2016.
  6. ^ Efron, Bradley . Inferencia a gran escala: métodos bayesianos empíricos para estimación, prueba y predicción. Cambridge University Press, 2012.
  7. ^ Efron, Bradley . "Pruebas de hipótesis simultáneas a gran escala: la elección de una hipótesis nula". Journal of the American Statistical Association 99.465 (2004): 96-104.
  8. ^ Efron, Bradley . Inferencia a gran escala: métodos bayesianos empíricos para estimación, prueba y predicción. Cambridge University Press, 2012.