stringtranslate.com

Distribución nula

En la prueba de hipótesis estadística , la distribución nula es la distribución de probabilidad del estadístico de prueba cuando la hipótesis nula es verdadera. [1] Por ejemplo, en una prueba F , la distribución nula es una distribución F. [2] La distribución nula es una herramienta que los científicos suelen utilizar al realizar experimentos. La distribución nula es la distribución de dos conjuntos de datos bajo una hipótesis nula. Si los resultados de los dos conjuntos de datos no están fuera de los parámetros de los resultados esperados, entonces se dice que la hipótesis nula es verdadera.

Distribución nula y alternativa

Ejemplos de aplicación

La hipótesis nula suele ser parte de un experimento. La hipótesis nula intenta mostrar que entre dos conjuntos de datos, no hay diferencia estadística entre los resultados de hacer una cosa y los resultados de hacer otra diferente. Por ejemplo, un científico podría estar intentando demostrar que las personas que caminan dos millas al día tienen corazones más sanos que las personas que caminan menos de dos millas al día. El científico usaría la hipótesis nula para comparar la salud de los corazones de las personas que caminaban dos millas por día con la salud de los corazones de las personas que caminaban menos de dos millas por día. Si no hubiera diferencia entre sus frecuencias cardíacas, entonces el científico podría decir que las estadísticas de la prueba seguirían la distribución nula. Luego, los científicos podrían determinar que si había una diferencia significativa, eso significa que la prueba sigue la distribución alternativa.

Obteniendo la distribución nula

En el procedimiento de prueba de hipótesis , es necesario formar la distribución conjunta de estadísticas de prueba para realizar la prueba y controlar los errores de tipo I. Sin embargo, a menudo se desconoce la distribución verdadera y se debe utilizar una distribución nula adecuada para representar los datos. Por ejemplo, las pruebas de medias de una muestra y dos muestras pueden usar estadísticas t que tienen una distribución nula gaussiana, mientras que las estadísticas F , que prueban k grupos de medias poblacionales, que tienen una distribución nula de forma cuadrática gaussiana. [3] La distribución nula se define como las distribuciones asintóticas de estadísticas de prueba transformadas por cuantiles nulos, basadas en la distribución nula marginal. [4] Durante la práctica, las estadísticas de prueba de la distribución nula a menudo se desconocen, ya que se basan en datos desconocidos que generan la distribución. Los procedimientos de remuestreo, como el bootstrap no paramétrico o basado en modelos , pueden proporcionar estimadores consistentes para las distribuciones nulas. La elección inadecuada de la distribución nula plantea una influencia significativa en el error de tipo I y las propiedades de potencia en el proceso de prueba. Otro enfoque para obtener la distribución nula de las estadísticas de prueba es utilizar los datos de generación de estimación de distribución nula.

Distribución nula con tamaño de muestra grande.

La distribución nula juega un papel crucial en las pruebas a gran escala. Un tamaño de muestra grande nos permite implementar una distribución nula empírica más realista. Se puede generar el nulo empírico utilizando un algoritmo de ajuste MLE . [5] Bajo un marco bayesiano , los estudios a gran escala permiten poner la distribución nula en un contexto probabilístico con sus contrapartes no nulas. Cuando el tamaño de la muestra n es grande, como más de 10.000, los nulos empíricos utilizan los datos propios de un estudio para estimar una distribución nula apropiada. La suposición importante es que debido a la gran proporción de casos nulos (> 0,9), los datos pueden mostrar la distribución nula en sí. La nula teórica puede fallar en algunos casos, lo cual no es del todo erróneo pero necesita ajustes en consecuencia. En los conjuntos de datos a gran escala, es fácil encontrar las desviaciones de los datos del marco matemático ideal, por ejemplo, muestras independientes e idénticamente distribuidas (iid). Además, la correlación entre unidades de muestreo y covariables no observadas puede conducir a una distribución nula teórica errónea. [6] Los métodos de permutación se utilizan con frecuencia en pruebas múltiples para obtener una distribución nula empírica generada a partir de datos. Los métodos nulos empíricos se introdujeron con el algoritmo de coincidencia central en el artículo de Efron . [7]

Se deben considerar varios puntos utilizando el método de permutación. Los métodos de permutación no son adecuados para unidades de muestreo correlacionadas, ya que el proceso de muestreo de permutación implica independencia y requiere supuestos iid. Además, la literatura demostró que la distribución de permutación converge a N(0,1) rápidamente a medida que n se hace grande. En algunos casos, las técnicas de permutación y los métodos empíricos se pueden combinar utilizando permutación nula reemplazando N(0,1) en el algoritmo empírico. [8]

Referencias

  1. ^ Staley, Kent W. Introducción a la filosofía de la ciencia . 2014. pág. 142.ISBN​ 9780521112499.
  2. ^ Jackson, Sally Ann . Factores aleatorios en ANOVA . 1994. pág. 38.ISBN 9780803950900.
  3. ^ Dudoit, S. y MJ Van Der Laan . "Múltiples procedimientos de prueba con aplicaciones a la genómica. 2008".
  4. ^ Van Der Laan, Mark J. y Alan E. Hubbard. "Distribución nula basada en función cuantil en pruebas múltiples basadas en remuestreo". Aplicaciones estadísticas en genética y biología molecular 5.1 (2006): 1199.
  5. ^ Efron, Bradley y Trevor Hastie . Inferencia estadística de la era de la informática. Prensa de la Universidad de Cambridge, 2016.
  6. ^ Efrón, Bradley . Inferencia a gran escala: métodos empíricos de Bayes para estimación, prueba y predicción. Prensa de la Universidad de Cambridge, 2012.
  7. ^ Efrón, Bradley . "Prueba de hipótesis simultánea a gran escala: la elección de una hipótesis nula". Revista de la Asociación Estadounidense de Estadística 99.465 (2004): 96-104.
  8. ^ Efrón, Bradley . Inferencia a gran escala: métodos empíricos de Bayes para estimación, prueba y predicción. Prensa de la Universidad de Cambridge, 2012.