Estadísticas no paramétricas

La estadística no paramétrica es un tipo de análisis estadístico que hace suposiciones mínimas sobre la distribución subyacente de los datos que se estudian. A menudo, estos modelos son de dimensión infinita, en lugar de dimensión finita, como es el caso de la estadística paramétrica . ^[1] La estadística no paramétrica se puede utilizar para la estadística descriptiva o la inferencia estadística . Las pruebas no paramétricas se utilizan a menudo cuando se violan evidentemente las suposiciones de las pruebas paramétricas. ^[2]

Definiciones

El término "estadística no paramétrica" se ha definido de manera imprecisa, entre otras, de las dos maneras siguientes:

El primer significado de no paramétrico incluye técnicas que no se basan en datos pertenecientes a ninguna familia paramétrica particular de distribuciones de probabilidad. Estas incluyen, entre otras:

Métodos que no tienen distribución y que no se basan en suposiciones de que los datos provienen de una familia paramétrica dada de distribuciones de probabilidad .
Estadísticas definidas como una función sobre una muestra, sin dependencia de un parámetro .

Un ejemplo son las estadísticas de orden , que se basan en la clasificación ordinal de las observaciones.

La discusión que sigue está tomada de la Teoría avanzada de estadísticas de Kendall . ^[3]

Las hipótesis estadísticas se refieren al comportamiento de variables aleatorias observables... Por ejemplo, la hipótesis (a) de que una distribución normal tiene una media y una varianza especificadas es estadística; también lo es la hipótesis (b) de que tiene una media dada pero una varianza no especificada; también lo es la hipótesis (c) de que una distribución es de forma normal con media y varianza no especificadas; finalmente, también lo es la hipótesis (d) de que dos distribuciones continuas no especificadas son idénticas.
Se habrá observado que en los ejemplos (a) y (b) la distribución subyacente a las observaciones se consideró de una forma determinada (la normal) y la hipótesis se refería exclusivamente al valor de uno o ambos parámetros. Por razones obvias, una hipótesis de este tipo se denomina paramétrica .
La hipótesis (c) era de una naturaleza diferente, ya que no se especifican valores de parámetros en el enunciado de la hipótesis; podríamos llamar razonablemente a dicha hipótesis no paramétrica . La hipótesis (d) también es no paramétrica pero, además, ni siquiera especifica la forma subyacente de la distribución y ahora puede denominarse razonablemente libre de distribución . A pesar de estas distinciones, la literatura estadística ahora aplica comúnmente la etiqueta "no paramétrica" a los procedimientos de prueba que acabamos de denominar "libres de distribución", perdiendo así una clasificación útil.

El segundo significado de no paramétrico implica técnicas que no suponen que la estructura de un modelo sea fija. Normalmente, el modelo aumenta de tamaño para adaptarse a la complejidad de los datos. En estas técnicas, se supone que las variables individuales pertenecen a distribuciones paramétricas y también se hacen suposiciones sobre los tipos de asociaciones entre las variables. Estas técnicas incluyen, entre otras:

regresión no paramétrica , que es un modelado mediante el cual la estructura de la relación entre variables se trata de forma no paramétrica, pero donde no obstante puede haber suposiciones paramétricas sobre la distribución de los residuos del modelo.
modelos bayesianos jerárquicos no paramétricos , como los modelos basados en el proceso de Dirichlet , que permiten que el número de variables latentes crezca según sea necesario para ajustarse a los datos, pero donde las variables individuales aún siguen distribuciones paramétricas e incluso el proceso que controla la tasa de crecimiento de las variables latentes sigue una distribución paramétrica.

Aplicaciones y finalidad

Los métodos no paramétricos se utilizan ampliamente para estudiar poblaciones que tienen un orden de clasificación (como las reseñas de películas que reciben de una a cinco "estrellas"). El uso de métodos no paramétricos puede ser necesario cuando los datos tienen una clasificación pero no una interpretación numérica clara , como cuando se evalúan preferencias . En términos de niveles de medición , los métodos no paramétricos dan como resultado datos ordinales .

Como los métodos no paramétricos hacen menos suposiciones, su aplicabilidad es mucho más general que la de los métodos paramétricos correspondientes. En particular, pueden aplicarse en situaciones en las que se sabe menos sobre la aplicación en cuestión. Además, debido a que dependen de menos suposiciones, los métodos no paramétricos son más robustos .

A veces se considera que los métodos no paramétricos son más sencillos de utilizar y más robustos que los métodos paramétricos, incluso cuando los supuestos de los métodos paramétricos están justificados. Esto se debe a su naturaleza más general, que puede hacerlos menos susceptibles a un uso incorrecto y a malentendidos. Los métodos no paramétricos pueden considerarse una opción conservadora, ya que funcionarán incluso cuando no se cumplan sus supuestos, mientras que los métodos paramétricos pueden producir resultados engañosos cuando se violan sus supuestos.

La mayor aplicabilidad y robustez de las pruebas no paramétricas tiene un costo: en los casos en que se cumplen los supuestos de una prueba paramétrica, las pruebas no paramétricas tienen menos poder estadístico . En otras palabras, puede ser necesario un tamaño de muestra mayor para extraer conclusiones con el mismo grado de confianza.

Modelos no paramétricos

Los modelos no paramétricos se diferencian de los modelos paramétricos en que la estructura del modelo no se especifica a priori , sino que se determina a partir de los datos. El término no paramétrico no implica que dichos modelos carezcan por completo de parámetros, sino que la cantidad y la naturaleza de los parámetros son flexibles y no están fijados de antemano.

Un histograma es una estimación no paramétrica simple de una distribución de probabilidad.
La estimación de la densidad del kernel es otro método para estimar una distribución de probabilidad.
Se han desarrollado métodos de regresión no paramétrica y regresión semiparamétrica basados en kernels , splines y wavelets .
El análisis envolvente de datos proporciona coeficientes de eficiencia similares a los obtenidos mediante el análisis multivariado sin ningún supuesto distributivo.
Las KNN clasifican la instancia no vista en función de los puntos K en el conjunto de entrenamiento que están más cerca de ella.
Una máquina de vectores de soporte (con un núcleo gaussiano) es un clasificador no paramétrico de gran margen.
El método de momentos con distribuciones de probabilidad polinomiales.

Métodos

Los métodos estadísticos inferenciales no paramétricos (o sin distribución ) son procedimientos matemáticos para probar hipótesis estadísticas que, a diferencia de las estadísticas paramétricas , no hacen suposiciones sobre las distribuciones de probabilidad de las variables que se evalúan. Las pruebas más utilizadas incluyen {{columns-list|colwidth=50em|

Análisis de similitudes
Prueba de Anderson-Darling : prueba si una muestra se extrae de una distribución dada
Métodos estadísticos bootstrap : estiman la precisión/distribución de muestreo de una estadística
Q de Cochran : prueba si los tratamientos k en diseños de bloques aleatorios con resultados 0/1 tienen efectos idénticos
Kappa de Cohen : mide el acuerdo entre evaluadores para elementos categóricos
Análisis de varianza bidireccional por rangos de Friedman: prueba si los tratamientos k en diseños de bloques aleatorios tienen efectos idénticos
Probabilidad empírica
Kaplan-Meier : estima la función de supervivencia a partir de datos de vida útil, modelando la censura
Tau de Kendall : mide la dependencia estadística entre dos variables
W de Kendall : una medida entre 0 y 1 de acuerdo entre evaluadores.
Prueba de Kolmogorov-Smirnov : prueba si una muestra se extrae de una distribución dada o si dos muestras se extraen de la misma distribución.
Análisis de varianza unidireccional de Kruskal-Wallis por rangos: prueba si > 2 muestras independientes se extraen de la misma distribución.
Prueba de Kuiper : prueba si una muestra se extrae de una distribución dada, es sensible a variaciones cíclicas como el día de la semana.
Prueba de logrank : compara distribuciones de supervivencia de dos muestras censuradas y sesgadas hacia la derecha.
Prueba de suma de rangos de Wilcoxon o U de Mann-Whitney : prueba si dos muestras se extraen de la misma distribución, en comparación con una hipótesis alternativa dada.
Prueba de McNemar : prueba si, en tablas de contingencia 2 × 2 con un rasgo dicotómico y pares de sujetos coincidentes, las frecuencias marginales de filas y columnas son iguales.
Prueba de mediana : prueba si dos muestras provienen de distribuciones con medianas iguales.
Prueba de permutación de Pitman : una prueba de significancia estadística que produce valores p exactos al examinar todos los posibles reordenamientos de las etiquetas.
Productos de rango : detecta genes expresados diferencialmente en experimentos de microarrays replicados.
Prueba de Siegel-Tukey : prueba las diferencias de escala entre dos grupos.
Prueba de signos : prueba si las muestras de pares coincidentes provienen de distribuciones con medianas iguales.
Coeficiente de correlación de rangos de Spearman : mide la dependencia estadística entre dos variables utilizando una función monótona.
Prueba de rangos cuadrados : prueba la igualdad de varianzas en dos o más muestras.
Prueba de Tukey-Duckworth : prueba la igualdad de dos distribuciones utilizando rangos.
Prueba de corridas de Wald–Wolfowitz : prueba si los elementos de una secuencia son mutuamente independientes/aleatorios.
Prueba de rangos con signo de Wilcoxon : prueba si las muestras de pares coincidentes provienen de poblaciones con diferentes rangos medios.
Identificación de ajuste lineal universal: un método independiente del modelo de distribución de datos, valores atípicos y ruido y libre de imputación de datos faltantes o eliminados. ^[4]

Historia

Las primeras estadísticas no paramétricas incluyen la mediana (siglo XIII o antes, utilizada en estimaciones por Edward Wright , 1599; ver Mediana § Historia ) y la prueba de signos de John Arbuthnot (1710) al analizar la proporción de sexos humanos al nacer (ver Prueba de signos § Historia ). ^[5]^[6]

Véase también

Notas

^ "Toda la estadística no paramétrica". Springer Texts in Statistics . 2006. doi :10.1007/0-387-30623-4. ISBN 978-0-387-25145-5.
^ Pearce, J; Derrick, B (2019). "Pruebas preliminares: ¿El diablo de las estadísticas?". Reinvención: una revista internacional de investigación de pregrado . 12 (2). doi : 10.31273/reinvention.v12i2.339 .
^ Stuart A., Ord JK, Arnold S. (1999), Teoría avanzada de la estadística de Kendall: Volumen 2A—Inferencia clásica y modelo lineal , sexta edición, §20.2–20.3 ( Arnold ).
^ Adikaram, KKLB; Hussein, MA; Effenberger, M.; Becker, T. (16 de noviembre de 2015). "Identificación de ajuste lineal universal: un método independiente de datos, valores atípicos y modelo de distribución de ruido y libre de imputación de datos faltantes o eliminados". PLOS ONE . 10 (11): e0141486. Bibcode :2015PLoSO..1041486A. doi : 10.1371/journal.pone.0141486 . ISSN 1932-6203. PMC 4646355 . PMID 26571035.
^ Conover, WJ (1999), "Capítulo 3.4: La prueba de signos", Practical Nonparametric Statistics (tercera edición), Wiley, págs. 157-176, ISBN 0-471-16068-7
^ Sprent, P. (1989), Métodos estadísticos no paramétricos aplicados (segunda edición), Chapman & Hall, ISBN 0-412-44980-3

Referencias generales

Bagdonavicius, V., Kruopis, J., Nikulin, MS (2011). "Pruebas no paramétricas para datos completos", ISTE & WILEY: Londres y Hoboken. ISBN 978-1-84821-269-5 .
Corder, GW; Foreman, DI (2014). Estadísticas no paramétricas: un enfoque paso a paso . Wiley. ISBN 978-1-118-84031-3.
Gibbons, Jean Dickinson ; Chakraborti, Subhabrata (2003). Inferencia estadística no paramétrica , 4ª ed. CRC Press. ISBN 0-8247-4052-1 .
Hettmansperger, TP; McKean, JW (1998). Métodos estadísticos no paramétricos robustos . Biblioteca de Estadística de Kendall. Vol. 5. Londres: Edward Arnold . ISBN. 0-340-54937-8.Sr. 1604954 .también ISBN 0-471-19479-4 .
Hollander M., Wolfe DA, Chicken E. (2014). Métodos estadísticos no paramétricos , John Wiley & Sons.
Sheskin, David J. (2003) Manual de procedimientos estadísticos paramétricos y no paramétricos . CRC Press. ISBN 1-58488-440-1
Wasserman, Larry (2007). Toda la estadística no paramétrica , Springer. ISBN 0-387-25145-6 .