Estadísticas no paramétricas

La estadística no paramétrica es un tipo de análisis estadístico que hace suposiciones mínimas sobre la distribución subyacente de los datos que se estudian. A menudo, estos modelos son de dimensión infinita, en lugar de finita, como lo es la estadística paramétrica. ^[1] Las estadísticas no paramétricas se pueden utilizar para estadísticas descriptivas o inferencia estadística . Las pruebas no paramétricas se utilizan a menudo cuando es evidente que se violan los supuestos de las pruebas paramétricas. ^[2]

Definiciones

El término "estadística no paramétrica" se ha definido de forma imprecisa, entre otras, de las dos formas siguientes:

El primer significado de no paramétrico implica técnicas que no se basan en datos que pertenecen a ninguna familia paramétrica particular de distribuciones de probabilidad.
Estos incluyen, entre otros:
- Métodos que no tienen distribución , que no se basan en suposiciones de que los datos se extraen de una familia paramétrica determinada de distribuciones de probabilidad .
- Estadísticas definidas como una función sobre una muestra, sin dependencia de un parámetro .
Un ejemplo son las estadísticas de orden , que se basan en la clasificación ordinal de observaciones.
La discusión siguiente está tomada de la Teoría Avanzada de la Estadística de Kendall . ^[3]
Las hipótesis estadísticas se refieren al comportamiento de variables aleatorias observables... Por ejemplo, la hipótesis (a) de que una distribución normal tiene una media y una varianza específicas es estadística; también lo es la hipótesis (b) de que tiene una media dada pero una varianza no especificada; también lo es la hipótesis (c) de que una distribución es de forma normal sin especificar ni la media ni la varianza; finalmente, también lo es la hipótesis (d) de que dos distribuciones continuas no especificadas son idénticas.
Se habrá observado que en los ejemplos (a) y (b) se consideró que la distribución subyacente a las observaciones era de cierta forma (la normal) y la hipótesis se refería enteramente al valor de uno o ambos parámetros. Esta hipótesis, por razones obvias, se denomina paramétrica .
La hipótesis (c) era de naturaleza diferente, ya que no se especifican valores de parámetros en el enunciado de la hipótesis; Podríamos razonablemente llamar a tal hipótesis no paramétrica . La hipótesis (d) tampoco es paramétrica pero, además, ni siquiera especifica la forma subyacente de la distribución y ahora puede denominarse razonablemente libre de distribución . A pesar de estas distinciones, la literatura estadística ahora aplica comúnmente la etiqueta "no paramétrico" a los procedimientos de prueba que acabamos de denominar "libres de distribución", perdiendo así una clasificación útil.
El segundo significado de no paramétrico implica técnicas que no suponen que la estructura de un modelo sea fija. Normalmente, el modelo aumenta de tamaño para adaptarse a la complejidad de los datos. En estas técnicas, normalmente se supone que las variables individuales pertenecen a distribuciones paramétricas y también se hacen suposiciones sobre los tipos de asociaciones entre variables. Estas técnicas incluyen, entre otras:
- regresión no paramétrica , que es un modelado mediante el cual la estructura de la relación entre variables se trata de manera no paramétrica, pero donde, sin embargo, puede haber supuestos paramétricos sobre la distribución de los residuos del modelo.
- Modelos bayesianos jerárquicos no paramétricos , como los modelos basados en el proceso de Dirichlet , que permiten que el número de variables latentes crezca según sea necesario para ajustarse a los datos, pero donde las variables individuales aún siguen distribuciones paramétricas e incluso el proceso que controla la tasa de crecimiento de Las variables latentes siguen una distribución paramétrica.

Aplicaciones y finalidad

Los métodos no paramétricos se utilizan ampliamente para estudiar poblaciones que tienen un orden de clasificación (como reseñas de películas que reciben de una a cuatro "estrellas"). El uso de métodos no paramétricos puede ser necesario cuando los datos tienen una clasificación pero no una interpretación numérica clara , como cuando se evalúan las preferencias . En términos de niveles de medición , los métodos no paramétricos dan como resultado datos ordinales .

Como los métodos no paramétricos parten de menos suposiciones, su aplicabilidad es mucho más general que los métodos paramétricos correspondientes. En particular, podrán aplicarse en situaciones en las que se sepa menos sobre la aplicación en cuestión. Además, debido a que se basan en menos supuestos, los métodos no paramétricos son más sólidos .

Los métodos no paramétricos a veces se consideran más sencillos de usar y más sólidos que los métodos paramétricos, incluso cuando los supuestos de los métodos paramétricos están justificados. Esto se debe a su naturaleza más general, que puede hacerlos menos susceptibles de mal uso y malentendidos. Los métodos no paramétricos pueden considerarse una opción conservadora, ya que funcionarán incluso cuando no se cumplan sus supuestos, mientras que los métodos paramétricos pueden producir resultados engañosos cuando se violen sus supuestos.

La aplicabilidad más amplia y la mayor solidez de las pruebas no paramétricas tienen un costo: en los casos en que una prueba paramétrica sería apropiada, las pruebas no paramétricas tienen menos poder estadístico . En otras palabras, se puede requerir un tamaño de muestra mayor para sacar conclusiones con el mismo grado de confianza.

Modelos no paramétricos

Los modelos no paramétricos se diferencian de los modelos paramétricos en que la estructura del modelo no se especifica a priori sino que se determina a partir de los datos. El término no paramétrico no implica que tales modelos carezcan completamente de parámetros, sino que el número y la naturaleza de los parámetros son flexibles y no están fijados de antemano.

Un histograma es una estimación no paramétrica simple de una distribución de probabilidad.
La estimación de la densidad del kernel es otro método para estimar una distribución de probabilidad.
Se han desarrollado métodos de regresión no paramétrica y de regresión semiparamétrica basados en kernels , splines y wavelets .
El análisis envolvente de datos proporciona coeficientes de eficiencia similares a los obtenidos mediante el análisis multivariado sin ningún supuesto distributivo.
Los KNN clasifican la instancia invisible en función de los K puntos del conjunto de entrenamiento que están más cercanos a ella.
Una máquina de vectores de soporte (con un núcleo gaussiano) es un clasificador no paramétrico de gran margen.
El método de momentos con distribuciones de probabilidad polinomiales.

Métodos

Los métodos estadísticos inferenciales no paramétricos (o libres de distribución ) son procedimientos matemáticos para probar hipótesis estadísticas que, a diferencia de las estadísticas paramétricas , no hacen suposiciones sobre las distribuciones de probabilidad de las variables que se evalúan. Las pruebas más utilizadas incluyen

Análisis de similitudes
Prueba de Anderson-Darling : prueba si una muestra se extrae de una distribución determinada
Métodos estadísticos de arranque : estima la precisión/distribución muestral de una estadística.
Q de Cochran : prueba si k tratamientos en diseños de bloques aleatorios con resultados 0/1 tienen efectos idénticos
Kappa de Cohen : mide la concordancia entre evaluadores para elementos categóricos
Análisis bidireccional de varianza por rangos de Friedman: prueba si k tratamientos en diseños de bloques aleatorios tienen efectos idénticos
probabilidad empírica
Kaplan-Meier : estima la función de supervivencia a partir de datos de vida, modelando la censura
Tau de Kendall : mide la dependencia estadística entre dos variables
W de Kendall : una medida entre 0 y 1 de acuerdo entre evaluadores.
Prueba de Kolmogorov-Smirnov : prueba si una muestra se extrae de una distribución determinada o si dos muestras se extraen de la misma distribución.
Análisis de varianza unidireccional por rangos de Kruskal-Wallis: prueba si se extraen > 2 muestras independientes de la misma distribución.
Prueba de Kuiper : prueba si una muestra se extrae de una distribución determinada, sensible a variaciones cíclicas como el día de la semana.
Prueba de logrank : compara distribuciones de supervivencia de dos muestras censuradas y asimétricas a la derecha.
Prueba de suma de rangos U de Mann-Whitney o Wilcoxon: prueba si dos muestras se extraen de la misma distribución, en comparación con una hipótesis alternativa dada.
Prueba de McNemar : prueba si, en tablas de contingencia 2 × 2 con un rasgo dicotómico y pares de sujetos emparejados, las frecuencias marginales de filas y columnas son iguales.
Prueba de mediana : prueba si dos muestras se extraen de distribuciones con medianas iguales.
Prueba de permutación de Pitman : una prueba de significación estadística que produce valores p exactos examinando todos los posibles reordenamientos de etiquetas.
Productos de rango : detecta genes expresados diferencialmente en experimentos de microarrays replicados.
Prueba de Siegel-Tukey : pruebas de diferencias de escala entre dos grupos.
Prueba de signos : prueba si muestras de pares coincidentes se extraen de distribuciones con medianas iguales.
Coeficiente de correlación de rangos de Spearman : mide la dependencia estadística entre dos variables utilizando una función monótona.
Prueba de rangos al cuadrado : prueba la igualdad de varianzas en dos o más muestras.
Prueba de Tukey-Duckworth : prueba la igualdad de dos distribuciones mediante el uso de rangos.
Wald-Wolfowitz ejecuta una prueba : prueba si los elementos de una secuencia son mutuamente independientes/aleatorios.
Prueba de rangos con signo de Wilcoxon : prueba si las muestras de pares coincidentes se extraen de poblaciones con diferentes rangos medios.

Historia

Las primeras estadísticas no paramétricas incluyen la mediana (siglo XIII o antes, utilizada en la estimación por Edward Wright , 1599; ver Mediana § Historia ) y la prueba de signos de John Arbuthnot (1710) al analizar la proporción de sexos humanos al nacer (ver Prueba de signos § Historia ). ^[4]^[5]

Ver también

Notas

^ "Todas las estadísticas no paramétricas". Textos Springer en Estadística . 2006.doi : 10.1007 /0-387-30623-4.
^ Pearce, J; Torre de perforación, B (2019). "Pruebas preliminares: ¿El diablo de las estadísticas?". Reinvención: una revista internacional de investigación de pregrado . 12 (2). doi : 10.31273/reinvención.v12i2.339 .
^ Stuart A., Ord JK, Arnold S. (1999), Teoría avanzada de la estadística de Kendall: volumen 2A: inferencia clásica y modelo lineal , sexta edición, §20.2–20.3 ( Arnold ).
^ Conover, WJ (1999), "Capítulo 3.4: La prueba de signos", Estadística práctica no paramétrica (tercera ed.), Wiley, págs. 157-176, ISBN 0-471-16068-7
^ Sprent, P. (1989), Métodos estadísticos no paramétricos aplicados (Segunda ed.), Chapman & Hall, ISBN 0-412-44980-3

Referencias generales

Bagdonavicius, V., Kruopis, J., Nikulin, MS (2011). "Pruebas no paramétricas para datos completos", ISTE & WILEY: London & Hoboken. ISBN 978-1-84821-269-5 .
Corder, GW; Capataz, DI (2014). Estadísticas no paramétricas: un enfoque paso a paso . Wiley. ISBN 978-1118840313.
Gibbons, Jean Dickinson ; Chakraborti, Subhabrata (2003). Inferencia estadística no paramétrica , 4ª ed. Prensa CRC. ISBN 0-8247-4052-1 .
Hettmansperger, TP; McKean, JW (1998). Métodos estadísticos robustos no paramétricos . Biblioteca de estadística de Kendall. vol. 5 (Primera ed.). Londres: Edward Arnold . Nueva York: John Wiley & Sons. ISBN 0-340-54937-8. SEÑOR 1604954.también ISBN 0-471-19479-4 .
Hollander M., Wolfe DA, Chicken E. (2014). Métodos estadísticos no paramétricos , John Wiley & Sons.
Sheskin, David J. (2003) Manual de procedimientos estadísticos paramétricos y no paramétricos . Prensa CRC. ISBN 1-58488-440-1
Wasserman, Larry (2007). Toda la estadística no paramétrica , Springer. ISBN 0-387-25145-6 .