La estadística no paramétrica es un tipo de análisis estadístico que hace suposiciones mínimas sobre la distribución subyacente de los datos que se estudian. A menudo, estos modelos son de dimensión infinita, en lugar de finita, como lo es la estadística paramétrica. [1] Las estadísticas no paramétricas se pueden utilizar para estadísticas descriptivas o inferencia estadística . Las pruebas no paramétricas se utilizan a menudo cuando es evidente que se violan los supuestos de las pruebas paramétricas. [2]
El término "estadística no paramétrica" se ha definido de forma imprecisa, entre otras, de las dos formas siguientes:
Estos incluyen, entre otros:
Un ejemplo son las estadísticas de orden , que se basan en la clasificación ordinal de observaciones.
La discusión siguiente está tomada de la Teoría Avanzada de la Estadística de Kendall . [3]
Las hipótesis estadísticas se refieren al comportamiento de variables aleatorias observables... Por ejemplo, la hipótesis (a) de que una distribución normal tiene una media y una varianza específicas es estadística; también lo es la hipótesis (b) de que tiene una media dada pero una varianza no especificada; también lo es la hipótesis (c) de que una distribución es de forma normal sin especificar ni la media ni la varianza; finalmente, también lo es la hipótesis (d) de que dos distribuciones continuas no especificadas son idénticas.
Se habrá observado que en los ejemplos (a) y (b) se consideró que la distribución subyacente a las observaciones era de cierta forma (la normal) y la hipótesis se refería enteramente al valor de uno o ambos parámetros. Esta hipótesis, por razones obvias, se denomina paramétrica .
La hipótesis (c) era de naturaleza diferente, ya que no se especifican valores de parámetros en el enunciado de la hipótesis; Podríamos razonablemente llamar a tal hipótesis no paramétrica . La hipótesis (d) tampoco es paramétrica pero, además, ni siquiera especifica la forma subyacente de la distribución y ahora puede denominarse razonablemente libre de distribución . A pesar de estas distinciones, la literatura estadística ahora aplica comúnmente la etiqueta "no paramétrico" a los procedimientos de prueba que acabamos de denominar "libres de distribución", perdiendo así una clasificación útil.
Los métodos no paramétricos se utilizan ampliamente para estudiar poblaciones que tienen un orden de clasificación (como reseñas de películas que reciben de una a cuatro "estrellas"). El uso de métodos no paramétricos puede ser necesario cuando los datos tienen una clasificación pero no una interpretación numérica clara , como cuando se evalúan las preferencias . En términos de niveles de medición , los métodos no paramétricos dan como resultado datos ordinales .
Como los métodos no paramétricos parten de menos suposiciones, su aplicabilidad es mucho más general que los métodos paramétricos correspondientes. En particular, podrán aplicarse en situaciones en las que se sepa menos sobre la aplicación en cuestión. Además, debido a que se basan en menos supuestos, los métodos no paramétricos son más sólidos .
Los métodos no paramétricos a veces se consideran más sencillos de usar y más sólidos que los métodos paramétricos, incluso cuando los supuestos de los métodos paramétricos están justificados. Esto se debe a su naturaleza más general, que puede hacerlos menos susceptibles de mal uso y malentendidos. Los métodos no paramétricos pueden considerarse una opción conservadora, ya que funcionarán incluso cuando no se cumplan sus supuestos, mientras que los métodos paramétricos pueden producir resultados engañosos cuando se violen sus supuestos.
La aplicabilidad más amplia y la mayor solidez de las pruebas no paramétricas tienen un costo: en los casos en que una prueba paramétrica sería apropiada, las pruebas no paramétricas tienen menos poder estadístico . En otras palabras, se puede requerir un tamaño de muestra mayor para sacar conclusiones con el mismo grado de confianza.
Los modelos no paramétricos se diferencian de los modelos paramétricos en que la estructura del modelo no se especifica a priori sino que se determina a partir de los datos. El término no paramétrico no implica que tales modelos carezcan completamente de parámetros, sino que el número y la naturaleza de los parámetros son flexibles y no están fijados de antemano.
Los métodos estadísticos inferenciales no paramétricos (o libres de distribución ) son procedimientos matemáticos para probar hipótesis estadísticas que, a diferencia de las estadísticas paramétricas , no hacen suposiciones sobre las distribuciones de probabilidad de las variables que se evalúan. Las pruebas más utilizadas incluyen
Las primeras estadísticas no paramétricas incluyen la mediana (siglo XIII o antes, utilizada en la estimación por Edward Wright , 1599; ver Mediana § Historia ) y la prueba de signos de John Arbuthnot (1710) al analizar la proporción de sexos humanos al nacer (ver Prueba de signos § Historia ). [4] [5]