La estadística no paramétrica es un tipo de análisis estadístico que hace suposiciones mínimas sobre la distribución subyacente de los datos que se estudian. A menudo, estos modelos son de dimensión infinita, en lugar de dimensión finita, como es el caso de la estadística paramétrica . [1] La estadística no paramétrica se puede utilizar para la estadística descriptiva o la inferencia estadística . Las pruebas no paramétricas se utilizan a menudo cuando se violan evidentemente las suposiciones de las pruebas paramétricas. [2]
El término "estadística no paramétrica" se ha definido de manera imprecisa, entre otras, de las dos maneras siguientes:
El primer significado de no paramétrico incluye técnicas que no se basan en datos pertenecientes a ninguna familia paramétrica particular de distribuciones de probabilidad. Estas incluyen, entre otras:
Un ejemplo son las estadísticas de orden , que se basan en la clasificación ordinal de las observaciones.
La siguiente discusión está tomada de la Teoría avanzada de estadísticas de Kendall . [3]
Las hipótesis estadísticas se refieren al comportamiento de variables aleatorias observables... Por ejemplo, la hipótesis (a) de que una distribución normal tiene una media y una varianza especificadas es estadística; también lo es la hipótesis (b) de que tiene una media dada pero una varianza no especificada; también lo es la hipótesis (c) de que una distribución es de forma normal con media y varianza no especificadas; finalmente, también lo es la hipótesis (d) de que dos distribuciones continuas no especificadas son idénticas.
Se habrá observado que en los ejemplos (a) y (b) la distribución subyacente a las observaciones se consideró de una forma determinada (la normal) y la hipótesis se refería exclusivamente al valor de uno o ambos parámetros. Por razones obvias, una hipótesis de este tipo se denomina paramétrica .
La hipótesis (c) era de una naturaleza diferente, ya que no se especifican valores de parámetros en el enunciado de la hipótesis; podríamos llamar razonablemente a dicha hipótesis no paramétrica . La hipótesis (d) también es no paramétrica pero, además, ni siquiera especifica la forma subyacente de la distribución y ahora puede denominarse razonablemente libre de distribución . A pesar de estas distinciones, la literatura estadística ahora aplica comúnmente la etiqueta "no paramétrica" a los procedimientos de prueba que acabamos de denominar "libres de distribución", perdiendo así una clasificación útil.
El segundo significado de no paramétrico implica técnicas que no suponen que la estructura de un modelo sea fija. Normalmente, el modelo aumenta de tamaño para adaptarse a la complejidad de los datos. En estas técnicas, se supone que las variables individuales pertenecen a distribuciones paramétricas y también se hacen suposiciones sobre los tipos de asociaciones entre las variables. Estas técnicas incluyen, entre otras:
Los métodos no paramétricos se utilizan ampliamente para estudiar poblaciones que tienen un orden de clasificación (como las reseñas de películas que reciben de una a cinco "estrellas"). El uso de métodos no paramétricos puede ser necesario cuando los datos tienen una clasificación pero no una interpretación numérica clara , como cuando se evalúan las preferencias . En términos de niveles de medición , los métodos no paramétricos dan como resultado datos ordinales .
Como los métodos no paramétricos hacen menos suposiciones, su aplicabilidad es mucho más general que la de los métodos paramétricos correspondientes. En particular, pueden aplicarse en situaciones en las que se sabe menos sobre la aplicación en cuestión. Además, debido a que dependen de menos suposiciones, los métodos no paramétricos son más robustos .
A veces se considera que los métodos no paramétricos son más sencillos de utilizar y más robustos que los métodos paramétricos, incluso cuando los supuestos de los métodos paramétricos están justificados. Esto se debe a su naturaleza más general, que puede hacerlos menos susceptibles a un uso incorrecto y a malentendidos. Los métodos no paramétricos pueden considerarse una opción conservadora, ya que funcionarán incluso cuando no se cumplan sus supuestos, mientras que los métodos paramétricos pueden producir resultados engañosos cuando se violan sus supuestos.
La mayor aplicabilidad y robustez de las pruebas no paramétricas tiene un costo: en los casos en que se cumplen los supuestos de una prueba paramétrica, las pruebas no paramétricas tienen menos poder estadístico . En otras palabras, puede ser necesario un tamaño de muestra mayor para extraer conclusiones con el mismo grado de confianza.
Los modelos no paramétricos se diferencian de los modelos paramétricos en que la estructura del modelo no se especifica a priori , sino que se determina a partir de los datos. El término no paramétrico no implica que dichos modelos carezcan por completo de parámetros, sino que la cantidad y la naturaleza de los parámetros son flexibles y no están fijados de antemano.
Los métodos estadísticos inferenciales no paramétricos (o sin distribución ) son procedimientos matemáticos para probar hipótesis estadísticas que, a diferencia de las estadísticas paramétricas , no hacen suposiciones sobre las distribuciones de probabilidad de las variables que se evalúan. Las pruebas más utilizadas incluyen {{columns-list|colwidth=50em|
Las primeras estadísticas no paramétricas incluyen la mediana (siglo XIII o antes, utilizada en estimaciones por Edward Wright , 1599; ver Mediana § Historia ) y la prueba de signos de John Arbuthnot (1710) al analizar la proporción de sexos humanos al nacer (ver Prueba de signos § Historia ). [5] [6]