stringtranslate.com

Prueba U de Mann-Whitney

En estadística , la prueba U de Mann-Whitney (también llamada prueba de Mann-Whitney-Wilcoxon ( MWW/MWU ), prueba de suma de rangos de Wilcoxon o prueba de Wilcoxon-Mann-Whitney ) es una prueba no paramétrica de la hipótesis nula que, para aleatoriamente valores seleccionados X e Y de dos poblaciones, la probabilidad de que X sea mayor que Y es igual a la probabilidad de que Y sea mayor que  X.

Las pruebas no paramétricas utilizadas en dos muestras dependientes son la prueba de signos y la prueba de rangos con signos de Wilcoxon .

Supuestos y declaración formal de hipótesis.

Aunque Henry Mann y Donald Ransom Whitney [1] desarrollaron la prueba U de Mann-Whitney bajo el supuesto de respuestas continuas siendo la hipótesis alternativa que una distribución es estocásticamente mayor que la otra, existen muchas otras formas de formular las hipótesis nula y alternativa. tal que la prueba U de Mann-Whitney dé una prueba válida. [2]

Una formulación muy general es suponer que:

  1. Todas las observaciones de ambos grupos son independientes entre sí,
  2. Las respuestas son al menos ordinales (es decir, al menos se puede decir, de dos observaciones cualesquiera, cuál es la mayor),
  3. Bajo la hipótesis nula H 0 , las distribuciones de ambas poblaciones son idénticas. [3]
  4. La hipótesis alternativa H 1 es que las distribuciones no son idénticas.

Según la formulación general, la prueba sólo es consistente cuando ocurre lo siguiente bajo H 1 :

  1. La probabilidad de que una observación de la población X supere una observación de la población Y es diferente (mayor o menor) que la probabilidad de que una observación de Y supere una observación de X ; es decir, P( X > Y ) ≠ P( Y > X ) o P( X > Y ) + 0,5 · P( X = Y ) ≠ 0,5 .

Bajo supuestos más estrictos que la formulación general anterior, por ejemplo, si se supone que las respuestas son continuas y la alternativa se restringe a un cambio de ubicación, es decir, F 1 ( x ) = F 2 ( x + δ ) , podemos interpretar una prueba U de Mann-Whitney significativa muestra una diferencia en las medianas. Bajo este supuesto de cambio de ubicación, también podemos interpretar que la prueba U de Mann-Whitney evalúa si la estimación de Hodges-Lehmann de la diferencia de tendencia central entre las dos poblaciones difiere de cero. La estimación de Hodges-Lehmann para este problema de dos muestras es la mediana de todas las diferencias posibles entre una observación de la primera muestra y una observación de la segunda muestra.

De lo contrario, si tanto las dispersiones como las formas de la distribución de ambas muestras difieren, la prueba U de Mann-Whitney no pasa la prueba de medianas. Es posible mostrar ejemplos en los que las medianas son numéricamente iguales mientras la prueba rechaza la hipótesis nula con un valor p pequeño. [4] [5] [6]

La prueba U de Mann-Whitney /prueba de suma de rangos de Wilcoxon no es lo mismo que la prueba de rangos con signo de Wilcoxon , aunque ambas son no paramétricas e implican la suma de rangos . La prueba U de Mann-Whitney se aplica a muestras independientes. La prueba de rangos con signo de Wilcoxon se aplica a muestras pareadas o dependientes.

estadística u

Sean una muestra iid de y una muestra iid de y ambas muestras independientes entre sí. El estadístico U de Mann-Whitney correspondiente se define como el menor de:

con

siendo la suma de los rangos en los grupos 1 y 2, respectivamente. [7]

Estadístico de área bajo la curva (AUC) para curvas ROC

La estadística U está relacionada con el área bajo la curva característica operativa del receptor ( AUC ): [8]

Tenga en cuenta que esta es la misma definición que el tamaño del efecto del lenguaje común de la sección anterior. es decir: la probabilidad de que un clasificador clasifique una instancia positiva elegida al azar por encima de una negativa elegida al azar (suponiendo que "positivo" tenga una clasificación más alta que "negativa"). [9]

Debido a su forma probabilística, el estadístico U se puede generalizar a una medida del poder de separación de un clasificador para más de dos clases: [10]

Donde c es el número de clases, y el término R k , de AUC k , considera solo la clasificación de los elementos que pertenecen a las clases k y (es decir, se ignoran los elementos que pertenecen a todas las demás clases) según las estimaciones del clasificador de la probabilidad de que aquellos ítems pertenezcan a la clase k . AUC k , k siempre será cero pero, a diferencia del caso de dos clases, generalmente AUC k , ≠ AUC , k , razón por la cual la medida M suma todos los ( k , ) pares, de hecho usando el promedio de AUC k , y AUC , k .

Cálculos

La prueba implica el cálculo de un estadístico , generalmente llamado U , cuya distribución bajo la hipótesis nula es conocida. En el caso de muestras pequeñas, la distribución se tabula, pero para tamaños de muestra superiores a ~20, la aproximación utilizando la distribución normal es bastante buena. Algunos libros tabulan estadísticas equivalentes a U , como la suma de rangos en una de las muestras, en lugar de U en sí.

La prueba U de Mann-Whitney está incluida en la mayoría de los paquetes estadísticos modernos . También se calcula fácilmente a mano, especialmente para muestras pequeñas. Hay dos maneras de hacer esto.

Método uno:

Para comparar dos pequeños conjuntos de observaciones, un método directo es rápido y da una idea del significado de la estadística U , que corresponde al número de victorias en todas las competiciones por parejas (consulte el ejemplo de la tortuga y la liebre en Ejemplos a continuación). Para cada observación en un conjunto, cuente el número de veces que este primer valor gana sobre cualquier observación en el otro conjunto (el otro valor pierde si el primero es mayor). Cuente 0,5 para cualquier empate. La suma de victorias y empates es U (es decir: ) para el primer set. U para el otro conjunto es lo contrario (es decir: ).

Método dos:

Para muestras más grandes:

  1. Asigne rangos numéricos a todas las observaciones (ponga las observaciones de ambos grupos en un conjunto), comenzando con 1 para el valor más pequeño. Cuando haya grupos de valores empatados, asigne una clasificación igual al punto medio de las clasificaciones no ajustadas (por ejemplo, las clasificaciones de (3, 5, 5, 5, 5, 8) son (1, 3,5, 3,5, 3,5, 3,5, 6). ) , donde los rangos no ajustados serían (1, 2, 3, 4, 5, 6) ).
  2. Ahora, sume los rangos de las observaciones que provienen de la muestra 1. La suma de los rangos en la muestra 2 ahora está determinada, ya que la suma de todos los rangos es igual a N ( N + 1)/2 donde N es el número total de observaciones. .
  3. Entonces U viene dado por: [11]
donde n 1 es el tamaño de la muestra para la muestra 1 y R 1 es la suma de los rangos en la muestra 1.
Tenga en cuenta que no importa cuál de las dos muestras se considera muestra 1. Una fórmula igualmente válida para U es
El valor menor de U 1 y U 2 es el que se utiliza al consultar las tablas de significancia. La suma de los dos valores está dada por
Sabiendo que R 1 + R 2 = N ( N + 1)/2 y N = n 1 + n 2 , y haciendo algo de álgebra , encontramos que la suma es
U 1 + U 2 = norte 1 norte 2 .

Propiedades

El valor máximo de U es el producto de los tamaños de muestra de las dos muestras (es decir: ). En tal caso, la "otra" U sería 0.

Ejemplos

Ilustración de métodos de cálculo.

Supongamos que Esopo no está satisfecho con su experimento clásico en el que se descubrió que una tortuga vencía a una liebre en una carrera y decide realizar una prueba de significancia para descubrir si los resultados podrían extenderse a las tortugas y las liebres en general. Recoge una muestra de 6 tortugas y 6 liebres y las hace correr su carrera a todas a la vez. El orden en el que llegan al puesto de meta (su orden de clasificación, del primero al último en cruzar la línea de meta) es el siguiente, escribiendo T para una tortuga y H para una liebre:

THHHHHTTTTTH

¿ Cuál es el valor de U ?

Clasifica a los animales según el tiempo que tardan en completar el recorrido, así que dale al primer animal el puesto 12, al segundo el 11, y así sucesivamente.
la suma de los rangos alcanzados por las tortugas es 12 + 6 + 5 + 4 + 3 + 2 = 32 .
Por lo tanto U T = 32 − (6×7)/2 = 32 − 21 = 11 (igual que el método uno).
La suma de los rangos alcanzados por las liebres es 11 + 10 + 9 + 8 + 7 + 1 = 46 , lo que da como resultado U H = 46 − 21 = 25 .

Ejemplo de declaración de resultados

Al informar los resultados de una prueba U de Mann-Whitney , es importante indicar: [12]

En la práctica, es posible que parte de esta información ya se haya proporcionado y se debe utilizar el sentido común para decidir si se repite o no. Se podría ejecutar un informe típico,

"Las latencias medianas en los grupos E y C fueron 153 y 247 ms; las distribuciones en los dos grupos difirieron significativamente ( U de Mann-Whitney = 10,5 , n 1 = n 2 = 8 , P < 0,05 de dos colas)".

Una afirmación que haga plena justicia al estado estadístico de la prueba podría ser:

"Los resultados de los dos tratamientos se compararon utilizando la prueba de suma de rangos de dos muestras de Wilcoxon-Mann-Whitney. El efecto del tratamiento (diferencia entre tratamientos) se cuantificó utilizando el estimador de Hodges-Lehmann (HL), que es consistente con la prueba de Wilcoxon. [13] Este estimador (HLΔ) es la mediana de todas las posibles diferencias en los resultados entre un sujeto del grupo B y un sujeto del grupo A. Un intervalo de confianza no paramétrico de 0,95 para HLΔ acompaña a estas estimaciones al igual que ρ, una estimación de la probabilidad de que un sujeto elegido al azar de la población B tenga un peso mayor que un sujeto elegido al azar de la población A. La mediana del peso [cuartiles] para los sujetos en el tratamiento A y B respectivamente es 147 [121, 177] y 151 [130, 180 ] kg. Tratamiento A disminuyó el peso en HLΔ = 5 kg (0,95 CL [2, 9] kg, 2 P = 0,02 , ρ = 0,58 )."

Sin embargo, sería raro encontrar un informe tan extenso en un documento cuyo tema principal no fuera la inferencia estadística.

Aproximación normal y corrección de empate.

Para muestras grandes, U tiene una distribución aproximadamente normal . En ese caso, el valor estandarizado

donde m U y σ U son la media y la desviación estándar de U , es aproximadamente una desviación normal estándar cuyo significado se puede comprobar en tablas de distribución normal. m U y σ U están dados por

[14] y
[14]

La fórmula para la desviación estándar es más complicada en presencia de rangos empatados. Si hay empates en los rangos, σ debe ajustarse de la siguiente manera:

[15]

donde el lado izquierdo es simplemente la varianza y el lado derecho es el ajuste por empates, t k es el número de empates para el k ésimo rango y K es el número total de rangos únicos con empates.

Una forma computacionalmente más eficiente con n 1 n 2 /12 factorizado es

donde norte = norte 1 + norte 2 .

Si el número de ataduras es pequeño (y especialmente si no hay bandas de atadura grandes), se pueden ignorar las ataduras al realizar los cálculos a mano. Los paquetes estadísticos informáticos utilizarán de forma rutinaria la fórmula correctamente ajustada.

Tenga en cuenta que dado que U 1 + U 2 = n 1 n 2 , la media n 1 n 2 /2 utilizada en la aproximación normal es la media de los dos valores de U . Por lo tanto, el valor absoluto del estadístico z calculado será el mismo independientemente del valor de U que se utilice.

Tamaños de efecto

Es una práctica ampliamente recomendada para los científicos informar el tamaño del efecto para una prueba inferencial. [16] [17]

Proporción de concordancia de todos los pares

Las siguientes tres medidas son equivalentes.

Tamaño del efecto del lenguaje común

Un método para informar el tamaño del efecto de la prueba U de Mann-Whitney es con f , el tamaño del efecto del lenguaje común. [18] [19] Como estadística de muestra, el tamaño del efecto del lenguaje común se calcula formando todos los pares posibles entre los dos grupos y luego encontrando la proporción de pares que respaldan una dirección (por ejemplo, que los elementos del grupo 1 son más grandes que los elementos del grupo 2). [19] Para ilustrar, en un estudio con una muestra de diez liebres y diez tortugas, el número total de pares ordenados es diez veces diez o 100 pares de liebres y tortugas. Supongamos que los resultados muestran que la liebre corrió más rápido que la tortuga en 90 de las 100 parejas de muestra; en ese caso, el tamaño del efecto del lenguaje común de la muestra es del 90%. Este valor de muestra es un estimador insesgado del valor de la población, por lo que la muestra sugiere que la mejor estimación del tamaño del efecto del lenguaje común en la población es 90%. [20]

La relación entre f y la U de Mann-Whitney (específicamente ) es la siguiente:

Esto es lo mismo que el área bajo la curva (AUC) de la curva ROC.

estadística ρ

Una estadística llamada ρ que está relacionada linealmente con U y se usa ampliamente en estudios de categorización ( aprendizaje de discriminación que involucra conceptos ) y en otros lugares, [21] se calcula dividiendo U por su valor máximo para los tamaños de muestra dados, que es simplemente n 1 × norte 2 . ρ es, por tanto, una medida no paramétrica de la superposición entre dos distribuciones; puede tomar valores entre 0 y 1, y es una estimación de P( Y > X ) + 0,5 P( Y = X ) , donde X e Y son observaciones elegidas al azar de las dos distribuciones. Ambos valores extremos representan una separación completa de las distribuciones, mientras que un ρ de 0,5 representa una superposición completa. La utilidad del estadístico ρ se puede ver en el caso del extraño ejemplo usado anteriormente, donde dos distribuciones que eran significativamente diferentes en una prueba U de Mann-Whitney tenían medianas casi idénticas: el valor de ρ en este caso es aproximadamente 0,723 a favor. de las liebres, reflejando correctamente el hecho de que aunque la tortuga mediana venció a la liebre mediana, las liebres en conjunto obtuvieron mejores resultados que las tortugas en conjunto. [ cita necesaria ]

Correlación rango-biserial

Un método para informar el tamaño del efecto de la prueba U de Mann-Whitney es con una medida de correlación de rango conocida como correlación biserial de rango. Edward Cureton presentó y nombró la medida. [22] Al igual que otras medidas correlacionales, la correlación biserial de rango puede variar de menos uno a más uno, y un valor de cero indica que no hay relación.

Existe una fórmula de diferencia simple para calcular la correlación biserial de rango a partir del tamaño del efecto del lenguaje común: la correlación es la diferencia entre la proporción de pares favorables a la hipótesis ( f ) menos su complemento (es decir, la proporción que es desfavorable ( u )). Esta fórmula de diferencia simple es solo la diferencia del tamaño del efecto del lenguaje común de cada grupo y es la siguiente: [18]

Por ejemplo, consideremos el ejemplo en el que las liebres corren más rápido que las tortugas en 90 de 100 parejas. El tamaño del efecto del lenguaje común es del 90%, por lo que la correlación biserial de rango es 90% menos 10% y la correlación biserial de rango  r = 0,80 .

Se puede utilizar una fórmula alternativa para el rango biserial para calcularlo a partir de la U de Mann-Whitney (ya sea o ) y los tamaños de muestra de cada grupo: [23]

Esta fórmula es útil cuando los datos no están disponibles, pero cuando hay un informe publicado, porque U y los tamaños de muestra se informan de forma rutinaria. Usando el ejemplo anterior con 90 pares que favorecen a las liebres y 10 pares que favorecen a la tortuga, U 2 es el más pequeño de los dos, por lo que U 2 = 10 . Esta fórmula luego da r = 1 – (2×10) / (10×10) = 0,80 , que es el mismo resultado que con la fórmula de diferencia simple anterior.

Relación con otras pruebas

Comparación con la prueba t de Student

La prueba U de Mann-Whitney prueba una hipótesis nula de que la distribución de probabilidad de una observación extraída al azar de un grupo es la misma que la distribución de probabilidad de una observación extraída al azar del otro grupo frente a una alternativa de que esas distribuciones no son iguales (ver Prueba U de Mann-Whitney # Supuestos y declaración formal de hipótesis). Por el contrario, una prueba t prueba una hipótesis nula de medias iguales en dos grupos frente a una alternativa de medias desiguales. Por lo tanto, excepto en casos especiales, la prueba U de Mann-Whitney y la prueba t no prueban las mismas hipótesis y deben compararse teniendo esto en cuenta.

Datos ordinales
La prueba U de Mann-Whitney es preferible a la prueba t cuando los datos son ordinales pero no están escalados por intervalos, en cuyo caso no se puede suponer que el espacio entre valores adyacentes de la escala sea constante.
Robustez
Al comparar las sumas de rangos, [24] es menos probable que la prueba U de Mann-Whitney indique significancia falsamente que la prueba t debido a la presencia de valores atípicos . Sin embargo, la prueba U de Mann-Whitney puede tener un peor control del error tipo I cuando los datos son heteroscedásticos y no normales. [25]
Eficiencia
Cuando se mantiene la normalidad, la prueba U de Mann-Whitney tiene una eficiencia (asintótica) de 3/ π o aproximadamente 0,95 en comparación con la prueba t . [26] Para distribuciones suficientemente alejadas de lo normal y para tamaños de muestra suficientemente grandes, la prueba U de Mann-Whitney es considerablemente más eficiente que la t . [27] Sin embargo, esta comparación de eficiencia debe interpretarse con cautela, ya que Mann-Whitney y la prueba t no prueban las mismas cantidades. Si, por ejemplo, una diferencia de medias grupales es de interés primario, Mann-Whitney no es una prueba apropiada. [28]

La prueba U de Mann-Whitney dará resultados muy similares a la realización de una prueba t paramétrica ordinaria de dos muestras en las clasificaciones de los datos. [29]

Diferentes distribuciones

La prueba U de Mann-Whitney no es válida para probar la hipótesis nula frente a la hipótesis alternativa ), sin asumir que las distribuciones son las mismas bajo la hipótesis nula (es decir, suponiendo ). [2] Para probar entre esas hipótesis, hay mejores pruebas disponibles. Entre ellas se encuentran la prueba de Brunner-Munzel y la de Fligner-Policello. [31] Específicamente, bajo la hipótesis nula más general , la prueba U de Mann-Whitney puede tener tasas de error tipo I infladas incluso en muestras grandes (especialmente si las varianzas de dos poblaciones son desiguales y los tamaños de muestra son diferentes), un problema que mejores alternativas resuelven. [32] Como resultado, se ha sugerido utilizar una de las alternativas (específicamente la prueba de Brunner-Munzel) si no se puede suponer que las distribuciones son iguales bajo la hipótesis nula. [32]

Alternativas

Si se desea una interpretación de cambio simple, la prueba U de Mann-Whitney no debe usarse cuando las distribuciones de las dos muestras son muy diferentes, ya que puede dar una interpretación errónea de resultados significativos. [33] En esa situación, la versión de varianzas desiguales de la prueba t puede dar resultados más confiables.

De manera similar, algunos autores (por ejemplo, Conover [ cita completa necesaria ] ) sugieren transformar los datos en rangos (si aún no lo son) y luego realizar la prueba t en los datos transformados; la versión de la prueba t utilizada depende de si se sospecha o no que las variaciones poblacionales sean diferentes. Las transformaciones de rango no conservan las varianzas, pero las varianzas se vuelven a calcular a partir de muestras después de las transformaciones de rango.

Se ha sugerido que la prueba de Brown-Forsythe es un equivalente no paramétrico apropiado de la prueba F para varianzas iguales. [ cita necesaria ]

Una prueba más poderosa es la prueba de Brunner-Munzel , que supera a la prueba U de Mann-Whitney en caso de que se viole el supuesto de intercambiabilidad. [34]

La prueba U de Mann-Whitney es un caso especial del modelo de probabilidades proporcionales , que permite el ajuste de covariables. [35]

Véase también prueba de Kolmogorov-Smirnov .

Estadísticas de pruebas relacionadas

Tau de Kendall

La prueba U de Mann-Whitney está relacionada con varios otros procedimientos estadísticos no paramétricos. Por ejemplo, equivale al coeficiente de correlación tau de Kendall si una de las variables es binaria (es decir, sólo puede tomar dos valores). [ cita necesaria ]

Implementaciones de software

En muchos paquetes de software, la prueba U de Mann-Whitney (de la hipótesis de distribuciones iguales frente a alternativas apropiadas) ha sido poco documentada. Algunos paquetes tratan incorrectamente los vínculos o no documentan técnicas asintóticas (p. ej., corrección por continuidad). Una revisión de 2000 analizó algunos de los siguientes paquetes: [36]

Historia

La estadística apareció en un artículo de 1914 [40] del alemán Gustav Deuchler (faltando un término en la varianza).

En un único artículo de 1945, Frank Wilcoxon propuso [41] tanto la prueba de rango con signo de una muestra como la prueba de suma de rangos de dos muestras, en una prueba de significancia con una hipótesis nula puntual frente a su alternativa complementaria (es decir, igual versus no es igual). Sin embargo, en ese artículo sólo tabuló algunos puntos para el caso de igual tamaño de muestra (aunque en un artículo posterior proporcionó tablas más grandes).

Un análisis exhaustivo de la estadística, que incluía una recurrencia que permitía el cálculo de probabilidades de cola para tamaños de muestra arbitrarios y tablas para tamaños de muestra de ocho o menos, apareció en el artículo de Henry Mann y su alumno Donald Ransom Whitney en 1947. [1] Este El artículo discutió hipótesis alternativas, incluido un ordenamiento estocástico (donde las funciones de distribución acumuladas satisfacían la desigualdad puntual F X ( t ) < F Y ( t ) ). Este artículo también calculó los primeros cuatro momentos y estableció la normalidad límite del estadístico bajo la hipótesis nula, estableciendo así que es asintóticamente libre de distribución.

Ver también

Notas

  1. ^ ab Mann, Henry B .; Whitney, Donald R. (1947). "En una prueba de si una de dos variables aleatorias es estocásticamente mayor que la otra". Anales de estadística matemática . 18 (1): 50–60. doi : 10.1214/aoms/1177730491 . SEÑOR  0022058. Zbl  0041.26103.
  2. ^ ab Fay, Michael P.; Proschan, Michael A. (2010). "¿Wilcoxon-Mann-Whitney o prueba t? Sobre supuestos para pruebas de hipótesis y múltiples interpretaciones de reglas de decisión". Encuestas Estadísticas . 4 : 1–39. doi :10.1214/09-SS051. SEÑOR  2595125. PMC 2857732 . PMID  20414472. 
  3. ^ [1], consulte la Tabla 2.1 de Pratt (1964) "Robustez de algunos procedimientos para el problema de ubicación de dos muestras". Revista de la Asociación Estadounidense de Estadística. 59 (307): 655–680. Si las dos distribuciones son normales con la misma media pero diferentes varianzas, entonces Pr[ X  >  Y ] = Pr[ Y  <  X ] pero el tamaño de la prueba de Mann-Whitney puede ser mayor que el nivel nominal. Entonces no podemos definir la hipótesis nula como Pr[ X  >  Y ] = Pr[ Y  <  X ] y obtener una prueba válida.
  4. ^ Divino, George W.; Norton, H. James; Barón, Anna E.; Juárez-Colunga, Elizabeth (2018). "El procedimiento de Wilcoxon-Mann-Whitney falla como prueba de medianas". El estadístico estadounidense . 72 (3): 278–286. doi : 10.1080/00031305.2017.1305291 .
  5. ^ Conroy, Ronán (2012). "¿Qué hipótesis prueban realmente las pruebas de dos grupos" no paramétricas "?". Diario Stata . 12 (2): 182-190. doi : 10.1177/1536867X1201200202 . S2CID  118445807 . Consultado el 24 de mayo de 2021 .
  6. ^ Ciervo, Anna (2001). "La prueba de Mann-Whitney no es sólo una prueba de medianas: las diferencias en la propagación pueden ser importantes". BMJ . 323 (7309): 391–393. doi : 10.1136/bmj.323.7309.391 . PMC 1120984 . 
  7. ^ Universidad de Boston (SPH), 2017
  8. ^ Mason, SJ, Graham, NE (2002). "Áreas debajo de las curvas de características operativas relativas (ROC) y niveles operativos relativos (ROL): significancia estadística e interpretación". Revista trimestral de la Real Sociedad Meteorológica . 128 (584): 2145–2166. doi :10.1256/003590002320603584. ISSN  1477-870X.
  9. ^ Fawcett, Tom (2006); Una introducción al análisis ROC , Pattern Recognition Letters, 27, 861–874.
  10. ^ Mano, David J.; Hasta, Robert J. (2001). "Una generalización simple del área bajo la curva ROC para problemas de clasificación de clases múltiples". Aprendizaje automático . 45 (2): 171–186. doi : 10.1023/A:1010920819831 .
  11. ^ Zar, Jerrold H. (1998). Análisis Bioestadístico . Nueva Jersey: Prentice Hall International, INC. p. 147.ISBN _ 978-0-13-082390-8.
  12. ^ Fritz, Catherine O.; Morris, Peter E.; Richler, Jennifer J. (2012). "Estimaciones del tamaño del efecto: uso actual, cálculos e interpretación". Revista de Psicología Experimental: General . 141 (1): 2–18. doi :10.1037/a0024338. ISSN  1939-2222.
  13. ^ Myles Hollander; Douglas A. Wolfe (1999). Métodos estadísticos no paramétricos (2 ed.). Wiley-Interscience. ISBN 978-0471190455.
  14. ^ ab Siegal, Sidney (1956). Estadísticas no paramétricas para las ciencias de la conducta . McGraw-Hill. pag. 121.{{cite book}}: CS1 maint: numeric names: authors list (link)
  15. ^ Lehmann, Erich; D'Abrera, Howard (1975). No paramétricos: métodos estadísticos basados ​​en rangos . Holden-Day. pag. 20.{{cite book}}: CS1 maint: numeric names: authors list (link)
  16. ^ Wilkinson, Leland (1999). "Métodos estadísticos en revistas de psicología: pautas y explicaciones". Psicólogo americano . 54 (8): 594–604. doi :10.1037/0003-066X.54.8.594.
  17. ^ Nakagawa, Shinichi; Cuthill, Innes C (2007). "Tamaño del efecto, intervalo de confianza y significación estadística: una guía práctica para biólogos". Reseñas biológicas de la Sociedad Filosófica de Cambridge . 82 (4): 591–605. doi :10.1111/j.1469-185X.2007.00027.x. PMID  17944619. S2CID  615371.
  18. ^ ab Kerby, DS (2014). "La fórmula de la diferencia simple: un enfoque para la enseñanza de la correlación no paramétrica". Psicología Integral . 3 : 11.IT.3.1. doi : 10.2466/11.IT.3.1 . S2CID  120622013.
  19. ^ ab McGraw, KO; Wong, JJ (1992). "Una estadística del tamaño del efecto del lenguaje común". Boletín Psicológico . 111 (2): 361–365. doi :10.1037/0033-2909.111.2.361.
  20. ^ Grissom RJ (1994). "Análisis estadístico del estado categórico ordinal después de las terapias". Revista de Consultoría y Psicología Clínica . 62 (2): 281–284. doi :10.1037/0022-006X.62.2.281. PMID  8201065.
  21. ^ Herrnstein, Richard J.; Loveland, Donald H.; Cable, Cynthia (1976). "Conceptos naturales en las palomas". Revista de Psicología Experimental: Procesos de comportamiento animal . 2 (4): 285–302. doi :10.1037/0097-7403.2.4.285. PMID  978139.
  22. ^ Cureton, EE (1956). "Correlación rango-biserial". Psicometrika . 21 (3): 287–290. doi :10.1007/BF02289138. S2CID  122500836.
  23. ^ Wendt, HW (1972). "Abordar un problema común en las ciencias sociales: un coeficiente de correlación biserial de rango simplificado basado en la estadística U ". Revista Europea de Psicología Social . 2 (4): 463–465. doi :10.1002/ejsp.2420020412.
  24. ^ Motulsky, Harvey J.; Guía de estadística , San Diego, CA: GraphPad Software, 2007, p. 123
  25. ^ Zimmerman, Donald W. (1 de enero de 1998). "Invalidación de pruebas estadísticas paramétricas y no paramétricas por violación simultánea de dos supuestos". La Revista de Educación Experimental . 67 (1): 55–68. doi :10.1080/00220979809598344. ISSN  0022-0973.
  26. ^ Lehamnn, Erich L.; Elementos de la teoría de muestras grandes , Springer, 1999, p. 176
  27. ^ Conover, William J.; Estadística práctica no paramétrica, John Wiley & Sons, 1980 (segunda edición), págs. 225–226
  28. ^ Lumley, Thomas; Diehr, Paula ; Emerson, Scott; Chen, Lu (mayo de 2002). "La importancia del supuesto de normalidad en grandes conjuntos de datos de salud pública". Revista Anual de Salud Pública . 23 (1): 151-169. doi : 10.1146/annurev.publhealth.23.100901.140546 . ISSN  0163-7525. PMID  11910059.
  29. ^ Conover, William J.; Imán, Ronald L. (1981). "Transformaciones de rango como puente entre estadísticas paramétricas y no paramétricas". El estadístico estadounidense . 35 (3): 124-129. doi :10.2307/2683975. JSTOR  2683975.
  30. ^ Vaart, AW van der (13 de octubre de 1998). Estadísticas asintóticas. Prensa de la Universidad de Cambridge. ISBN 978-0-511-80225-6.
  31. ^ Brunner, Edgar; Bathke, Arne C.; Konietschke, Frank (2018). Procedimientos de rango y pseudorango para observaciones independientes en diseños factoriales: uso de R y SAS. Serie Springer en Estadística. Cham: Editorial Internacional Springer. doi :10.1007/978-3-030-02914-2. ISBN 978-3-030-02912-8.
  32. ^ ab Karch, Julian D. (2021). "Los psicólogos deberían utilizar la prueba U de Brunner-Munzel en lugar de la de Mann-Whitney como procedimiento no paramétrico predeterminado". Avances en métodos y prácticas en ciencia psicológica . 4 (2). doi : 10.1177/2515245921999602 . hdl : 1887/3209569 . ISSN  2515-2459.
  33. ^ Kasuya, Eiiti (2001). " Prueba U de Mann-Whitney cuando las varianzas son desiguales". Comportamiento animal . 61 (6): 1247-1249. doi :10.1006/anbe.2001.1691. S2CID  140209347.
  34. ^ Karch, Julián (2021). "Los psicólogos deberían utilizar la prueba U de Brunner-Munzel en lugar de la de Mann-Whitney como procedimiento no paramétrico predeterminado". Avances en métodos y prácticas en ciencia psicológica . 4 (2). doi :10.1177/2515245921999602. hdl : 1887/3209569 . S2CID  235521799.
  35. ^ Harrell, Frank (20 de septiembre de 2020). "La violación de las probabilidades proporcionales no es fatal". {{cite journal}}: Citar diario requiere |journal=( ayuda )
  36. ^ Bergmann, Reinhard; Ludbrook, John; Spooren, Will PJM (2000). "Diferentes resultados de la prueba de Wilcoxon-Mann-Whitney de diferentes paquetes estadísticos". El estadístico estadounidense . 54 (1): 72–77. doi :10.1080/00031305.2000.10474513. JSTOR  2685616. S2CID  120473946.
  37. ^ "scipy.stats.mannwhitneyu". Guía de referencia de SciPy v0.16.0 . La comunidad Scipy. 24 de julio de 2015 . Consultado el 11 de septiembre de 2015 . scipy.stats.mannwhitneyu(x, y, use_continuity=True): calcula la prueba de rangos de Mann-Whitney en las muestras x e y.
  38. ^ "MannWhitneyUTest (API de Apache Commons Math 3.3)". commons.apache.org .
  39. ^ "JuliaStats/HypothesisTests.jl". GitHub . 30 de mayo de 2021.
  40. ^ Kruskal, William H. (septiembre de 1957). "Notas históricas sobre la prueba de dos muestras no emparejadas de Wilcoxon". Revista de la Asociación Estadounidense de Estadística . 52 (279): 356–360. doi :10.2307/2280906. JSTOR  2280906.
  41. ^ Wilcoxon, Frank (1945). "Comparaciones individuales por métodos de clasificación". Boletín de Biometría . 1 (6): 80–83. doi :10.2307/3001968. hdl : 10338.dmlcz/135688 . JSTOR  3001968.

Referencias

enlaces externos