stringtranslate.com

Prueba de signos

La prueba de los signos es una prueba estadística para detectar diferencias consistentes entre pares de observaciones, como el peso de los sujetos antes y después del tratamiento. Dados pares de observaciones (como el peso antes y después del tratamiento) para cada sujeto, la prueba de los signos determina si un miembro del par (como antes del tratamiento) tiende a ser mayor (o menor) que el otro miembro del par (como después del tratamiento).

Las observaciones pareadas pueden designarse x e y . Para las comparaciones de observaciones pareadas ( x , y), la prueba de los signos es más útil si las comparaciones solo se pueden expresar como x > y , x = y o x < y . Si, en cambio, las observaciones se pueden expresar como cantidades numéricas ( x = 7, y = 18), o como rangos (rango de x = 1.º, rango de y = 8.º), entonces la prueba t pareada [1] o la prueba de rangos con signo de Wilcoxon [2] normalmente tendrán mayor poder que la prueba de los signos para detectar diferencias consistentes.

Si X e Y son variables cuantitativas, la prueba de signos se puede utilizar para probar la hipótesis de que la diferencia entre X e Y tiene una mediana cero, asumiendo distribuciones continuas de las dos variables aleatorias X e Y , en la situación en la que podemos extraer muestras pareadas de X e Y . [3]

La prueba de los signos también puede comprobar si la mediana de un conjunto de números es significativamente mayor o menor que un valor especificado. Por ejemplo, dada una lista de calificaciones de los alumnos de una clase, la prueba de los signos puede determinar si la calificación mediana es significativamente diferente de, digamos, 75 sobre 100.

La prueba de signos es una prueba no paramétrica que hace muy pocas suposiciones sobre la naturaleza de las distribuciones bajo prueba; esto significa que tiene una aplicabilidad muy general pero puede carecer del poder estadístico de las pruebas alternativas.

Las dos condiciones para la prueba de signos de muestras pareadas son que se debe seleccionar una muestra aleatoriamente de cada población y que las muestras deben ser dependientes o pareadas. Las muestras independientes no pueden parearse de manera significativa. Dado que la prueba no es paramétrica, las muestras no necesitan provenir de poblaciones distribuidas normalmente. Además, la prueba funciona para pruebas de cola izquierda, cola derecha y dos colas.

Método

Sea p = Pr( X > Y ), y luego pruebe la hipótesis nula H 0 : p = 0,50. En otras palabras, la hipótesis nula establece que dado un par aleatorio de medidas ( x i , y i ), entonces x i e y i tienen la misma probabilidad de ser mayores que la otra.

Para probar la hipótesis nula, se recogen pares independientes de datos de muestra de las poblaciones {( x 1 , y 1 ), ( x 2 , y 2 ), . . ., ( x n , y n )}. Se omiten los pares para los que no hay diferencia, de modo que existe la posibilidad de una muestra reducida de m pares. [4]

Entonces sea W el número de pares para los cuales y i  −  x i > 0. Suponiendo que H 0 es verdadero, entonces W sigue una distribución binomial W ~ b( m , 0.5).

Suposiciones

Sea Z i  =  Y i  –  X i para i  = 1, ... ,  n .

  1. Se supone que las diferencias Z i son independientes.
  2. Cada Z i proviene de la misma población continua.
  3. Los valores que representan X i e Y i están ordenados (al menos la escala ordinal ), por lo que las comparaciones "mayor que", "menor que" e "igual a" son significativas.

Prueba de significancia

Dado que se espera que la estadística de prueba siga una distribución binomial , se utiliza la prueba binomial estándar para calcular la significancia . La aproximación normal a la distribución binomial se puede utilizar para tamaños de muestra grandes, m > 25. [4]

El valor de la cola izquierda se calcula mediante Pr( Ww ), que es el valor p para la alternativa H 1 : p < 0,50. Esta alternativa significa que las mediciones de X tienden a ser más altas.

El valor de la cola derecha se calcula mediante Pr( Ww ), que es el valor p para la alternativa H 1 : p > 0,50. Esta alternativa significa que las mediciones de Y tienden a ser más altas.

Para una alternativa bilateral H 1, el valor p es el doble del valor de cola más pequeño.

Ejemplo de prueba de signos bilateral para pares coincidentes

Zar ofrece el siguiente ejemplo de la prueba de signos para pares coincidentes. Se recogen datos sobre la longitud de la pata trasera izquierda y la pata delantera izquierda de 10 ciervos. [5]

La hipótesis nula es que no hay diferencia entre la longitud de las patas traseras y las patas delanteras en los ciervos. La hipótesis alternativa es que hay una diferencia entre la longitud de las patas traseras y la longitud de las patas delanteras. Esta es una prueba de dos colas, en lugar de una prueba de una cola. Para la prueba de dos colas, la hipótesis alternativa es que la longitud de las patas traseras puede ser mayor o menor que la longitud de las patas delanteras. Una prueba unilateral podría ser que la longitud de las patas traseras es mayor que la longitud de las patas delanteras, de modo que la diferencia solo puede ser en una dirección (mayor que).

Hay n=10 ciervos. Hay 8 diferencias positivas y 2 negativas. Si la hipótesis nula es verdadera, es decir, que no hay diferencia en la longitud de las patas traseras y delanteras, entonces el número esperado de diferencias positivas es 5 de 10. ¿Cuál es la probabilidad de que se produzca el resultado observado de 8 diferencias positivas, o un resultado más extremo, si no hay diferencia en la longitud de las patas?

Debido a que la prueba es bilateral, un resultado tan extremo o más extremo que 8 diferencias positivas incluye los resultados de 8, 9 o 10 diferencias positivas y los resultados de 0, 1 o 2 diferencias positivas. La probabilidad de 8 o más positivos entre 10 ciervos o 2 o menos positivos entre 10 ciervos es la misma que la probabilidad de 8 o más caras o 2 o menos caras en 10 lanzamientos de una moneda justa. Las probabilidades se pueden calcular utilizando la prueba binomial , con la probabilidad de cara = probabilidad de cruz = 0,5.

La probabilidad bilateral de un resultado tan extremo como una diferencia positiva de 8 de 10 es la suma de estas probabilidades:

0,00098 + 0,00977 + 0,04395 + 0,04395 + 0,00977 + 0,00098 = 0,109375.

Por lo tanto, la probabilidad de observar un resultado tan extremo como 8 de 10 diferencias positivas en las longitudes de las piernas, si no hay diferencia en las longitudes de las piernas, es p  = 0,109375. La hipótesis nula no se rechaza a un nivel de significación de p  = 0,05. Con un tamaño de muestra mayor, la evidencia podría ser suficiente para rechazar la hipótesis nula.

Debido a que las observaciones se pueden expresar como cantidades numéricas (longitud real de la pata), la prueba t pareada o la prueba de rangos con signo de Wilcoxon generalmente tendrán mayor poder que la prueba de signos para detectar diferencias consistentes. Para este ejemplo, la prueba t pareada para diferencias indica que existe una diferencia significativa entre la longitud de la pata trasera y la longitud de la pata delantera ( p  = 0,007).

Si el resultado observado fuese 9 diferencias positivas en 10 comparaciones, la prueba de signos sería significativa. Solo los lanzamientos de moneda con 0, 1, 9 o 10 caras serían tan extremos como el resultado observado o más extremos.

La probabilidad de un resultado tan extremo como 9 de 10 diferencias positivas es la suma de estas probabilidades:

0,00098 + 0,00977 + 0,00977 + 0,00098 = 0,0215.

En general, 8 de 10 diferencias positivas no son significativas ( p  = 0,11), pero 9 de 10 diferencias positivas son significativas ( p  = 0,0215).

Ejemplos

Ejemplo de prueba de signos unilateral para pares coincidentes

Conover [6] ofrece el siguiente ejemplo en el que se utiliza una prueba de signos unilateral para pares coincidentes. Un fabricante produce dos productos, A y B. El fabricante desea saber si los consumidores prefieren el producto B al producto A. A una muestra de 10 consumidores se les da el producto A y el producto B, y se les pregunta qué producto prefieren.

La hipótesis nula es que los consumidores no prefieren el producto B al producto A. La hipótesis alternativa es que los consumidores prefieren el producto B al producto A. Esta es una prueba unilateral (direccional).

Al final del estudio, 8 consumidores prefirieron el producto B, 1 consumidor prefirió el producto A y uno no informó ninguna preferencia.

El empate se excluye del análisis, dando como resultado n = número de + y – = 8 + 1 = 9.

¿Cuál es la probabilidad de un resultado tan extremo como 8 positivos a favor de B en 9 pares, si la hipótesis nula es verdadera, es decir, que los consumidores no tienen preferencia por B sobre A? Esta es la probabilidad de 8 o más caras en 9 lanzamientos de una moneda justa, y se puede calcular utilizando la distribución binomial con p(cara) = p(cruz) = 0,5.

P(8 o 9 caras en 9 lanzamientos de una moneda normal) = 0,0195. Se rechaza la hipótesis nula y el fabricante concluye que los consumidores prefieren el producto B al producto A.

Ejemplo de prueba de signos para la mediana de una sola muestra

Sprent [7] ofrece el siguiente ejemplo de una prueba de signos para una mediana. En un ensayo clínico, se recopila el tiempo de supervivencia (semanas) de 10 sujetos con linfoma no Hodgkin. No se conocía el tiempo de supervivencia exacto de un sujeto que seguía vivo después de 362 semanas, cuando finalizó el estudio. Los tiempos de supervivencia de los sujetos fueron

49, 58, 75, 110, 112, 132, 151, 276, 281, 362+

El signo más indica que el sujeto sigue vivo al final del estudio. El investigador quería determinar si el tiempo de supervivencia medio era inferior o superior a 200 semanas.

La hipótesis nula es que la supervivencia media es de 200 semanas. La hipótesis alternativa es que la supervivencia media no es de 200 semanas. Se trata de una prueba bilateral: la mediana alternativa puede ser mayor o menor que 200 semanas.

Si la hipótesis nula es verdadera, es decir, que la supervivencia media es de 200 semanas, entonces, en una muestra aleatoria, aproximadamente la mitad de los sujetos deberían sobrevivir menos de 200 semanas y la otra mitad más de 200 semanas. A las observaciones por debajo de 200 se les asigna un signo menos (−); a las observaciones por encima de 200 se les asigna un signo más (+). Para los tiempos de supervivencia de los sujetos, hay 7 observaciones por debajo de 200 semanas (−) y 3 observaciones por encima de 200 semanas (+) para los n=10 sujetos.

Como cualquier observación tiene la misma probabilidad de estar por encima o por debajo de la mediana de la población, la cantidad de puntuaciones positivas tendrá una distribución binomial con una media de 0,5. ¿Cuál es la probabilidad de un resultado tan extremo como que 7 de cada 10 sujetos estén por debajo de la mediana? Esto es exactamente lo mismo que la probabilidad de un resultado tan extremo como que 7 caras en 10 lanzamientos de una moneda justa. Como se trata de una prueba bilateral, un resultado extremo puede ser tres o menos caras o siete o más caras.

La probabilidad de observar k caras en 10 lanzamientos de una moneda justa, con p(cara) = 0,5, viene dada por la fórmula binomial:

Pr(Número de caras = k ) = Choose(10, k ) × 0,5 10

La probabilidad de cada valor de k se da en la siguiente tabla.

La probabilidad de que salgan 0, 1, 2, 3, 7, 8, 9 o 10 caras en 10 lanzamientos es la suma de sus probabilidades individuales:

0,0010 + 0,0098 + 0,0439 + 0,1172 + 0,1172 + 0,0439 + 0,0098 + 0,0010 = 0,3438.

Por lo tanto, la probabilidad de observar 3 o menos signos más o 7 o más signos más en los datos de supervivencia, si la supervivencia media es de 200 semanas, es de 0,3438. El número esperado de signos más es 5 si la hipótesis nula es verdadera. Observar 3 o menos, o 7 o más signos más no es significativamente diferente de 5. No se rechaza la hipótesis nula. Debido al tamaño extremadamente pequeño de la muestra, esta muestra tiene poca potencia para detectar una diferencia.

Implementaciones de software

La prueba de los signos es un caso especial de la prueba binomial, en la que la probabilidad de éxito bajo la hipótesis nula es p=0,5. Por lo tanto, la prueba de los signos se puede realizar utilizando la prueba binomial, que se proporciona en la mayoría de los programas de software estadístico. Se pueden encontrar calculadoras en línea para la prueba de los signos buscando "calculadora de prueba de signos". Muchos sitios web ofrecen la prueba binomial, pero generalmente solo ofrecen una versión bilateral.

Software de Excel para la prueba de signos

Una plantilla para la prueba de signos con Excel está disponible en http://www.real-statistics.com/non-parametric-tests/sign-test/

Software R para la prueba de signos

En R , la prueba binomial se puede realizar utilizando la función binom.test().

La sintaxis de la función es

binom.test ( x , n , p = 0.5 , alternative = c ( "bilateral" , "menor" , "mayor" ), conf.level = 0.95 )            

dónde

Ejemplos de la prueba de signos utilizando la función R binom.test

El ejemplo de prueba de signos de Zar [5] comparó la longitud de las patas traseras y delanteras de los ciervos. La pata trasera era más larga que la delantera en 8 de 10 ciervos. Por lo tanto, hay x = 8 éxitos en n = 10 ensayos. La probabilidad de éxito hipotética (definida como pata trasera más larga que la delantera) es p  = 0,5 bajo la hipótesis nula de que las patas traseras y delanteras no difieren en longitud. La hipótesis alternativa es que la longitud de la pata trasera puede ser mayor o menor que la longitud de la pata delantera, que es una prueba de dos colas, especificada como alternative="two.sided".

El comando R da p=0,1094, como en el ejemplo.binom.test(x=8, n=10, p=0.5, alternative="two.sided")

El ejemplo de la prueba de signos de Conover [6] examinó la preferencia del consumidor por el producto A frente al producto B. La hipótesis nula era que los consumidores no preferían el producto B al producto A. La hipótesis alternativa era que los consumidores preferían el producto B al producto A, una prueba unilateral. En el estudio, 8 de los 9 consumidores que expresaron una preferencia prefirieron el producto B al producto A.

El comando R da p=0,01953, como en el ejemplo.binom.test(x=8, n=9, p=0.5, alternative="greater")

Historia

Conover [6] y Sprent [7] describen el uso de la prueba de signos por parte de John Arbuthnot en 1710. Arbuthnot examinó los registros de nacimiento en Londres durante cada uno de los 82 años desde 1629 hasta 1710. En cada año, el número de varones nacidos en Londres superó al número de mujeres. Si la hipótesis nula de igual número de nacimientos es verdadera, la probabilidad del resultado observado es 1/2 82 , lo que lleva a Arbuthnot a concluir que la probabilidad de nacimientos de varones y mujeres no era exactamente igual.

Por sus publicaciones de 1692 y 1710, a Arbuthnot se le atribuye "... el primer uso de pruebas de significación..." [8] , el primer ejemplo de razonamiento sobre la significación estadística y la certeza moral, [9] y "... quizás el primer informe publicado de una prueba no paramétrica...". [6]

Hald [9] describe además el impacto de la investigación de Arbuthnot.

"Nicholas Bernoulli (1710-1713) completa el análisis de los datos de Arbuthnot al demostrar que la mayor parte de la variación del número anual de nacimientos de varones puede explicarse como binomial con p  = 18/35. Este es el primer ejemplo de ajuste de un binomio a los datos. Por lo tanto, aquí tenemos una prueba de significancia que rechaza la hipótesis p = 0,5 seguida de una estimación de p y una discusión sobre la bondad del ajuste..."

Relación con otras pruebas estadísticas

Prueba de rangos con signo de Wilcoxon

La prueba de los signos sólo requiere que las observaciones de un par estén ordenadas, por ejemplo x > y . En algunos casos, a las observaciones de todos los sujetos se les puede asignar un valor de rango (1, 2, 3, ...). Si las observaciones se pueden clasificar, y cada observación de un par es una muestra aleatoria de una distribución simétrica, entonces la prueba de rangos con signo de Wilcoxon es apropiada. La prueba de Wilcoxon generalmente tendrá mayor poder para detectar diferencias que la prueba de los signos. La eficiencia relativa asintótica de la prueba de los signos con respecto a la prueba de rangos con signo de Wilcoxon, en estas circunstancias, es 0,67. [6]

Prueba t pareada

Si las observaciones pareadas son cantidades numéricas (como la longitud real de la pata trasera y la pata delantera en el ejemplo de Zar), y las diferencias entre las observaciones pareadas son muestras aleatorias de una única distribución normal, entonces la prueba t pareada es apropiada. La prueba t pareada generalmente tendrá mayor poder para detectar diferencias que la prueba de signos. La eficiencia relativa asintótica de la prueba de signos con respecto a la prueba t pareada, en estas circunstancias, es 0,637. Sin embargo, si la distribución de las diferencias entre pares no es normal, sino que es de cola pesada ( distribución platicúrtica ), la prueba de signos puede tener más poder que la prueba t pareada, con una eficiencia relativa asintótica de 2,0 en relación con la prueba t pareada y 1,3 en relación con la prueba de rangos con signo de Wilcoxon. [6]

Prueba de McNemar

En algunas aplicaciones, las observaciones dentro de cada par solo pueden tomar los valores 0 o 1. Por ejemplo, 0 puede indicar un fracaso y 1 puede indicar un éxito. Hay 4 pares posibles: {0,0}, {0,1}, {1,0} y {1,1}. En estos casos, se utiliza el mismo procedimiento que la prueba de los signos, pero se conoce como prueba de McNemar . [6]

Prueba de Friedman

En lugar de observaciones pareadas como (Producto A, Producto B), los datos pueden constar de tres o más niveles (Producto A, Producto B, Producto C). Si las observaciones individuales se pueden ordenar de la misma manera que para la prueba de signos, por ejemplo B > C > A, entonces se puede utilizar la prueba de Friedman . [5]

Prueba del trinomio

Bian, McAleer y Wong [10] propusieron en 2011 una prueba no paramétrica para datos pareados cuando hay muchos empates. Demostraron que su prueba trinomial es superior a la prueba de signos en presencia de empates.

Véase también

Referencias

  1. ^ Baguley, Thomas (2012), Estadísticas serias: una guía de estadísticas avanzadas para las ciencias del comportamiento, Palgrave Macmillan, pág. 281, ISBN 9780230363557.
  2. ^ Corder, Gregory W.; Foreman, Dale I. (2014), "3.6 Poder estadístico", Estadísticas no paramétricas: un enfoque paso a paso (2.ª ed.), John Wiley & Sons, ISBN 9781118840429.
  3. ^ La prueba de signos para una mediana // STAT 415 Introducción a las estadísticas matemáticas. Universidad Estatal de Pensilvania.
  4. ^ ab Mendenhall W, Wackerly DD, Scheaffer RL (1989), "15: Estadísticas no paramétricas", Estadística matemática con aplicaciones (cuarta edición), PWS-Kent, págs. 674–679, ISBN 0-534-92026-8
  5. ^ abc Zar, Jerold H. (1999), "Capítulo 24: Más sobre variables dicotómicas", Análisis bioestadístico (cuarta edición), Prentice-Hall, págs. 516-570, ISBN 0-13-081542-X
  6. ^ abcdefg Conover, WJ (1999), "Capítulo 3.4: La prueba de signos", Practical Nonparametric Statistics (tercera edición), Wiley, págs. 157-176, ISBN 0-471-16068-7
  7. ^ ab Sprent, P. (1989), Métodos estadísticos no paramétricos aplicados (segunda edición), Chapman & Hall, ISBN 0-412-44980-3
  8. ^ Bellhouse, P. (2001), "John Arbuthnot", en CC Heyde ; E. Seneta (eds.), en Estadísticos de los siglos , Springer, págs. 39-42, ISBN 0-387-95329-9
  9. ^ ab Hald, Anders (1998), "Capítulo 4. Azar o diseño: Pruebas de significancia", Una historia de las estadísticas matemáticas de 1750 a 1930 , Wiley, pág. 65
  10. ^ Bian G, McAleer M, Wong WK ​​(2011), Una prueba trinomial para datos pareados cuando hay muchos empates. , Matemáticas y computadoras en simulación, 81(6), págs. 1153–1160