stringtranslate.com

Normalización cuantil

En estadística, la normalización por cuantiles es una técnica para hacer que dos distribuciones sean idénticas en sus propiedades estadísticas. Para normalizar por cuantiles una distribución de prueba con respecto a una distribución de referencia de la misma longitud, ordene la distribución de prueba y ordene la distribución de referencia. La entrada más alta de la distribución de prueba toma entonces el valor de la entrada más alta de la distribución de referencia, la siguiente entrada más alta de la distribución de referencia, y así sucesivamente, hasta que la distribución de prueba sea una perturbación de la distribución de referencia.

Para normalizar por cuantiles dos o más distribuciones entre sí, sin una distribución de referencia, ordene como antes y luego establezca el promedio (generalmente, la media aritmética ) de las distribuciones. De modo que el valor más alto en todos los casos se convierte en la media de los valores más altos, el segundo valor más alto se convierte en la media de los segundos valores más altos, y así sucesivamente.

En general, una distribución de referencia será una de las distribuciones estadísticas estándar, como la distribución gaussiana o la distribución de Poisson . La distribución de referencia se puede generar de forma aleatoria o tomando muestras regulares de la función de distribución acumulativa de la distribución. Sin embargo, se puede utilizar cualquier distribución de referencia.

La normalización cuantil se utiliza con frecuencia en el análisis de datos de microarrays . Se introdujo como estandarización cuantil [1] y luego se renombró como normalización cuantil [2] .

Ejemplo

Una ilustración rápida de dicha normalización en un conjunto de datos muy pequeño, organizado en columnas (1-3) y filas (AD):

Para cada columna, clasifique las entradas de menor a mayor (i a iv):

Deje de lado estos valores de clasificación para utilizarlos más adelante. Vuelva al primer conjunto de datos. Reorganice los valores de cada columna de modo que cada una esté ordenada de menor a mayor. El resultado es:

Ahora encuentre la media para cada fila y clasifíquelas de menor a mayor (i a iv):

Ahora tome el orden de clasificación de antes y sustituya los medios de acuerdo con sus rangos correspondientes:

Estos son los nuevos valores normalizados.

Sin embargo, tenga en cuenta que cuando, como en la columna dos, los valores están empatados en rango, se les debe asignar la media de los valores correspondientes a los rangos que normalmente representarían si fueran diferentes. En el caso de la columna 2, representan los rangos iii y iv. Por lo tanto, asignamos a las dos entradas empatadas de rango iii el promedio del rango iii y el rango iv ((4,67 + 5,67)/2 = 5,17). Y así llegamos al siguiente conjunto de valores normalizados:

Los nuevos valores tienen la misma distribución y ahora se pueden comparar fácilmente. A continuación se muestran las estadísticas resumidas de cada una de las tres columnas:

Referencias

  1. ^ Amaratunga, D.; Cabrera, J. (2001). "Análisis de datos de microchips de ADN viral". Revista de la Asociación Estadounidense de Estadística . 96 (456): 1161. doi :10.1198/016214501753381814. S2CID  18154109.
  2. ^ Bolstad, BM; Irizarry, RA; Astrand, M.; Speed, TP (2003). "Una comparación de métodos de normalización para datos de matrices de oligonucleótidos de alta densidad basados ​​en la varianza y el sesgo". Bioinformática . 19 (2): 185–193. doi : 10.1093/bioinformatics/19.2.185 . PMID  12538238.

Enlaces externos