stringtranslate.com

Normalización cuantil

En estadística, la normalización cuantil es una técnica para hacer que dos distribuciones sean idénticas en propiedades estadísticas. Para normalizar por cuantiles una distribución de prueba a una distribución de referencia de la misma longitud, ordene la distribución de prueba y ordene la distribución de referencia. La entrada más alta en la distribución de prueba toma entonces el valor de la entrada más alta en la distribución de referencia, la siguiente entrada más alta en la distribución de referencia, y así sucesivamente, hasta que la distribución de prueba sea una perturbación de la distribución de referencia.

Para normalizar por cuantiles dos o más distribuciones entre sí, sin una distribución de referencia, ordene como antes y luego establezca el promedio (generalmente, media aritmética ) de las distribuciones. Así, el valor más alto en todos los casos se convierte en la media de los valores más altos, el segundo valor más alto se convierte en la media de los segundos valores más altos, y así sucesivamente.

Generalmente una distribución de referencia será una de las distribuciones estadísticas estándar como la distribución Gaussiana o la distribución Poisson . La distribución de referencia se puede generar aleatoriamente o tomando muestras regulares de la función de distribución acumulativa de la distribución. Sin embargo, se puede utilizar cualquier distribución de referencia.

La normalización cuantil se utiliza con frecuencia en el análisis de datos de microarrays . Se introdujo como estandarización cuantil [1] y luego se le cambió el nombre a normalización cuantil . [2]

Ejemplo

Un ejemplo rápido de dicha normalización en un conjunto de datos muy pequeño:

Matrices 1 a 3, genes A a D

Un 5 4 3B 2 1 4C 3 4 6D 4 2 8

Para cada columna, determine una clasificación de menor a mayor y asigne el número i-iv

A iv iii yoB ii iiC ii iii iiiD iii ii iv

Estos valores de clasificación se reservan para utilizarlos más adelante. Regrese al primer conjunto de datos. Reorganice el primer conjunto de valores de columnas para que cada columna esté en orden, de menor a mayor valor. (La primera columna consta de 5,2,3,4. Esto se reorganiza en 2,3,4,5. La segunda columna 4,1,4,2 se reorganiza en 1,2,4,4 y la columna 3 consta de 3,4,6,8 permanece igual porque ya está en orden de menor a mayor valor). El resultado es:

A 5 4 3 se convierte en A 2 1 3B 2 1 4 se convierte en B 3 2 4C 3 4 6 se convierte en C 4 4 6D 4 2 8 se convierte en D 5 4 8

Ahora encuentre la media de cada fila para determinar los rangos.

A (2 + 1 + 3)/3 = 2,00 = rango iB (3 + 2 + 4)/3 = 3,00 = rango iiC (4 + 4 + 6)/3 = 4,67 = rango iiiD (5 + 4 + 8)/3 = 5,67 = rango iv

Ahora tome el orden de clasificación y sustitúyalo por nuevos valores.

A iv iii yoB ii iiC ii iii iiiD iii ii iv

se convierte en:

5,67 4,67 2,00B 2,00 2,00 3,003,00 4,67 4,67D 4,67 3,00 5,67

Estos son los nuevos valores normalizados.

Sin embargo, tenga en cuenta que cuando, como en la columna dos, los valores están empatados en rango, se les debe asignar la media de los valores correspondientes a los rangos que normalmente representarían si fueran diferentes. En el caso de la columna 2, representan los rangos iii y iv. Así que asignamos a las dos entradas empatadas del rango iii la media de 4,67 para el rango iii y 5,67 para el rango iv, que es 5,17. Y así llegamos al siguiente conjunto de valores normalizados:

5,67 5,17 2,00B 2,00 2,00 3,003,00 5,17 4,67D 4,67 3,00 5,67

Los nuevos valores tienen la misma distribución y ahora se pueden comparar fácilmente. Aquí están las estadísticas resumidas para cada una de las tres columnas:

Mín. :2.000 Mín. :2.000 Mín. :2.000 1º Qu.:2.750 1º Qu.:2.750 1º Qu.:2.750 Mediana:3.833 Mediana:4.083 Mediana:3.833 Media :3.833 Media :3.833 Media :3.833 3º Qu.:4.917 3º Qu.:5.167 3º Qu.:4.917 Máx. :5.667 Máx. :5.167 Máx. :5.667

Referencias

  1. ^ Amaratunga, D.; Cabrera, J. (2001). "Análisis de datos de microchips de ADN viral". Revista de la Asociación Estadounidense de Estadística . 96 (456): 1161. doi : 10.1198/016214501753381814. S2CID  18154109.
  2. ^ Bolstad, BM; Irizarry, RA; Astrand, M.; Velocidad, TP (2003). "Una comparación de métodos de normalización para datos de matrices de oligonucleótidos de alta densidad basada en la varianza y el sesgo". Bioinformática . 19 (2): 185-193. doi : 10.1093/bioinformática/19.2.185 . PMID  12538238.

enlaces externos