Las técnicas de análisis de microarrays se utilizan para interpretar los datos generados a partir de experimentos con ADN ( análisis de chips genéticos ), ARN y microarrays de proteínas , que permiten a los investigadores investigar el estado de expresión de una gran cantidad de genes (en muchos casos, el genoma completo de un organismo ) en un solo experimento. [1] Dichos experimentos pueden generar cantidades muy grandes de datos, lo que permite a los investigadores evaluar el estado general de una célula u organismo. Es difícil (si no imposible) analizar datos en cantidades tan grandes sin la ayuda de programas informáticos.
El análisis de datos de microarrays es el paso final en la lectura y procesamiento de los datos producidos por un chip de microarrays. Las muestras se someten a varios procesos, incluida la purificación y el escaneo mediante el microchip, que luego produce una gran cantidad de datos que requieren procesamiento mediante software informático. Implica varios pasos distintos, como se describe en la imagen siguiente. Cambiar cualquiera de los pasos cambiará el resultado del análisis, por lo que se creó el Proyecto MAQC [2] para identificar un conjunto de estrategias estándar. Existen empresas que utilizan los protocolos MAQC para realizar un análisis completo. [3]
La mayoría de los fabricantes de microarrays, como Affymetrix y Agilent [4] , ofrecen software de análisis de datos comerciales junto con sus productos de microarrays. También existen opciones de código abierto que utilizan una variedad de métodos para analizar datos de microarrays.
Comparar dos matrices diferentes o dos muestras diferentes hibridadas con la misma matriz generalmente implica realizar ajustes para errores sistemáticos introducidos por diferencias en los procedimientos y efectos de intensidad de colorante. La normalización del colorante para dos matrices de color se logra a menudo mediante regresión local . LIMMA proporciona un conjunto de herramientas para la corrección de fondo y el escalado, así como una opción para promediar los puntos duplicados en la diapositiva. [5] Un método común para evaluar qué tan bien normalizada está una matriz es trazar un gráfico MA de los datos. Los gráficos MA se pueden producir utilizando programas y lenguajes como R y MATLAB. [6] [7]
Los datos Affy sin procesar contienen alrededor de veinte sondas para el mismo objetivo de ARN. La mitad de estos son "puntos de desajuste", que no coinciden exactamente con la secuencia objetivo. Estos pueden medir teóricamente la cantidad de unión no específica para un objetivo determinado. El promedio de múltiples matrices robustas (RMA) [8] es un enfoque de normalización que no aprovecha estos puntos de desajuste, pero aún debe resumir las coincidencias perfectas a través del pulido de la mediana . [9] El algoritmo de pulido de la mediana, aunque robusto, se comporta de manera diferente según la cantidad de muestras analizadas. [10] La normalización por cuantiles , también parte de RMA, es un enfoque sensato para normalizar un lote de matrices con el fin de hacer que las comparaciones posteriores sean significativas.
El algoritmo actual Affymetrix MAS5, que utiliza sondas de coincidencia perfecta y de no coincidencia, sigue gozando de popularidad y obtiene buenos resultados en pruebas cara a cara. [11]
El análisis factorial para el resumen robusto de microarrays (FARMS) [12] es una técnica basada en modelos para resumir datos de arrays a nivel de sonda de coincidencia perfecta. Se basa en un modelo de análisis factorial para el cual un método de máximo bayesiano a posteriori optimiza los parámetros del modelo bajo el supuesto de ruido de medición gaussiano. Según el benchmark Affycomp [13], FARMS superó a todos los demás métodos de resumen con respecto a la sensibilidad y especificidad.
Existen muchas estrategias para identificar sondas de matriz que muestran un nivel inusual de sobreexpresión o subexpresión. La más simple es llamar "significativa" a cualquier sonda que difiera en un promedio de al menos el doble entre los grupos de tratamiento. Los enfoques más sofisticados a menudo están relacionados con pruebas t u otros mecanismos que tienen en cuenta tanto el tamaño del efecto como la variabilidad. Curiosamente, los valores p asociados con genes particulares no se reproducen bien entre experimentos replicados, y las listas generadas por cambio de pliegue directo funcionan mucho mejor. [14] [15] Esto representa una observación extremadamente importante, ya que el objetivo de realizar experimentos tiene que ver con predecir el comportamiento general. El grupo MAQC recomienda utilizar una evaluación de cambio de pliegue más un valor p de corte no estricto, señalando además que los cambios en el proceso de corrección de fondo y escala tienen solo un impacto mínimo en el orden de clasificación de las diferencias de cambio de pliegue, pero un impacto sustancial en los valores p. [14]
La agrupación es una técnica de minería de datos que se utiliza para agrupar genes que tienen patrones de expresión similares. La agrupación jerárquica y la agrupación k-means son técnicas ampliamente utilizadas en el análisis de microarrays.
El agrupamiento jerárquico es un método estadístico para encontrar agrupamientos relativamente homogéneos . El agrupamiento jerárquico consta de dos fases separadas. Inicialmente, se calcula una matriz de distancia que contiene todas las distancias por pares entre los genes. La correlación de Pearson y la correlación de Spearman se utilizan a menudo como estimaciones de disimilitud, pero también se pueden aplicar otros métodos, como la distancia de Manhattan o la distancia euclidiana . Dado el número de medidas de distancia disponibles y su influencia en los resultados del algoritmo de agrupamiento, varios estudios han comparado y evaluado diferentes medidas de distancia para el agrupamiento de datos de microarrays, considerando sus propiedades intrínsecas y su robustez al ruido. [16] [17] [18] Después del cálculo de la matriz de distancia inicial, el algoritmo de agrupamiento jerárquico (A) une iterativamente los dos agrupamientos más cercanos a partir de puntos de datos individuales (enfoque aglomerativo, de abajo hacia arriba, que se utiliza con bastante más frecuencia), o (B) divide los agrupamientos iterativamente a partir del conjunto completo (enfoque divisivo, de arriba hacia abajo). Después de cada paso, se vuelve a calcular una nueva matriz de distancia entre los clústeres recién formados y los demás clústeres. Los métodos de análisis de clústeres jerárquicos incluyen:
Diferentes estudios ya han demostrado empíricamente que el algoritmo de agrupamiento de ligamiento simple produce malos resultados cuando se emplea en datos de microarrays de expresión genética y, por lo tanto, debería evitarse. [18] [19]
El agrupamiento de K-medias es un algoritmo para agrupar genes o muestras en función de un patrón en K grupos. El agrupamiento se realiza minimizando la suma de los cuadrados de las distancias entre los datos y el centroide del grupo correspondiente . Por lo tanto, el propósito del agrupamiento de K-medias es clasificar los datos en función de la expresión similar. [20] Se ha demostrado que el algoritmo de agrupamiento de K-medias y algunas de sus variantes (incluidos los k-medoides ) producen buenos resultados para los datos de expresión genética (al menos mejores que los métodos de agrupamiento jerárquico). Se pueden encontrar comparaciones empíricas de k-medias , k-medoides , métodos jerárquicos y diferentes medidas de distancia en la literatura. [18] [19]
Los sistemas comerciales para el análisis de redes genéticas, como Ingenuity [21] y Pathway Studio [22], crean representaciones visuales de genes expresados de forma diferencial basándose en la literatura científica actual. Las herramientas no comerciales, como FunRich, [23] GenMAPP y Moksiskaan, también ayudan a organizar y visualizar los datos de redes genéticas obtenidos de uno o varios experimentos de microarrays. Existe una amplia variedad de herramientas de análisis de microarrays disponibles a través de Bioconductor , escritas en el lenguaje de programación R. El módulo SAM, citado con frecuencia, y otras herramientas de microarrays [24] están disponibles a través de la Universidad de Stanford. Otro conjunto está disponible en Harvard y el MIT. [25]
También se han desarrollado herramientas de software especializadas para el análisis estadístico para determinar el grado de sobreexpresión o subexpresión de un gen en un experimento de microarrays en relación con un estado de referencia para ayudar a identificar genes o conjuntos de genes asociados con fenotipos particulares . Uno de estos métodos de análisis, conocido como análisis de enriquecimiento de conjuntos de genes (GSEA), utiliza una estadística de estilo Kolmogorov-Smirnov para identificar grupos de genes que se regulan juntos. [1] Este paquete de estadísticas de terceros ofrece al usuario información sobre los genes o conjuntos de genes de interés, incluidos enlaces a entradas en bases de datos como GenBank de NCBI y bases de datos curadas como Biocarta [26] y Gene Ontology . La herramienta de análisis de enriquecimiento de complejos de proteínas (COMPLEAT) proporciona un análisis de enriquecimiento similar a nivel de complejos de proteínas. [27] La herramienta puede identificar la regulación dinámica del complejo de proteínas en diferentes condiciones o puntos de tiempo. El sistema relacionado, PAINT [28] y SCOPE [29] realiza un análisis estadístico sobre las regiones promotoras de genes, identificando la sobrerrepresentación y la subrepresentación de elementos de respuesta de factores de transcripción identificados previamente. Otra herramienta de análisis estadístico es Rank Sum Statistics for Gene Set Collections (RssGsc), que utiliza funciones de distribución de probabilidad de suma de rangos para encontrar conjuntos de genes que expliquen datos experimentales. [30] Otro enfoque es el metaanálisis contextual, es decir, averiguar cómo responde un grupo de genes a una variedad de contextos experimentales. Genevestigator es una herramienta pública para realizar metaanálisis contextuales en contextos como partes anatómicas, etapas de desarrollo y respuesta a enfermedades, sustancias químicas, tensiones y neoplasias .
El análisis de significancia de microarrays (SAM) es una técnica estadística , establecida en 2001 por Virginia Tusher, Robert Tibshirani y Gilbert Chu , para determinar si los cambios en la expresión génica son estadísticamente significativos. Con la llegada de los microarrays de ADN , ahora es posible medir la expresión de miles de genes en un solo experimento de hibridación. Los datos generados son considerables y es esencial un método para clasificar lo que es significativo y lo que no. SAM es distribuido por la Universidad de Stanford en un paquete R. [31 ]
SAM identifica genes estadísticamente significativos al realizar pruebas t específicas de genes y calcula una estadística d j para cada gen j , que mide la fuerza de la relación entre la expresión génica y una variable de respuesta. [32] [33] [34] Este análisis utiliza estadísticas no paramétricas , ya que los datos pueden no seguir una distribución normal . La variable de respuesta describe y agrupa los datos en función de las condiciones experimentales. En este método, se utilizan permutaciones repetidas de los datos para determinar si la expresión de cualquier gen está significativamente relacionada con la respuesta. El uso del análisis basado en permutaciones tiene en cuenta las correlaciones en los genes y evita suposiciones paramétricas sobre la distribución de genes individuales. Esta es una ventaja sobre otras técnicas (por ejemplo, ANOVA y Bonferroni ), que suponen una varianza igual y/o independencia de los genes. [35]
El número de permutaciones lo establece el usuario al imputar valores correctos para el conjunto de datos para ejecutar SAM.
Tipos: [32]
SAM calcula una estadística de prueba para la diferencia relativa en la expresión génica basándose en el análisis de permutación de los datos de expresión y calcula una tasa de descubrimiento falso. Los cálculos principales del programa se ilustran a continuación. [32] [33] [34]
La constante s o se elige para minimizar el coeficiente de variación de d i . r i es igual a los niveles de expresión (x) para el gen i en las condiciones experimentales y.
Los cambios de pliegue (t) se especifican para garantizar que los genes considerados significativos cambien al menos en una cantidad preestablecida. Esto significa que el valor absoluto de los niveles de expresión promedio de un gen en cada una de las dos condiciones debe ser mayor que el cambio de pliegue (t) para que se considere positivo y menor que el inverso del cambio de pliegue (t) para que se considere negativo.
El algoritmo SAM se puede resumir así:
Es posible que conjuntos enteros presenten fallas obvias detectables mediante inspección visual, comparaciones por pares con conjuntos del mismo grupo experimental o mediante análisis de la degradación del ARN. [39] Los resultados pueden mejorar si se eliminan por completo estos conjuntos del análisis.
Dependiendo del tipo de matriz, se puede restar la señal relacionada con la unión no específica del fluoróforo para lograr mejores resultados. Un enfoque implica restar la intensidad de señal promedio del área entre los puntos. TIGR, [40] Agilent (GeneSpring), [41] y Ocimum Bio Solutions (Genowiz) ofrecen una variedad de herramientas para la corrección de fondo y un análisis más detallado. [42]
La identificación visual de artefactos locales, como defectos de impresión o de lavado, también puede sugerir la eliminación de manchas individuales. Esto puede llevar una cantidad considerable de tiempo dependiendo de la calidad de fabricación de la matriz. Además, algunos procedimientos requieren la eliminación de todas las manchas con un valor de expresión por debajo de un cierto umbral de intensidad.