Las técnicas de análisis de microarrays se utilizan para interpretar los datos generados a partir de experimentos con ADN ( análisis de chip genético ), ARN y microarrays de proteínas, que permiten a los investigadores investigar el estado de expresión de una gran cantidad de genes (en muchos casos, el genoma completo de un organismo ). en un solo experimento. [1] Estos experimentos pueden generar grandes cantidades de datos, lo que permite a los investigadores evaluar el estado general de una célula u organismo. Es difícil, si no imposible, analizar datos en cantidades tan grandes sin la ayuda de programas informáticos.
El análisis de datos de microarrays es el paso final en la lectura y el procesamiento de datos producidos por un chip de microarrays. Las muestras se someten a varios procesos, incluida la purificación y el escaneo mediante el microchip, que luego produce una gran cantidad de datos que requieren procesamiento mediante software de computadora. Implica varios pasos distintos, como se describe en la imagen a continuación. Cambiar cualquiera de los pasos cambiará el resultado del análisis, por lo que el Proyecto MAQC [2] se creó para identificar un conjunto de estrategias estándar. Existen empresas que utilizan los protocolos MAQC para realizar un análisis completo. [3]
La mayoría de los fabricantes de microarrays, como Affymetrix y Agilent , [4] ofrecen software comercial de análisis de datos junto con sus productos de microarrays. También existen opciones de código abierto que utilizan una variedad de métodos para analizar datos de microarrays.
Comparar dos matrices diferentes o dos muestras diferentes hibridadas con la misma matriz generalmente implica realizar ajustes para errores sistemáticos introducidos por diferencias en los procedimientos y efectos de intensidad del tinte. La normalización del tinte para dos matrices de colores a menudo se logra mediante regresión local . LIMMA proporciona un conjunto de herramientas para corrección y escalado de fondo, así como una opción para promediar puntos duplicados en diapositivas. [5] Un método común para evaluar qué tan bien normalizada está una matriz es trazar un diagrama MA de los datos. Los gráficos MA se pueden producir utilizando programas y lenguajes como R y MATLAB. [6] [7]
Los datos sin procesar de Affy contienen alrededor de veinte sondas para el mismo objetivo de ARN. La mitad de ellos son "puntos no coincidentes", que no coinciden exactamente con la secuencia objetivo. En teoría, estos pueden medir la cantidad de unión no específica para un objetivo determinado. El promedio robusto de matrices múltiples (RMA) [8] es un enfoque de normalización que no aprovecha estos puntos de discrepancia, pero aún debe resumir las coincidencias perfectas mediante el pulido medio . [9] El algoritmo de pulido mediano, aunque robusto, se comporta de manera diferente dependiendo del número de muestras analizadas. [10] La normalización cuantil, también parte de RMA, es un enfoque sensato para normalizar un lote de matrices con el fin de que las comparaciones adicionales sean significativas.
El algoritmo actual de Affymetrix MAS5, que utiliza sondas de coincidencia perfecta y de falta de coincidencia, continúa gozando de popularidad y obtiene buenos resultados en las pruebas comparativas. [11]
El análisis factorial para el resumen robusto de microarrays (FARMS) [12] es una técnica basada en modelos para resumir datos de matrices a un nivel de sonda de coincidencia perfecta. Se basa en un modelo de análisis factorial para el cual un método bayesiano máximo a posteriori optimiza los parámetros del modelo bajo el supuesto de ruido de medición gaussiano. Según el punto de referencia de Affycomp [13], FARMS superó a todos los demás métodos de resúmenes con respecto a sensibilidad y especificidad.
Existen muchas estrategias para identificar sondas de matriz que muestran un nivel inusual de sobreexpresión o subexpresión. La más sencilla es llamar "significativa" a cualquier sonda que difiera en un promedio de al menos el doble entre los grupos de tratamiento. Los enfoques más sofisticados suelen estar relacionados con pruebas t u otros mecanismos que tienen en cuenta tanto el tamaño del efecto como la variabilidad. Curiosamente, los valores p asociados con genes particulares no se reproducen bien entre experimentos replicados, y las listas generadas mediante cambios directos funcionan mucho mejor. [14] [15] Esto representa una observación extremadamente importante, ya que el objetivo de realizar experimentos tiene que ver con predecir el comportamiento general. El grupo MAQC recomienda utilizar una evaluación del cambio de pliegue más un límite de valor p no estricto, señalando además que los cambios en la corrección de fondo y el proceso de escalamiento tienen sólo un impacto mínimo en el orden de clasificación de las diferencias de cambio de pliegue, pero un impacto sustancial en valores p. [14]
La agrupación es una técnica de extracción de datos que se utiliza para agrupar genes que tienen patrones de expresión similares. La agrupación jerárquica y la agrupación de k-medias son técnicas ampliamente utilizadas en el análisis de microarrays.
La agrupación jerárquica es un método estadístico para encontrar agrupaciones relativamente homogéneas . La agrupación jerárquica consta de dos fases separadas. Inicialmente, se calcula una matriz de distancias que contiene todas las distancias por pares entre los genes. La correlación de Pearson y la correlación de Spearman se utilizan a menudo como estimaciones de disimilitud, pero también se pueden aplicar otros métodos, como la distancia de Manhattan o la distancia euclidiana . Dada la cantidad de medidas de distancia disponibles y su influencia en los resultados del algoritmo de agrupamiento, varios estudios han comparado y evaluado diferentes medidas de distancia para el agrupamiento de datos de microarrays, considerando sus propiedades intrínsecas y su robustez al ruido. [16] [17] [18] Después del cálculo de la matriz de distancia inicial, el algoritmo de agrupamiento jerárquico (A) une iterativamente los dos grupos más cercanos a partir de puntos de datos únicos (enfoque aglomerativo, ascendente, que se usa con bastante mayor frecuencia). ), o (B) particiona los grupos de forma iterativa a partir del conjunto completo (enfoque divisivo, de arriba hacia abajo). Después de cada paso, se vuelve a calcular una nueva matriz de distancia entre los grupos recién formados y los otros grupos. Los métodos de análisis de conglomerados jerárquicos incluyen:
Diferentes estudios ya han demostrado empíricamente que el algoritmo de agrupamiento de enlace único produce malos resultados cuando se emplea para datos de microarrays de expresión genética y, por lo tanto, debe evitarse. [18] [19]
La agrupación de K-medias es un algoritmo para agrupar genes o muestras según un patrón en K grupos. La agrupación se realiza minimizando la suma de los cuadrados de las distancias entre los datos y el centroide del grupo correspondiente . Por tanto, el propósito de la agrupación de K-medias es clasificar datos basándose en expresiones similares. [20] Se ha demostrado que el algoritmo de agrupamiento K-medias y algunas de sus variantes (incluidos los k-medoides ) producen buenos resultados para los datos de expresión génica (al menos mejores que los métodos de agrupamiento jerárquico). En la literatura se pueden encontrar comparaciones empíricas de k-medias , k-medoides , métodos jerárquicos y diferentes medidas de distancia. [18] [19]
Los sistemas comerciales para el análisis de redes genéticas, como Ingenuity [21] y Pathway Studio [22], crean representaciones visuales de genes expresados diferencialmente basándose en la literatura científica actual. Herramientas no comerciales como FunRich, [23] GenMAPP y Moksiskaan también ayudan a organizar y visualizar datos de redes genéticas obtenidos de uno o varios experimentos de microarrays. Una amplia variedad de herramientas de análisis de microarrays están disponibles a través de Bioconductor escrito en el lenguaje de programación R. El módulo SAM frecuentemente citado y otras herramientas de microarrays [24] están disponibles a través de la Universidad de Stanford. Otro juego está disponible en Harvard y MIT. [25]
También se han desarrollado herramientas de software especializadas para análisis estadístico para determinar el grado de sobreexpresión o subexpresión de un gen en un experimento de microarrays en relación con un estado de referencia para ayudar a identificar genes o conjuntos de genes asociados con fenotipos particulares . Uno de esos métodos de análisis, conocido como análisis de enriquecimiento de conjuntos de genes (GSEA), utiliza una estadística de estilo Kolmogorov-Smirnov para identificar grupos de genes que se regulan juntos. [1] Este paquete de estadísticas de terceros ofrece al usuario información sobre los genes o conjuntos de genes de interés, incluidos enlaces a entradas en bases de datos como GenBank del NCBI y bases de datos seleccionadas como Biocarta [26] y Gene Ontology . La herramienta de análisis de enriquecimiento de complejos de proteínas (COMPLEAT) proporciona un análisis de enriquecimiento similar a nivel de complejos de proteínas. [27] La herramienta puede identificar la regulación dinámica del complejo proteico en diferentes condiciones o momentos. El sistema relacionado, PAINT [28] y SCOPE [29] realiza un análisis estadístico de regiones promotoras de genes, identificando una representación excesiva o insuficiente de elementos de respuesta de factores de transcripción previamente identificados . Otra herramienta de análisis estadístico son las estadísticas de suma de rangos para colecciones de conjuntos de genes (RssGsc), que utiliza funciones de distribución de probabilidad de suma de rangos para encontrar conjuntos de genes que expliquen los datos experimentales. [30] Otro enfoque es el metanálisis contextual, es decir, descubrir cómo responde un grupo de genes a una variedad de contextos experimentales. Genevestigator es una herramienta pública para realizar metanálisis contextual en contextos como partes anatómicas, etapas de desarrollo y respuesta a enfermedades, sustancias químicas, estrés y neoplasias .
El análisis de significancia de microarrays (SAM) es una técnica estadística , establecida en 2001 por Virginia Tusher, Robert Tibshirani y Gilbert Chu , para determinar si los cambios en la expresión genética son estadísticamente significativos. Con la llegada de los microarrays de ADN , ahora es posible medir la expresión de miles de genes en un único experimento de hibridación. Los datos generados son considerables y es esencial contar con un método para separar lo que es significativo y lo que no. SAM es distribuido por la Universidad de Stanford en un paquete R. [31]
SAM identifica genes estadísticamente significativos mediante la realización de pruebas t específicas de genes y calcula una estadística d j para cada gen j , que mide la fuerza de la relación entre la expresión genética y una variable de respuesta. [32] [33] [34] Este análisis utiliza estadísticas no paramétricas , ya que los datos pueden no seguir una distribución normal . La variable respuesta describe y agrupa los datos en función de las condiciones experimentales. En este método, se utilizan permutaciones repetidas de los datos para determinar si la expresión de algún gen está relacionada significativamente con la respuesta. El uso de análisis basado en permutaciones tiene en cuenta las correlaciones en los genes y evita suposiciones paramétricas sobre la distribución de genes individuales. Esta es una ventaja sobre otras técnicas (por ejemplo, ANOVA y Bonferroni ), que suponen igual varianza y/o independencia de los genes. [35]
el número de permutaciones lo establece el usuario al imputar los valores correctos para el conjunto de datos para ejecutar SAM
Tipos: [32]
SAM calcula una estadística de prueba para la diferencia relativa en la expresión genética basándose en el análisis de permutación de los datos de expresión y calcula una tasa de descubrimiento falso. Los principales cálculos del programa se ilustran a continuación. [32] [33] [34]
La constante so se elige para minimizar el coeficiente de variación de d i . r i es igual a los niveles de expresión (x) para el gen i en y condiciones experimentales.
Los cambios en veces (t) se especifican para garantizar que los genes llamados cambios significativos tengan al menos una cantidad preespecificada. Esto significa que el valor absoluto de los niveles de expresión promedio de un gen bajo cada una de las dos condiciones debe ser mayor que el cambio (t) para ser llamado positivo y menor que el inverso del cambio (t) para ser llamado negativo.
El algoritmo SAM se puede expresar como:
Conjuntos enteros pueden tener defectos obvios detectables mediante inspección visual, comparaciones por pares con conjuntos en el mismo grupo experimental o mediante análisis de degradación de ARN. [39] Los resultados pueden mejorar si se eliminan por completo estas matrices del análisis.
Dependiendo del tipo de matriz, la señal relacionada con la unión no específica del fluoróforo se puede restar para lograr mejores resultados. Un enfoque implica restar la intensidad de señal promedio del área entre puntos. TIGR, [40] Agilent (GeneSpring), [41] y Ocimum Bio Solutions (Genowiz) ofrecen una variedad de herramientas para la corrección de fondo y análisis adicionales . [42]
La identificación visual de artefactos locales, como defectos de impresión o lavado, también puede sugerir la eliminación de manchas individuales. Esto puede llevar una cantidad considerable de tiempo dependiendo de la calidad de fabricación del conjunto. Además, algunos procedimientos exigen la eliminación de todas las manchas con un valor de expresión inferior a un determinado umbral de intensidad.