stringtranslate.com

Técnicas de análisis de microarrays

Ejemplo de una micromatriz de oligonucleótidos con aproximadamente 40 000 sondas, con recuadro ampliado para mostrar los detalles.

Las técnicas de análisis de microarrays se utilizan para interpretar los datos generados a partir de experimentos con ADN ( análisis de chips genéticos ), ARN y microarrays de proteínas , que permiten a los investigadores investigar el estado de expresión de una gran cantidad de genes (en muchos casos, el genoma completo de un organismo  ) en un solo experimento. [1] Dichos experimentos pueden generar cantidades muy grandes de datos, lo que permite a los investigadores evaluar el estado general de una célula u organismo. Es difícil (si no imposible) analizar datos en cantidades tan grandes sin la ayuda de programas informáticos.

Introducción

El análisis de datos de microarrays es el paso final en la lectura y procesamiento de los datos producidos por un chip de microarrays. Las muestras se someten a varios procesos, incluida la purificación y el escaneo mediante el microchip, que luego produce una gran cantidad de datos que requieren procesamiento mediante software informático. Implica varios pasos distintos, como se describe en la imagen siguiente. Cambiar cualquiera de los pasos cambiará el resultado del análisis, por lo que se creó el Proyecto MAQC [2] para identificar un conjunto de estrategias estándar. Existen empresas que utilizan los protocolos MAQC para realizar un análisis completo. [3]

Los pasos necesarios en un experimento de microarrays

Técnicas

Científico del Centro Nacional de Investigaciones Toxicológicas analiza datos de microarrays

La mayoría de los fabricantes de microarrays, como Affymetrix y Agilent [4] , ofrecen software de análisis de datos comerciales junto con sus productos de microarrays. También existen opciones de código abierto que utilizan una variedad de métodos para analizar datos de microarrays.

Agregación y normalización

Comparar dos matrices diferentes o dos muestras diferentes hibridadas con la misma matriz generalmente implica realizar ajustes para errores sistemáticos introducidos por diferencias en los procedimientos y efectos de intensidad de colorante. La normalización del colorante para dos matrices de color se logra a menudo mediante regresión local . LIMMA proporciona un conjunto de herramientas para la corrección de fondo y el escalado, así como una opción para promediar los puntos duplicados en la diapositiva. [5] Un método común para evaluar qué tan bien normalizada está una matriz es trazar un gráfico MA de los datos. Los gráficos MA se pueden producir utilizando programas y lenguajes como R y MATLAB. [6] [7]

Los datos Affy sin procesar contienen alrededor de veinte sondas para el mismo objetivo de ARN. La mitad de estos son "puntos de desajuste", que no coinciden exactamente con la secuencia objetivo. Estos pueden medir teóricamente la cantidad de unión no específica para un objetivo determinado. El promedio de múltiples matrices robustas (RMA) [8] es un enfoque de normalización que no aprovecha estos puntos de desajuste, pero aún debe resumir las coincidencias perfectas a través del pulido de la mediana . [9] El algoritmo de pulido de la mediana, aunque robusto, se comporta de manera diferente según la cantidad de muestras analizadas. [10] La normalización por cuantiles , también parte de RMA, es un enfoque sensato para normalizar un lote de matrices con el fin de hacer que las comparaciones posteriores sean significativas.

El algoritmo actual Affymetrix MAS5, que utiliza sondas de coincidencia perfecta y de no coincidencia, sigue gozando de popularidad y obtiene buenos resultados en pruebas cara a cara. [11]

Diagrama de flujo que muestra cómo funciona el algoritmo MAS5 de Agilent.

El análisis factorial para el resumen robusto de microarrays (FARMS) [12] es una técnica basada en modelos para resumir datos de arrays a nivel de sonda de coincidencia perfecta. Se basa en un modelo de análisis factorial para el cual un método de máximo bayesiano a posteriori optimiza los parámetros del modelo bajo el supuesto de ruido de medición gaussiano. Según el benchmark Affycomp [13], FARMS superó a todos los demás métodos de resumen con respecto a la sensibilidad y especificidad.

Identificación de expresión diferencial significativa

Existen muchas estrategias para identificar sondas de matriz que muestran un nivel inusual de sobreexpresión o subexpresión. La más simple es llamar "significativa" a cualquier sonda que difiera en un promedio de al menos el doble entre los grupos de tratamiento. Los enfoques más sofisticados a menudo están relacionados con pruebas t u otros mecanismos que tienen en cuenta tanto el tamaño del efecto como la variabilidad. Curiosamente, los valores p asociados con genes particulares no se reproducen bien entre experimentos replicados, y las listas generadas por cambio de pliegue directo funcionan mucho mejor. [14] [15] Esto representa una observación extremadamente importante, ya que el objetivo de realizar experimentos tiene que ver con predecir el comportamiento general. El grupo MAQC recomienda utilizar una evaluación de cambio de pliegue más un valor p de corte no estricto, señalando además que los cambios en el proceso de corrección de fondo y escala tienen solo un impacto mínimo en el orden de clasificación de las diferencias de cambio de pliegue, pero un impacto sustancial en los valores p. [14]

Agrupamiento

La agrupación es una técnica de minería de datos que se utiliza para agrupar genes que tienen patrones de expresión similares. La agrupación jerárquica y la agrupación k-means son técnicas ampliamente utilizadas en el análisis de microarrays.

Agrupamiento jerárquico

El agrupamiento jerárquico es un método estadístico para encontrar agrupamientos relativamente homogéneos . El agrupamiento jerárquico consta de dos fases separadas. Inicialmente, se calcula una matriz de distancia que contiene todas las distancias por pares entre los genes. La correlación de Pearson y la correlación de Spearman se utilizan a menudo como estimaciones de disimilitud, pero también se pueden aplicar otros métodos, como la distancia de Manhattan o la distancia euclidiana . Dado el número de medidas de distancia disponibles y su influencia en los resultados del algoritmo de agrupamiento, varios estudios han comparado y evaluado diferentes medidas de distancia para el agrupamiento de datos de microarrays, considerando sus propiedades intrínsecas y su robustez al ruido. [16] [17] [18] Después del cálculo de la matriz de distancia inicial, el algoritmo de agrupamiento jerárquico (A) une iterativamente los dos agrupamientos más cercanos a partir de puntos de datos individuales (enfoque aglomerativo, de abajo hacia arriba, que se utiliza con bastante más frecuencia), o (B) divide los agrupamientos iterativamente a partir del conjunto completo (enfoque divisivo, de arriba hacia abajo). Después de cada paso, se vuelve a calcular una nueva matriz de distancia entre los clústeres recién formados y los demás clústeres. Los métodos de análisis de clústeres jerárquicos incluyen:

Diferentes estudios ya han demostrado empíricamente que el algoritmo de agrupamiento de ligamiento simple produce malos resultados cuando se emplea en datos de microarrays de expresión genética y, por lo tanto, debería evitarse. [18] [19]

Agrupamiento de K-medias

El agrupamiento de K-medias es un algoritmo para agrupar genes o muestras en función de un patrón en K grupos. El agrupamiento se realiza minimizando la suma de los cuadrados de las distancias entre los datos y el centroide del grupo correspondiente . Por lo tanto, el propósito del agrupamiento de K-medias es clasificar los datos en función de la expresión similar. [20] Se ha demostrado que el algoritmo de agrupamiento de K-medias y algunas de sus variantes (incluidos los k-medoides ) producen buenos resultados para los datos de expresión genética (al menos mejores que los métodos de agrupamiento jerárquico). Se pueden encontrar comparaciones empíricas de k-medias , k-medoides , métodos jerárquicos y diferentes medidas de distancia en la literatura. [18] [19]

Reconocimiento de patrones

Los sistemas comerciales para el análisis de redes genéticas, como Ingenuity [21] y Pathway Studio [22], crean representaciones visuales de genes expresados ​​de forma diferencial basándose en la literatura científica actual. Las herramientas no comerciales, como FunRich, [23] GenMAPP y Moksiskaan, también ayudan a organizar y visualizar los datos de redes genéticas obtenidos de uno o varios experimentos de microarrays. Existe una amplia variedad de herramientas de análisis de microarrays disponibles a través de Bioconductor , escritas en el lenguaje de programación R. El módulo SAM, citado con frecuencia, y otras herramientas de microarrays [24] están disponibles a través de la Universidad de Stanford. Otro conjunto está disponible en Harvard y el MIT. [25]

Ejemplo de resultado de la herramienta FunRich. La imagen muestra el resultado de comparar cuatro genes diferentes.

También se han desarrollado herramientas de software especializadas para el análisis estadístico para determinar el grado de sobreexpresión o subexpresión de un gen en un experimento de microarrays en relación con un estado de referencia para ayudar a identificar genes o conjuntos de genes asociados con fenotipos particulares . Uno de estos métodos de análisis, conocido como análisis de enriquecimiento de conjuntos de genes (GSEA), utiliza una estadística de estilo Kolmogorov-Smirnov para identificar grupos de genes que se regulan juntos. [1] Este paquete de estadísticas de terceros ofrece al usuario información sobre los genes o conjuntos de genes de interés, incluidos enlaces a entradas en bases de datos como GenBank de NCBI y bases de datos curadas como Biocarta [26] y Gene Ontology . La herramienta de análisis de enriquecimiento de complejos de proteínas (COMPLEAT) proporciona un análisis de enriquecimiento similar a nivel de complejos de proteínas. [27] La ​​herramienta puede identificar la regulación dinámica del complejo de proteínas en diferentes condiciones o puntos de tiempo. El sistema relacionado, PAINT [28] y SCOPE [29] realiza un análisis estadístico sobre las regiones promotoras de genes, identificando la sobrerrepresentación y la subrepresentación de elementos de respuesta de factores de transcripción identificados previamente. Otra herramienta de análisis estadístico es Rank Sum Statistics for Gene Set Collections (RssGsc), que utiliza funciones de distribución de probabilidad de suma de rangos para encontrar conjuntos de genes que expliquen datos experimentales. [30] Otro enfoque es el metaanálisis contextual, es decir, averiguar cómo responde un grupo de genes a una variedad de contextos experimentales. Genevestigator es una herramienta pública para realizar metaanálisis contextuales en contextos como partes anatómicas, etapas de desarrollo y respuesta a enfermedades, sustancias químicas, tensiones y neoplasias .

Análisis de significación de microarrays (SAM)

El análisis de significancia de microarrays (SAM) es una técnica estadística , establecida en 2001 por Virginia Tusher, Robert Tibshirani y Gilbert Chu , para determinar si los cambios en la expresión génica son estadísticamente significativos. Con la llegada de los microarrays de ADN , ahora es posible medir la expresión de miles de genes en un solo experimento de hibridación. Los datos generados son considerables y es esencial un método para clasificar lo que es significativo y lo que no. SAM es distribuido por la Universidad de Stanford en un paquete R. [31 ]

SAM identifica genes estadísticamente significativos al realizar pruebas t específicas de genes y calcula una estadística d j para cada gen j , que mide la fuerza de la relación entre la expresión génica y una variable de respuesta. [32] [33] [34] Este análisis utiliza estadísticas no paramétricas , ya que los datos pueden no seguir una distribución normal . La variable de respuesta describe y agrupa los datos en función de las condiciones experimentales. En este método, se utilizan permutaciones repetidas de los datos para determinar si la expresión de cualquier gen está significativamente relacionada con la respuesta. El uso del análisis basado en permutaciones tiene en cuenta las correlaciones en los genes y evita suposiciones paramétricas sobre la distribución de genes individuales. Esta es una ventaja sobre otras técnicas (por ejemplo, ANOVA y Bonferroni ), que suponen una varianza igual y/o independencia de los genes. [35]

Protocolo básico

Ejecutando SAM

El número de permutaciones lo establece el usuario al imputar valores correctos para el conjunto de datos para ejecutar SAM.

Formatos de respuesta

Tipos: [32]

Algoritmo

SAM calcula una estadística de prueba para la diferencia relativa en la expresión génica basándose en el análisis de permutación de los datos de expresión y calcula una tasa de descubrimiento falso. Los cálculos principales del programa se ilustran a continuación. [32] [33] [34]

La constante s o se elige para minimizar el coeficiente de variación de d i . r i es igual a los niveles de expresión (x) para el gen i en las condiciones experimentales y.

Los cambios de pliegue (t) se especifican para garantizar que los genes considerados significativos cambien al menos en una cantidad preestablecida. Esto significa que el valor absoluto de los niveles de expresión promedio de un gen en cada una de las dos condiciones debe ser mayor que el cambio de pliegue (t) para que se considere positivo y menor que el inverso del cambio de pliegue (t) para que se considere negativo.

El algoritmo SAM se puede resumir así:

  1. Ordenar las estadísticas de prueba según la magnitud [33] [34]
  2. Para cada permutación, calcule las puntuaciones nulas ordenadas (no afectadas) [33] [34]
  3. Grafique la estadística de prueba ordenada contra las puntuaciones nulas esperadas [33] [34]
  4. Se considera que cada gen es significativo si el valor absoluto de la estadística de prueba para ese gen menos la estadística de prueba media para ese gen es mayor que un umbral establecido [34]
  5. Estimar la tasa de falsos descubrimientos basándose en los valores esperados frente a los observados [33] [34]

Producción

Características de SAM

Corrección de errores y control de calidad

Control de calidad

Es posible que conjuntos enteros presenten fallas obvias detectables mediante inspección visual, comparaciones por pares con conjuntos del mismo grupo experimental o mediante análisis de la degradación del ARN. [39] Los resultados pueden mejorar si se eliminan por completo estos conjuntos del análisis.

Corrección de fondo

Dependiendo del tipo de matriz, se puede restar la señal relacionada con la unión no específica del fluoróforo para lograr mejores resultados. Un enfoque implica restar la intensidad de señal promedio del área entre los puntos. TIGR, [40] Agilent (GeneSpring), [41] y Ocimum Bio Solutions (Genowiz) ofrecen una variedad de herramientas para la corrección de fondo y un análisis más detallado. [42]

Filtrado de puntos

La identificación visual de artefactos locales, como defectos de impresión o de lavado, también puede sugerir la eliminación de manchas individuales. Esto puede llevar una cantidad considerable de tiempo dependiendo de la calidad de fabricación de la matriz. Además, algunos procedimientos requieren la eliminación de todas las manchas con un valor de expresión por debajo de un cierto umbral de intensidad.

Véase también

Referencias

  1. ^ ab Subramanian A, Tamayo P, Mootha VK, et al. (2005). "Análisis de enriquecimiento del conjunto de genes: un enfoque basado en el conocimiento para interpretar los perfiles de expresión de todo el genoma". Proc. Natl. Sci. USA . 102 (43): 15545–50. doi : 10.1073/pnas.0506580102 . PMC  1239896. PMID  16199517 .
  2. ^ Dr. Leming Shi, Centro Nacional de Investigación Toxicológica. "Proyecto de Control de Calidad de Microarrays (MAQC)". Administración de Alimentos y Medicamentos de los Estados Unidos . Consultado el 26 de diciembre de 2007 .
  3. ^ "GenUs BioSystems - Servicios - Análisis de datos" . Consultado el 2 de enero de 2008 .
  4. ^ "Agilent | Microarrays de ADN". Archivado desde el original el 22 de diciembre de 2007. Consultado el 2 de enero de 2008 .
  5. ^ "Biblioteca LIMMA: modelos lineales para datos de microarrays" . Consultado el 1 de enero de 2008 .
  6. ^ Gatto, Laurent; Breckels, Lisa M.; Naake, Thomas; Gibb, Sebastian (2015). "Visualización de datos proteómicos utilizando R y Bioconductor". Proteómica . 15 (8): 1375–1389. doi :10.1002/pmic.201400392. ISSN  1615-9853. PMC 4510819 . PMID  25690415. 
  7. ^ "Crear un diagrama de dispersión de intensidad versus proporción de datos de microarrays - MATLAB mairplot". MathWorks . Consultado el 24 de noviembre de 2023 .
  8. ^ Irizarry, RA ; Hobbs, B; Collin, F; Beazer-Barclay, YD; Antonellis, KJ; Scherf, U; Speed, TP (2003). "Exploración, normalización y resúmenes de datos de nivel de sonda de matriz de oligonucleótidos de alta densidad". Bioestadística . 4 (2): 249–64. doi : 10.1093/biostatistics/4.2.249 . PMID  12925520.
  9. ^ Bolstad BM, Irizarry RA, Astrand M, Speed ​​TP (2003). "Una comparación de métodos de normalización para datos de matrices de oligonucleótidos de alta densidad basados ​​en la varianza y el sesgo". Bioinformática . 19 (2): 185–93. doi : 10.1093/bioinformatics/19.2.185 . PMID  12538238.
  10. ^ Giorgi FM, Bolger AM, Lohse M, Usadel B (2010). "Artefactos impulsados ​​por algoritmos en el resumen de pulido medio de datos de microarrays". BMC Bioinformatics . 11 : 553. doi : 10.1186/1471-2105-11-553 . PMC 2998528 . PMID  21070630. 
  11. ^ Lim WK, Wang K, Lefebvre C, Califano A (2007). "Análisis comparativo de los procedimientos de normalización de microarrays: efectos en la ingeniería inversa de redes genéticas". Bioinformática . 23 (13): i282–8. doi : 10.1093/bioinformatics/btm201 . PMID  17646307.
  12. ^ Hochreiter S, Clevert DA, Obermayer K (2006). "Un nuevo método de resumen para los datos de nivel de sonda de Affymetrix". Bioinformática . 22 (8): 943–949. doi : 10.1093/bioinformatics/btl033 . PMID  16473874.
  13. ^ "Affycomp III: un punto de referencia para las medidas de expresión de Affymetrix GeneChip".
  14. ^ ab Shi L, Reid LH, Jones WD, et al. (2006). "El proyecto MicroArray Quality Control (MAQC) muestra reproducibilidad interplataforma e intraplataforma de las mediciones de expresión génica". Nat. Biotechnol . 24 (9): 1151–61. doi :10.1038/nbt1239. PMC 3272078. PMID  16964229 . 
  15. ^ Guo L, Lobenhofer EK, Wang C, et al. (2006). "Estudio toxicogenómico en ratas revela consistencia analítica en plataformas de microarrays". Nat. Biotechnol . 24 (9): 1162–9. doi :10.1038/nbt1238. PMID  17061323. S2CID  8192240.
  16. ^ Gentleman, Robert; et al. (2005). Soluciones de bioinformática y biología computacional utilizando R y Bioconductor . Nueva York: Springer Science+Business Media. ISBN 978-0-387-29362-2.
  17. ^ Jaskowiak, Pablo A.; Campello, Ricardo JGB; Costa, Ivan G. (2013). "Medidas de proximidad para agrupar datos de microarrays de expresión génica: una metodología de validación y un análisis comparativo". IEEE/ACM Transactions on Computational Biology and Bioinformatics . 10 (4): 845–857. doi :10.1109/TCBB.2013.9. PMID  24334380. S2CID  760277.
  18. ^ abc Jaskowiak, Pablo A; Campello, Ricardo JGB; Costa, Ivan G (2014). "Sobre la selección de distancias apropiadas para la agrupación de datos de expresión génica". BMC Bioinformatics . 15 (Suppl 2): ​​S2. doi : 10.1186/1471-2105-15-S2-S2 . PMC 4072854 . PMID  24564555. 
  19. ^ ab de Souto, Marcilio CP; Costa, Iván G.; de Araujo, Daniel SA; Ludermir, Teresa B.; Schliep, Alejandro (2008). "Agrupación de datos de expresión de genes de cáncer: un estudio comparativo". Bioinformática BMC . 9 (1): 497. doi : 10.1186/1471-2105-9-497 . PMC 2632677 . PMID  19038021. 
  20. ^ "Inicio". biostat.ucsf.edu .
  21. ^ "Ingenuity Systems" . Consultado el 31 de diciembre de 2007 .
  22. ^ "Ariadne Genomics: Pathway Studio". Archivado desde el original el 2007-12-30 . Consultado el 2007-12-31 .
  23. ^ "FunRich: Análisis de enriquecimiento funcional" . Consultado el 9 de septiembre de 2014 .
  24. ^ [ "Análisis de significancia de microarrays" . Consultado el 31 de diciembre de 2007 .]
  25. ^ "Software - Amplio" . Consultado el 31 de diciembre de 2007 .
  26. ^ "BioCarta - Trazando caminos de vida" . Consultado el 31 de diciembre de 2007 .
  27. ^ Vinayagam A, Hu Y, Kulkarni M, Roesel C, et al. (2013). "Marco de análisis basado en complejos proteicos para conjuntos de datos de alto rendimiento. 6, rs5 (2013)". Sci. Signal . 6 (r5): rs5. doi :10.1126/scisignal.2003629. PMC 3756668 . PMID  23443684. 
  28. ^ "DBI Web". Archivado desde el original el 5 de julio de 2007. Consultado el 31 de diciembre de 2007 .
  29. ^ "SCOPE". Archivado desde el original el 17 de agosto de 2011. Consultado el 31 de diciembre de 2007 .
  30. ^ "RssGsc" . Consultado el 15 de octubre de 2008 .
  31. ^ "SAM: Análisis de significancia de microarrays". tibshirani.su.domains . Consultado el 24 de noviembre de 2023 .
  32. ^ abcdefghi Chu, G., Narasimhan, B, Tibshirani, R, Tusher, V. Guía del usuario y documento técnico de "SAM" Análisis de importancia de microarrays ". [1]
  33. ^ abcdefghi Zang, S.; Guo, R.; et al. (2007). "Integración de métodos de inferencia estadística y una nueva medida de control para mejorar la sensibilidad y especificidad del análisis de datos en estudios de perfiles de expresión". Journal of Biomedical Informatics . 40 (5): 552–560. doi : 10.1016/j.jbi.2007.01.002 . PMID  17317331.
  34. ^ abcdefghi <Zhang, S. (2007). "Una evaluación integral de SAM, el paquete R de SAM y una modificación simple para mejorar su rendimiento". BMC Bioinformatics 8: 230.
  35. ^ abc Tusher, VG; Tibshirani, R.; et al. (2001). "Análisis de significancia de microarrays aplicado a la respuesta a la radiación ionizante" (PDF) . Actas de la Academia Nacional de Ciencias . 98 (9): 5116–5121. Bibcode :2001PNAS...98.5116G. doi : 10.1073/pnas.091062498 . PMC 33173 . PMID  11309499. 
  36. ^ Dinu, IP; Mueller, T; Liu, Q; Adewale, AJ; Jhangri, GS; Einecke, G; Famulski, KS; Halloran, P; Yasui, Y. (2007). "Mejora del análisis de conjuntos de genes de datos de microarrays mediante SAM-GS". BMC Bioinformatics . 8 : 242. doi : 10.1186/1471-2105-8-242 . PMC 1931607 . PMID  17612399. 
  37. ^ Jeffery, IH; DG; Culhane, AC. (2006). "Comparación y evaluación de métodos para generar listas de genes expresados ​​diferencialmente a partir de datos de microarrays". BMC Bioinformatics . 7 : 359. doi : 10.1186/1471-2105-7-359 . PMC 1544358 . PMID  16872483. 
  38. ^ Larsson, OW C; Timmons, JA. (2005). "Consideraciones al utilizar el algoritmo de análisis de significancia de microarrays (SAM)". BMC Bioinformatics . 6 : 129. doi : 10.1186/1471-2105-6-129 . PMC 1173086 . PMID  15921534. 
  39. ^ Wilson CL, Miller CJ (2005). "Simpleaffy: un paquete BioConductor para el control de calidad y el análisis de datos de Affymetrix". Bioinformática . 21 (18): 3683–5. doi : 10.1093/bioinformatics/bti605 . PMID  16076888.
  40. ^ "J. Craig Venter Institute -- Software" . Consultado el 1 de enero de 2008 .
  41. ^ "Agilent | GeneSpring GX" . Consultado el 2 de enero de 2008 .
  42. ^ "Ocimum Biosolutions | Genowiz". Archivado desde el original el 24 de noviembre de 2009. Consultado el 2 de abril de 2009 .

Enlaces externos