stringtranslate.com

Técnicas de análisis de microarrays.

Ejemplo de una micromatriz de oligonucleótidos con manchas de aproximadamente 40 000 sondas con un recuadro ampliado para mostrar los detalles.

Las técnicas de análisis de microarrays se utilizan para interpretar los datos generados a partir de experimentos con ADN ( análisis de chip genético ), ARN y microarrays de proteínas, que permiten a los investigadores investigar el estado de expresión de una gran cantidad de genes (en muchos casos, el genoma completo de un organismo  ). en un solo experimento. [1] Estos experimentos pueden generar grandes cantidades de datos, lo que permite a los investigadores evaluar el estado general de una célula u organismo. Es difícil, si no imposible, analizar datos en cantidades tan grandes sin la ayuda de programas informáticos.

Introducción

El análisis de datos de microarrays es el paso final en la lectura y el procesamiento de datos producidos por un chip de microarrays. Las muestras se someten a varios procesos, incluida la purificación y el escaneo mediante el microchip, que luego produce una gran cantidad de datos que requieren procesamiento mediante software de computadora. Implica varios pasos distintos, como se describe en la imagen a continuación. Cambiar cualquiera de los pasos cambiará el resultado del análisis, por lo que el Proyecto MAQC [2] se creó para identificar un conjunto de estrategias estándar. Existen empresas que utilizan los protocolos MAQC para realizar un análisis completo. [3]

Los pasos requeridos en un experimento de microarrays.

Técnicas

Científico del Centro Nacional de Investigaciones Toxicológicas revisa datos de microarrays

La mayoría de los fabricantes de microarrays, como Affymetrix y Agilent , [4] ofrecen software comercial de análisis de datos junto con sus productos de microarrays. También existen opciones de código abierto que utilizan una variedad de métodos para analizar datos de microarrays.

Agregación y normalización

Comparar dos matrices diferentes o dos muestras diferentes hibridadas con la misma matriz generalmente implica realizar ajustes para errores sistemáticos introducidos por diferencias en los procedimientos y efectos de intensidad del tinte. La normalización del tinte para dos matrices de colores a menudo se logra mediante regresión local . LIMMA proporciona un conjunto de herramientas para corrección y escalado de fondo, así como una opción para promediar puntos duplicados en diapositivas. [5] Un método común para evaluar qué tan bien normalizada está una matriz es trazar un diagrama MA de los datos. Los gráficos MA se pueden producir utilizando programas y lenguajes como R y MATLAB. [6] [7]

Los datos sin procesar de Affy contienen alrededor de veinte sondas para el mismo objetivo de ARN. La mitad de ellos son "puntos no coincidentes", que no coinciden exactamente con la secuencia objetivo. En teoría, estos pueden medir la cantidad de unión no específica para un objetivo determinado. El promedio robusto de matrices múltiples (RMA) [8] es un enfoque de normalización que no aprovecha estos puntos de discrepancia, pero aún debe resumir las coincidencias perfectas mediante el pulido medio . [9] El algoritmo de pulido mediano, aunque robusto, se comporta de manera diferente dependiendo del número de muestras analizadas. [10] La normalización cuantil, también parte de RMA, es un enfoque sensato para normalizar un lote de matrices con el fin de que las comparaciones adicionales sean significativas.

El algoritmo actual de Affymetrix MAS5, que utiliza sondas de coincidencia perfecta y de falta de coincidencia, continúa gozando de popularidad y obtiene buenos resultados en las pruebas comparativas. [11]

Diagrama de flujo que muestra cómo funciona el algoritmo MAS5 de Agilent.

El análisis factorial para el resumen robusto de microarrays (FARMS) [12] es una técnica basada en modelos para resumir datos de matrices a un nivel de sonda de coincidencia perfecta. Se basa en un modelo de análisis factorial para el cual un método bayesiano máximo a posteriori optimiza los parámetros del modelo bajo el supuesto de ruido de medición gaussiano. Según el punto de referencia de Affycomp [13], FARMS superó a todos los demás métodos de resúmenes con respecto a sensibilidad y especificidad.

Identificación de expresión diferencial significativa.

Existen muchas estrategias para identificar sondas de matriz que muestran un nivel inusual de sobreexpresión o subexpresión. La más sencilla es llamar "significativa" a cualquier sonda que difiera en un promedio de al menos el doble entre los grupos de tratamiento. Los enfoques más sofisticados suelen estar relacionados con pruebas t u otros mecanismos que tienen en cuenta tanto el tamaño del efecto como la variabilidad. Curiosamente, los valores p asociados con genes particulares no se reproducen bien entre experimentos replicados, y las listas generadas mediante cambios directos funcionan mucho mejor. [14] [15] Esto representa una observación extremadamente importante, ya que el objetivo de realizar experimentos tiene que ver con predecir el comportamiento general. El grupo MAQC recomienda utilizar una evaluación del cambio de pliegue más un límite de valor p no estricto, señalando además que los cambios en la corrección de fondo y el proceso de escalamiento tienen sólo un impacto mínimo en el orden de clasificación de las diferencias de cambio de pliegue, pero un impacto sustancial en valores p. [14]

Agrupación

La agrupación es una técnica de extracción de datos que se utiliza para agrupar genes que tienen patrones de expresión similares. La agrupación jerárquica y la agrupación de k-medias son técnicas ampliamente utilizadas en el análisis de microarrays.

Agrupación jerárquica

La agrupación jerárquica es un método estadístico para encontrar agrupaciones relativamente homogéneas . La agrupación jerárquica consta de dos fases separadas. Inicialmente, se calcula una matriz de distancias que contiene todas las distancias por pares entre los genes. La correlación de Pearson y la correlación de Spearman se utilizan a menudo como estimaciones de disimilitud, pero también se pueden aplicar otros métodos, como la distancia de Manhattan o la distancia euclidiana . Dada la cantidad de medidas de distancia disponibles y su influencia en los resultados del algoritmo de agrupamiento, varios estudios han comparado y evaluado diferentes medidas de distancia para el agrupamiento de datos de microarrays, considerando sus propiedades intrínsecas y su robustez al ruido. [16] [17] [18] Después del cálculo de la matriz de distancia inicial, el algoritmo de agrupamiento jerárquico (A) une iterativamente los dos grupos más cercanos a partir de puntos de datos únicos (enfoque aglomerativo, ascendente, que se usa con bastante mayor frecuencia). ), o (B) particiona los grupos de forma iterativa a partir del conjunto completo (enfoque divisivo, de arriba hacia abajo). Después de cada paso, se vuelve a calcular una nueva matriz de distancia entre los grupos recién formados y los otros grupos. Los métodos de análisis de conglomerados jerárquicos incluyen:

Diferentes estudios ya han demostrado empíricamente que el algoritmo de agrupamiento de enlace único produce malos resultados cuando se emplea para datos de microarrays de expresión genética y, por lo tanto, debe evitarse. [18] [19]

K-medias agrupación

La agrupación de K-medias es un algoritmo para agrupar genes o muestras según un patrón en K grupos. La agrupación se realiza minimizando la suma de los cuadrados de las distancias entre los datos y el centroide del grupo correspondiente . Por tanto, el propósito de la agrupación de K-medias es clasificar datos basándose en expresiones similares. [20] Se ha demostrado que el algoritmo de agrupamiento K-medias y algunas de sus variantes (incluidos los k-medoides ) producen buenos resultados para los datos de expresión génica (al menos mejores que los métodos de agrupamiento jerárquico). En la literatura se pueden encontrar comparaciones empíricas de k-medias , k-medoides , métodos jerárquicos y diferentes medidas de distancia. [18] [19]

Reconocimiento de patrones

Los sistemas comerciales para el análisis de redes genéticas, como Ingenuity [21] y Pathway Studio [22], crean representaciones visuales de genes expresados ​​diferencialmente basándose en la literatura científica actual. Herramientas no comerciales como FunRich, [23] GenMAPP y Moksiskaan también ayudan a organizar y visualizar datos de redes genéticas obtenidos de uno o varios experimentos de microarrays. Una amplia variedad de herramientas de análisis de microarrays están disponibles a través de Bioconductor escrito en el lenguaje de programación R. El módulo SAM frecuentemente citado y otras herramientas de microarrays [24] están disponibles a través de la Universidad de Stanford. Otro juego está disponible en Harvard y MIT. [25]

Ejemplo de salida de la herramienta FunRich. La imagen muestra el resultado de comparar 4 genes diferentes.

También se han desarrollado herramientas de software especializadas para análisis estadístico para determinar el grado de sobreexpresión o subexpresión de un gen en un experimento de microarrays en relación con un estado de referencia para ayudar a identificar genes o conjuntos de genes asociados con fenotipos particulares . Uno de esos métodos de análisis, conocido como análisis de enriquecimiento de conjuntos de genes (GSEA), utiliza una estadística de estilo Kolmogorov-Smirnov para identificar grupos de genes que se regulan juntos. [1] Este paquete de estadísticas de terceros ofrece al usuario información sobre los genes o conjuntos de genes de interés, incluidos enlaces a entradas en bases de datos como GenBank del NCBI y bases de datos seleccionadas como Biocarta [26] y Gene Ontology . La herramienta de análisis de enriquecimiento de complejos de proteínas (COMPLEAT) proporciona un análisis de enriquecimiento similar a nivel de complejos de proteínas. [27] La ​​herramienta puede identificar la regulación dinámica del complejo proteico en diferentes condiciones o momentos. El sistema relacionado, PAINT [28] y SCOPE [29] realiza un análisis estadístico de regiones promotoras de genes, identificando una representación excesiva o insuficiente de elementos de respuesta de factores de transcripción previamente identificados . Otra herramienta de análisis estadístico son las estadísticas de suma de rangos para colecciones de conjuntos de genes (RssGsc), que utiliza funciones de distribución de probabilidad de suma de rangos para encontrar conjuntos de genes que expliquen los datos experimentales. [30] Otro enfoque es el metanálisis contextual, es decir, descubrir cómo responde un grupo de genes a una variedad de contextos experimentales. Genevestigator es una herramienta pública para realizar metanálisis contextual en contextos como partes anatómicas, etapas de desarrollo y respuesta a enfermedades, sustancias químicas, estrés y neoplasias .

Análisis de importancia de microarrays (SAM)

El análisis de significancia de microarrays (SAM) es una técnica estadística , establecida en 2001 por Virginia Tusher, Robert Tibshirani y Gilbert Chu , para determinar si los cambios en la expresión genética son estadísticamente significativos. Con la llegada de los microarrays de ADN , ahora es posible medir la expresión de miles de genes en un único experimento de hibridación. Los datos generados son considerables y es esencial contar con un método para separar lo que es significativo y lo que no. SAM es distribuido por la Universidad de Stanford en un paquete R. [31]

SAM identifica genes estadísticamente significativos mediante la realización de pruebas t específicas de genes y calcula una estadística d j para cada gen j , que mide la fuerza de la relación entre la expresión genética y una variable de respuesta. [32] [33] [34] Este análisis utiliza estadísticas no paramétricas , ya que los datos pueden no seguir una distribución normal . La variable respuesta describe y agrupa los datos en función de las condiciones experimentales. En este método, se utilizan permutaciones repetidas de los datos para determinar si la expresión de algún gen está relacionada significativamente con la respuesta. El uso de análisis basado en permutaciones tiene en cuenta las correlaciones en los genes y evita suposiciones paramétricas sobre la distribución de genes individuales. Esta es una ventaja sobre otras técnicas (por ejemplo, ANOVA y Bonferroni ), que suponen igual varianza y/o independencia de los genes. [35]

Protocolo básico

Ejecutando SAM

el número de permutaciones lo establece el usuario al imputar los valores correctos para el conjunto de datos para ejecutar SAM

Formatos de respuesta

Tipos: [32]

Algoritmo

SAM calcula una estadística de prueba para la diferencia relativa en la expresión genética basándose en el análisis de permutación de los datos de expresión y calcula una tasa de descubrimiento falso. Los principales cálculos del programa se ilustran a continuación. [32] [33] [34]

La constante so se elige para minimizar el coeficiente de variación de d i . r i es igual a los niveles de expresión (x) para el gen i en y condiciones experimentales.

Los cambios en veces (t) se especifican para garantizar que los genes llamados cambios significativos tengan al menos una cantidad preespecificada. Esto significa que el valor absoluto de los niveles de expresión promedio de un gen bajo cada una de las dos condiciones debe ser mayor que el cambio (t) para ser llamado positivo y menor que el inverso del cambio (t) para ser llamado negativo.

El algoritmo SAM se puede expresar como:

  1. Ordenar estadísticas de prueba según magnitud [33] [34]
  2. Para cada permutación, calcule las puntuaciones nulas (no afectadas) ordenadas [33] [34]
  3. Trazar el estadístico de prueba ordenado frente a las puntuaciones nulas esperadas [33] [34]
  4. Llame a cada gen significativo si el valor absoluto de la estadística de prueba para ese gen menos la estadística de prueba media para ese gen es mayor que un umbral establecido [34]
  5. Calcule la tasa de descubrimiento falso en función de los valores esperados versus los observados [33] [34]

Producción

Funciones Sam

Corrección de errores y control de calidad.

Control de calidad

Conjuntos enteros pueden tener defectos obvios detectables mediante inspección visual, comparaciones por pares con conjuntos en el mismo grupo experimental o mediante análisis de degradación de ARN. [39] Los resultados pueden mejorar si se eliminan por completo estas matrices del análisis.

Corrección de fondo

Dependiendo del tipo de matriz, la señal relacionada con la unión no específica del fluoróforo se puede restar para lograr mejores resultados. Un enfoque implica restar la intensidad de señal promedio del área entre puntos. TIGR, [40] Agilent (GeneSpring), [41] y Ocimum Bio Solutions (Genowiz) ofrecen una variedad de herramientas para la corrección de fondo y análisis adicionales . [42]

Filtrado puntual

La identificación visual de artefactos locales, como defectos de impresión o lavado, también puede sugerir la eliminación de manchas individuales. Esto puede llevar una cantidad considerable de tiempo dependiendo de la calidad de fabricación del conjunto. Además, algunos procedimientos exigen la eliminación de todas las manchas con un valor de expresión inferior a un determinado umbral de intensidad.

Ver también

Referencias

  1. ^ ab Subramanian A, Tamayo P, Mootha VK y col. (2005). "Análisis de enriquecimiento de conjuntos de genes: un enfoque basado en el conocimiento para interpretar perfiles de expresión de todo el genoma". Proc. Nacional. Acad. Ciencia. EE.UU . 102 (43): 15545–50. doi : 10.1073/pnas.0506580102 . PMC  1239896 . PMID  16199517.
  2. ^ Dr. Leming Shi, Centro Nacional de Investigaciones Toxicológicas. "Proyecto de control de calidad de MicroArray (MAQC)". Administración de Alimentos y Medicamentos de EE. UU . Consultado el 26 de diciembre de 2007 .
  3. ^ "GenUs BioSystems - Servicios - Análisis de datos" . Consultado el 2 de enero de 2008 .
  4. ^ "Agilent | Microarrays de ADN". Archivado desde el original el 22 de diciembre de 2007 . Consultado el 2 de enero de 2008 .
  5. ^ "Biblioteca LIMMA: modelos lineales para datos de microarrays" . Consultado el 1 de enero de 2008 .
  6. ^ Gato, Laurent; Breckels, Lisa M.; Naake, Thomas; Gibb, Sebastián (2015). "Visualización de datos proteómicos mediante R y Bioconductor". Proteómica . 15 (8): 1375-1389. doi :10.1002/pmic.201400392. ISSN  1615-9853. PMC 4510819 . PMID  25690415. 
  7. ^ "Crear un diagrama de dispersión de intensidad versus relación de datos de microarrays: diagrama mair de MATLAB". Trabajos de matemáticas . Consultado el 24 de noviembre de 2023 .
  8. ^ Irizarry, RA ; Hobbs, B; Collin, F; Beazer-Barclay, YD; Antonellis, KJ; Scherf, U; Velocidad, TP (2003). "Exploración, normalización y resúmenes de datos a nivel de sonda de matriz de oligonucleótidos de alta densidad". Bioestadística . 4 (2): 249–64. doi : 10.1093/bioestadística/4.2.249 . PMID  12925520.
  9. ^ Bolstad BM, Irizarry RA, Astrand M, Velocidad TP (2003). "Una comparación de métodos de normalización para datos de matrices de oligonucleótidos de alta densidad basada en la varianza y el sesgo". Bioinformática . 19 (2): 185–93. doi : 10.1093/bioinformática/19.2.185 . PMID  12538238.
  10. ^ Giorgi FM, Bolger AM, Lohse M, Usadel B (2010). "Artefactos basados ​​en algoritmos en un resumen pulido medio de datos de microarrays". Bioinformática BMC . 11 : 553. doi : 10.1186/1471-2105-11-553 . PMC 2998528 . PMID  21070630. 
  11. ^ Lim WK, Wang K, Lefebvre C, Califano A (2007). "Análisis comparativo de procedimientos de normalización de microarrays: efectos sobre las redes de genes de ingeniería inversa". Bioinformática . 23 (13): i282–8. doi : 10.1093/bioinformática/btm201 . PMID  17646307.
  12. ^ Hochreiter S, Clevert DA, Obermayer K (2006). "Un nuevo método de resumen para datos a nivel de sonda affymetrix". Bioinformática . 22 (8): 943–949. doi : 10.1093/bioinformática/btl033 . PMID  16473874.
  13. ^ "Affycomp III: un punto de referencia para las medidas de expresión de Affymetrix GeneChip".
  14. ^ ab Shi L, Reid LH, Jones WD y col. (2006). "El proyecto MicroArray Quality Control (MAQC) muestra la reproducibilidad entre plataformas e intraplataforma de las mediciones de expresión génica". Nat. Biotecnología . 24 (9): 1151–61. doi :10.1038/nbt1239. PMC 3272078 . PMID  16964229. 
  15. ^ Guo L, Lobenhofer EK, Wang C y col. (2006). "El estudio toxicogenómico en ratas revela coherencia analítica en todas las plataformas de microarrays". Nat. Biotecnología . 24 (9): 1162–9. doi :10.1038/nbt1238. PMID  17061323. S2CID  8192240.
  16. ^ Caballero, Robert; et al. (2005). Soluciones de bioinformática y biología computacional utilizando R y Bioconductor . Nueva York: Springer Science+Business Media. ISBN 978-0-387-29362-2.
  17. ^ Jaskowiak, Pablo A.; Campello, Ricardo JGB; Costa, Iván G. (2013). "Medidas de proximidad para agrupar datos de microarrays de expresión genética: una metodología de validación y un análisis comparativo". Transacciones IEEE/ACM sobre biología computacional y bioinformática . 10 (4): 845–857. doi :10.1109/TCBB.2013.9. PMID  24334380. S2CID  760277.
  18. ^ abc Jaskowiak, Pablo A; Campello, Ricardo JGB; Costa, Iván G (2014). "Sobre la selección de distancias apropiadas para la agrupación de datos de expresión génica". Bioinformática BMC . 15 (Suplemento 2): T2. doi : 10.1186/1471-2105-15-S2-S2 . PMC 4072854 . PMID  24564555. 
  19. ^ ab de Souto, Marcilio CP; Costa, Iván G.; de Araujo, Daniel SA; Ludermir, Teresa B.; Schliep, Alejandro (2008). "Agrupación de datos de expresión de genes de cáncer: un estudio comparativo". Bioinformática BMC . 9 (1): 497. doi : 10.1186/1471-2105-9-497 . PMC 2632677 . PMID  19038021. 
  20. ^ "Inicio". biostat.ucsf.edu .
  21. ^ "Sistemas de ingenio" . Consultado el 31 de diciembre de 2007 .
  22. ^ "Ariadne Genomics: Pathway Studio". Archivado desde el original el 30 de diciembre de 2007 . Consultado el 31 de diciembre de 2007 .
  23. ^ "FunRich: análisis de enriquecimiento funcional" . Consultado el 9 de septiembre de 2014 .
  24. ^ [ "Análisis de importancia de microarrays" . Consultado el 31 de diciembre de 2007 .]
  25. ^ "Software: amplio" . Consultado el 31 de diciembre de 2007 .
  26. ^ "BioCarta - Trazando caminos de vida" . Consultado el 31 de diciembre de 2007 .
  27. ^ Vinayagam A, Hu Y, Kulkarni M, Roesel C y col. (2013). "Marco de análisis basado en complejos de proteínas para conjuntos de datos de alto rendimiento. 6, rs5 (2013)". Ciencia. Señal . 6 (r5): rs5. doi :10.1126/scisignal.2003629. PMC 3756668 . PMID  23443684. 
  28. ^ "Web de DBI". Archivado desde el original el 5 de julio de 2007 . Consultado el 31 de diciembre de 2007 .
  29. ^ "ALCANCE". Archivado desde el original el 17 de agosto de 2011 . Consultado el 31 de diciembre de 2007 .
  30. ^ "RssGsc" . Consultado el 15 de octubre de 2008 .
  31. ^ "SAM: análisis de importancia de microarrays". dominios tibshirani.su . Consultado el 24 de noviembre de 2023 .
  32. ^ abcdefghi Chu, G., Narasimhan, B, Tibshirani, R, Tusher, V. Guía del usuario y documento técnico de "SAM" Análisis de importancia de microarrays ". [1]
  33. ^ abcdefghi Zang, S.; Guo, R.; et al. (2007). "Integración de métodos de inferencia estadística y una nueva medida de control para mejorar la sensibilidad y especificidad del análisis de datos en estudios de perfiles de expresión". Revista de Informática Biomédica . 40 (5): 552–560. doi : 10.1016/j.jbi.2007.01.002 . PMID  17317331.
  34. ^ abcdefghi <Zhang, S. (2007). "Una evaluación integral de SAM, el paquete SAM R y una modificación simple para mejorar su rendimiento". BMC Bioinformática 8: 230.
  35. ^ abc Tusher, VG; Tibshirani, R.; et al. (2001). "Análisis de importancia de microarrays aplicados a la respuesta a las radiaciones ionizantes" (PDF) . Procedimientos de la Academia Nacional de Ciencias . 98 (9): 5116–5121. Código bibliográfico : 2001PNAS...98.5116G. doi : 10.1073/pnas.091062498 . PMC 33173 . PMID  11309499. 
  36. ^ Dinu, IP; JD; Mueller, T; Liu, Q; Adewale, AJ; Jhangri, GS; Einecke, G; Famulski, KS; Halloran, P; Yasui, Y. (2007). "Mejora del análisis de conjuntos de genes de datos de microarrays mediante SAM-GS". Bioinformática BMC . 8 : 242. doi : 10.1186/1471-2105-8-242 . PMC 1931607 . PMID  17612399. 
  37. ^ Jeffery, HI; Director General; Culhane, AC. (2006). "Comparación y evaluación de métodos para generar listas de genes expresados ​​diferencialmente a partir de datos de microarrays". Bioinformática BMC . 7 : 359. doi : 10.1186/1471-2105-7-359 . PMC 1544358 . PMID  16872483. 
  38. ^ Larsson, OW C; Timmons, JA. (2005). "Consideraciones al utilizar el algoritmo de análisis de significancia de microarrays (SAM)". Bioinformática BMC . 6 : 129. doi : 10.1186/1471-2105-6-129 . PMC 1173086 . PMID  15921534. 
  39. ^ Wilson CL, Miller CJ (2005). "Simpleaffy: un paquete BioConductor para control de calidad y análisis de datos de Affymetrix". Bioinformática . 21 (18): 3683–5. doi : 10.1093/bioinformática/bti605 . PMID  16076888.
  40. ^ "Instituto J. Craig Venter - Software" . Consultado el 1 de enero de 2008 .
  41. ^ "Agilent | GeneSpring GX" . Consultado el 2 de enero de 2008 .
  42. ^ "Ocimum Biosoluciones | Genowiz". Archivado desde el original el 24 de noviembre de 2009 . Consultado el 2 de abril de 2009 .

enlaces externos