stringtranslate.com

Perfiles de expresión genética

Los mapas de calor de los valores de expresión génica muestran cómo las condiciones experimentales influyeron en la producción (expresión) de ARNm para un conjunto de genes. El color verde indica una expresión reducida. El análisis de conglomerados ha colocado un grupo de genes regulados a la baja en la esquina superior izquierda.

En el campo de la biología molecular , el perfil de expresión génica es la medición de la actividad (la expresión ) de miles de genes a la vez, para crear una imagen global de la función celular. Estos perfiles pueden, por ejemplo, distinguir entre células que se están dividiendo activamente o mostrar cómo reaccionan las células a un tratamiento particular. Muchos experimentos de este tipo miden simultáneamente un genoma completo , es decir, cada gen presente en una célula en particular.

Se pueden utilizar varias tecnologías transcriptómicas para generar los datos necesarios para el análisis. Los microarrays de ADN [1] miden la actividad relativa de genes diana previamente identificados. Las técnicas basadas en secuencias, como RNA-Seq , proporcionan información sobre las secuencias de genes además de su nivel de expresión.

Fondo

El perfil de expresión es el siguiente paso lógico después de la secuenciación de un genoma : la secuencia nos dice lo que la célula podría hacer, mientras que el perfil de expresión nos dice lo que está haciendo realmente en un momento dado. Los genes contienen las instrucciones para fabricar ARN mensajero ( ARNm ), pero en cualquier momento cada célula fabrica ARNm a partir de solo una fracción de los genes que lleva. Si un gen se utiliza para producir ARNm, se considera que está "activado", de lo contrario, "desactivado". Muchos factores determinan si un gen está activado o desactivado, como la hora del día, si la célula se está dividiendo activamente o no, su entorno local y las señales químicas de otras células. Por ejemplo, las células de la piel , las células del hígado y las células nerviosas activan (expresan) genes algo diferentes y eso es en gran parte lo que las hace diferentes. Por lo tanto, un perfil de expresión permite deducir el tipo, el estado, el entorno, etc. de una célula.

Los experimentos de perfil de expresión a menudo implican la medición de la cantidad relativa de ARNm expresado en dos o más condiciones experimentales. Esto se debe a que los niveles alterados de una secuencia específica de ARNm sugieren una necesidad modificada de la proteína codificada por el ARNm, lo que quizás indique una respuesta homeostática o una condición patológica. Por ejemplo, niveles más altos de ARNm que codifica para la alcohol deshidrogenasa sugieren que las células o tejidos en estudio están respondiendo a mayores niveles de etanol en su entorno. De manera similar, si las células de cáncer de mama expresan niveles más altos de ARNm asociado con un receptor transmembrana particular que las células normales, podría ser que este receptor desempeñe un papel en el cáncer de mama. Un fármaco que interfiere con este receptor puede prevenir o tratar el cáncer de mama. Al desarrollar un fármaco, se pueden realizar experimentos de perfil de expresión genética para ayudar a evaluar la toxicidad del fármaco, tal vez buscando niveles cambiantes en la expresión de los genes del citocromo P450 , que pueden ser un biomarcador del metabolismo de los fármacos. [2] El perfil de expresión genética puede convertirse en una prueba diagnóstica importante. [3] [4]

Comparación con la proteómica

El genoma humano contiene alrededor de 20.000 genes que trabajan en conjunto para producir aproximadamente 1.000.000 de proteínas distintas. Esto se debe al splicing alternativo y también a que las células realizan cambios importantes en las proteínas a través de la modificación postraduccional después de que las construyen por primera vez, por lo que un gen determinado sirve como base para muchas versiones posibles de una proteína particular. En cualquier caso, un solo experimento de espectrometría de masas puede identificar alrededor de 2.000 proteínas [5] o el 0,2% del total. Si bien el conocimiento de las proteínas precisas que produce una célula ( proteómica ) es más relevante que saber cuánto ARN mensajero se produce a partir de cada gen, [ ¿por qué? ] el perfil de expresión genética proporciona la imagen más global posible en un solo experimento. Sin embargo, la metodología de la proteómica está mejorando. En otras especies, como la levadura, es posible identificar más de 4.000 proteínas en poco más de una hora. [6]

Uso en la generación y prueba de hipótesis

A veces, un científico ya tiene una idea de lo que está sucediendo, una hipótesis , y realiza un experimento de perfil de expresión con la idea de refutar potencialmente esta hipótesis. En otras palabras, el científico está haciendo una predicción específica sobre los niveles de expresión que podrían resultar falsos.

Más comúnmente, el perfil de expresión se lleva a cabo antes de que se sepa lo suficiente sobre cómo interactúan los genes con las condiciones experimentales para que exista una hipótesis comprobable. Sin hipótesis, no hay nada que refutar, pero el perfil de expresión puede ayudar a identificar una hipótesis candidata para experimentos futuros. La mayoría de los primeros experimentos de perfil de expresión, y muchos de los actuales, tienen esta forma [7], que se conoce como descubrimiento de clase. Un enfoque popular para el descubrimiento de clase implica agrupar genes o muestras similares utilizando uno de los muchos métodos de agrupamiento existentes, como el tradicional k-means o el agrupamiento jerárquico , o el más reciente MCL . [8] Además de seleccionar un algoritmo de agrupamiento, el usuario generalmente tiene que elegir una medida de proximidad apropiada (distancia o similitud) entre los objetos de datos. [9] La figura anterior representa el resultado de un clúster bidimensional, en el que las muestras similares (filas, arriba) y las sondas genéticas similares (columnas) se organizaron de modo que estuvieran juntas. La forma más simple de descubrimiento de clase sería enumerar todos los genes que cambiaron en más de una cierta cantidad entre dos condiciones experimentales.

La predicción de clases es más difícil que el descubrimiento de clases, pero permite responder a preguntas de importancia clínica directa como, dado este perfil, ¿cuál es la probabilidad de que este paciente responda a este fármaco? Esto requiere muchos ejemplos de perfiles que respondieron y no respondieron, así como técnicas de validación cruzada para discriminarlos.

Limitaciones

En general, los estudios de perfiles de expresión informan sobre los genes que mostraron diferencias estadísticamente significativas en condiciones experimentales modificadas. Por lo general, se trata de una pequeña fracción del genoma por varias razones. En primer lugar, diferentes células y tejidos expresan un subconjunto de genes como consecuencia directa de la diferenciación celular, por lo que muchos genes se desactivan. En segundo lugar, muchos de los genes codifican proteínas que se requieren para la supervivencia en cantidades muy específicas, por lo que muchos genes no cambian. En tercer lugar, las células utilizan muchos otros mecanismos para regular las proteínas además de alterar la cantidad de ARNm , por lo que estos genes pueden permanecer expresados ​​de manera constante incluso cuando las concentraciones de proteínas aumentan y disminuyen. En cuarto lugar, las limitaciones financieras limitan los experimentos de perfiles de expresión a un pequeño número de observaciones del mismo gen en condiciones idénticas, lo que reduce el poder estadístico del experimento y hace imposible que el experimento identifique cambios importantes pero sutiles. Por último, se necesita una gran cantidad de esfuerzo para discutir la importancia biológica de cada gen regulado, por lo que los científicos a menudo limitan su discusión a un subconjunto. Las técnicas de análisis de microarrays más nuevas automatizan ciertos aspectos de la asignación de importancia biológica a los resultados de los perfiles de expresión, pero esto sigue siendo un problema muy difícil.

La longitud relativamente corta de las listas de genes publicadas a partir de experimentos de perfil de expresión limita el grado en que los experimentos realizados en diferentes laboratorios parecen coincidir. Colocar los resultados de los perfiles de expresión en una base de datos de microarrays de acceso público permite a los investigadores evaluar patrones de expresión más allá del alcance de los resultados publicados, tal vez identificando similitudes con su propio trabajo.

Validación de mediciones de alto rendimiento

Tanto los microarrays de ADN como la PCR cuantitativa explotan la unión preferencial o " apareamiento de bases " de secuencias de ácidos nucleicos complementarios, y ambos se utilizan en el perfil de expresión génica, a menudo de forma serial. Si bien los microarrays de ADN de alto rendimiento carecen de la precisión cuantitativa de la qPCR, lleva aproximadamente el mismo tiempo medir la expresión génica de unas pocas docenas de genes mediante qPCR que medir un genoma completo utilizando microarrays de ADN. Por lo tanto, a menudo tiene sentido realizar experimentos de análisis de microarrays de ADN semicuantitativos para identificar genes candidatos y luego realizar qPCR en algunos de los genes candidatos más interesantes para validar los resultados de los microarrays. Otros experimentos, como un Western blot de algunos de los productos proteicos de genes expresados ​​diferencialmente, hacen que las conclusiones basadas en el perfil de expresión sean más persuasivas, ya que los niveles de ARNm no se correlacionan necesariamente con la cantidad de proteína expresada.

Análisis estadístico

El análisis de datos de microarrays se ha convertido en un área de intensa investigación. [10] Simplemente afirmar que un grupo de genes estaba regulado al menos por el doble, una práctica que antes era común, carece de una base estadística sólida. Con cinco o menos réplicas en cada grupo, algo típico de los microarrays, una única observación atípica puede crear una diferencia aparente mayor que el doble. Además, fijar arbitrariamente el límite en el doble no es biológicamente sólido, ya que elimina de la consideración muchos genes con una importancia biológica obvia.

En lugar de identificar genes expresados ​​diferencialmente usando un punto de corte de cambio de pliegue, se puede usar una variedad de pruebas estadísticas o pruebas ómnibus como ANOVA , todas las cuales consideran tanto el cambio de pliegue como la variabilidad para crear un valor p , una estimación de la frecuencia con la que observaríamos los datos solo por casualidad. La aplicación de valores p a microarrays es complicada por la gran cantidad de comparaciones múltiples (genes) involucradas. Por ejemplo, generalmente se piensa que un valor p de 0,05 indica significancia, ya que estima una probabilidad del 5% de observar los datos por casualidad. Pero con 10.000 genes en un microarray, 500 genes se identificarían como significativos en p < 0,05 incluso si no hubiera diferencia entre los grupos experimentales. Una solución obvia es considerar significativos solo aquellos genes que cumplen un criterio de valor p mucho más estricto, por ejemplo, se podría realizar una corrección de Bonferroni en los valores p, o usar un cálculo de tasa de descubrimiento falso para ajustar los valores p en proporción a la cantidad de pruebas paralelas involucradas. Desafortunadamente, estos enfoques pueden reducir la cantidad de genes significativos a cero, incluso cuando los genes se expresan de manera diferencial. Las estadísticas actuales, como los productos Rank, apuntan a lograr un equilibrio entre el descubrimiento falso de genes debido a la variación aleatoria y el no descubrimiento de genes expresados ​​de manera diferencial. Los métodos que se citan comúnmente incluyen el Análisis de Significación de Microarrays (SAM) [11] y hay una amplia variedad de métodos disponibles de Bioconductor y una variedad de paquetes de análisis de empresas de bioinformática .

La selección de una prueba diferente generalmente identifica una lista diferente de genes significativos [12] ya que cada prueba opera bajo un conjunto específico de suposiciones y pone un énfasis diferente en ciertas características de los datos. Muchas pruebas comienzan con la suposición de una distribución normal en los datos, porque eso parece un punto de partida sensato y a menudo produce resultados que parecen más significativos. Algunas pruebas consideran la distribución conjunta de todas las observaciones de genes para estimar la variabilidad general en las mediciones, [13] mientras que otras analizan cada gen de forma aislada. Muchas técnicas modernas de análisis de microarrays implican el bootstrapping (estadística) , el aprendizaje automático o los métodos de Monte Carlo . [14]

A medida que aumenta el número de mediciones replicadas en un experimento de microarrays, los distintos enfoques estadísticos arrojan resultados cada vez más similares, pero la falta de concordancia entre los diferentes métodos estadísticos hace que los resultados de los microarrays parezcan menos confiables. El Proyecto MAQC [15] hace recomendaciones para orientar a los investigadores en la selección de métodos más estándar (por ejemplo, utilizando el valor p y el cambio de pliegue juntos para seleccionar los genes expresados ​​diferencialmente) de modo que los experimentos realizados en diferentes laboratorios coincidan mejor.

A diferencia del análisis de genes individuales expresados ​​diferencialmente, otro tipo de análisis se centra en la expresión diferencial o perturbación de conjuntos de genes predefinidos y se denomina análisis de conjuntos de genes. [16] [17] El análisis de conjuntos de genes demostró varias ventajas importantes sobre el análisis de expresión diferencial de genes individuales. [16] [17] Los conjuntos de genes son grupos de genes que están funcionalmente relacionados según el conocimiento actual. Por lo tanto, el análisis de conjuntos de genes se considera un enfoque de análisis basado en el conocimiento. [16] Los conjuntos de genes comúnmente utilizados incluyen aquellos derivados de las vías KEGG , términos de ontología genética , grupos de genes que comparten algunas otras anotaciones funcionales, como reguladores transcripcionales comunes, etc. Los métodos representativos de análisis de conjuntos de genes incluyen el análisis de enriquecimiento de conjuntos de genes (GSEA), [16] que estima la importancia de los conjuntos de genes basándose en la permutación de etiquetas de muestra, y el enriquecimiento de conjuntos de genes generalmente aplicable (GAGE), [17] que prueba la importancia de los conjuntos de genes basándose en la permutación de etiquetas de genes o una distribución paramétrica.

Anotación de genes

Aunque las estadísticas pueden identificar qué productos genéticos cambian en condiciones experimentales, dar sentido biológico a los perfiles de expresión depende de saber qué proteína produce cada producto genético y qué función desempeña esta proteína. La anotación genética proporciona información funcional y de otro tipo, por ejemplo, la ubicación de cada gen dentro de un cromosoma particular. Algunas anotaciones funcionales son más fiables que otras; algunas no existen. Las bases de datos de anotación genética cambian periódicamente y varias bases de datos se refieren a la misma proteína con nombres diferentes, lo que refleja una comprensión cambiante de la función de las proteínas. El uso de una nomenclatura genética estandarizada ayuda a abordar el aspecto de la denominación del problema, pero la coincidencia exacta de las transcripciones con los genes [18] [19] sigue siendo una consideración importante.

Categorización de genes regulados

Una vez identificado un conjunto de genes regulados, el siguiente paso en la elaboración de perfiles de expresión consiste en buscar patrones dentro del conjunto regulado. ¿Las proteínas creadas a partir de estos genes realizan funciones similares? ¿Son químicamente similares? ¿Residen en partes similares de la célula? El análisis de ontología génica proporciona una forma estándar de definir estas relaciones. Las ontologías génicas comienzan con categorías muy amplias, por ejemplo, "proceso metabólico", y las descomponen en categorías más pequeñas, por ejemplo, "proceso metabólico de carbohidratos" y, finalmente, en categorías bastante restrictivas como "fosforilación de inositol y derivados".

Los genes tienen otros atributos además de su función biológica, propiedades químicas y ubicación celular. Se pueden crear conjuntos de genes en función de su proximidad a otros genes, su asociación con una enfermedad y su relación con fármacos o toxinas. La base de datos de firmas moleculares [20] y la base de datos de toxicogenómica comparativa [21] son ​​ejemplos de recursos para categorizar los genes de numerosas maneras.

Encontrar patrones entre genes regulados

Diagrama de red genética de Ingenuity [22] que ensambla de forma dinámica genes con relaciones conocidas. El verde indica expresión reducida, el rojo indica expresión aumentada. El algoritmo ha incluido genes no regulados, en blanco, para mejorar la conectividad.

Los genes regulados se clasifican en función de lo que son y lo que hacen, y pueden surgir relaciones importantes entre ellos. [23] Por ejemplo, podríamos ver evidencia de que un determinado gen crea una proteína para producir una enzima que activa una proteína para activar un segundo gen de nuestra lista. Este segundo gen puede ser un factor de transcripción que regula otro gen de nuestra lista. Al observar estos vínculos, podemos empezar a sospechar que representan mucho más que asociaciones aleatorias en los resultados, y que todos están en nuestra lista debido a un proceso biológico subyacente. Por otro lado, podría ser que si uno seleccionara genes al azar, pudiera encontrar muchos que parecieran tener algo en común. En este sentido, necesitamos procedimientos estadísticos rigurosos para probar si los temas biológicos emergentes son significativos o no. Ahí es donde entra en juego el análisis de conjuntos de genes [16] [17] .

Relaciones de causa y efecto

Las estadísticas bastante sencillas proporcionan estimaciones de si las asociaciones entre genes en listas son mayores de lo que uno esperaría por casualidad. Estas estadísticas son interesantes, incluso si representan una simplificación sustancial de lo que realmente está sucediendo. He aquí un ejemplo. Supongamos que hay 10.000 genes en un experimento, de los cuales solo 50 (0,5%) desempeñan un papel conocido en la producción de colesterol . El experimento identifica 200 genes regulados. De ellos, 40 (20%) resultan estar también en una lista de genes de colesterol. Basándonos en la prevalencia general de los genes de colesterol (0,5%), se espera un promedio de 1 gen de colesterol por cada 200 genes regulados, es decir, 0,005 veces 200. Esta expectativa es un promedio, por lo que se espera ver más de uno en algún momento. La pregunta es con qué frecuencia veríamos 40 en lugar de 1 debido al puro azar.

Según la distribución hipergeométrica , cabría esperar que se hicieran unos 10^57 intentos (10 seguido de 56 ceros) antes de elegir 39 o más genes de colesterol de un conjunto de 10.000 extrayendo 200 genes al azar. Si se presta mucha atención a lo infinitesimalmente pequeña que es la probabilidad de observar esto por casualidad, se concluiría que la lista de genes regulados está enriquecida [24] en genes con una asociación conocida con el colesterol.

Se podría plantear la hipótesis de que el tratamiento experimental regula el colesterol, porque parece regular selectivamente los genes asociados con el colesterol. Si bien esto puede ser cierto, hay varias razones por las que llegar a esta conclusión firme basándose únicamente en el enriquecimiento representa un acto de fe injustificado. Una cuestión mencionada anteriormente tiene que ver con la observación de que la regulación genética puede no tener un impacto directo en la regulación de las proteínas: incluso si las proteínas codificadas por estos genes no hacen nada más que producir colesterol, demostrar que su ARNm está alterado no nos dice directamente qué está sucediendo a nivel de proteínas. Es muy posible que la cantidad de estas proteínas relacionadas con el colesterol permanezca constante en las condiciones experimentales. En segundo lugar, incluso si los niveles de proteínas cambian, tal vez siempre haya suficientes para producir colesterol lo más rápido posible, es decir, otra proteína, que no está en nuestra lista, es el paso que determina la velocidad en el proceso de producción de colesterol. Finalmente, las proteínas suelen desempeñar muchas funciones, por lo que estos genes pueden estar regulados no por su asociación compartida con la producción de colesterol, sino por un papel compartido en un proceso completamente independiente.

Teniendo en mente las advertencias anteriores, si bien los perfiles genéticos en sí mismos no prueban relaciones causales entre los tratamientos y los efectos biológicos, sí ofrecen información biológica única a la que a menudo sería muy difícil llegar de otras maneras.

Utilizando patrones para encontrar genes regulados

Como se ha descrito anteriormente, se pueden identificar primero los genes significativamente regulados y luego encontrar patrones comparando la lista de genes significativos con conjuntos de genes que se sabe que comparten ciertas asociaciones. También se puede resolver el problema en orden inverso. He aquí un ejemplo muy sencillo. Supongamos que hay 40 genes asociados a un proceso conocido, por ejemplo, una predisposición a la diabetes. Al observar dos grupos de perfiles de expresión, uno para ratones alimentados con una dieta alta en carbohidratos y otro para ratones alimentados con una dieta baja en carbohidratos, se observa que los 40 genes de la diabetes se expresan a un nivel más alto en el grupo de los que consumen mucha cantidad de carbohidratos que en el de los que consumen poca cantidad. Independientemente de si alguno de estos genes hubiera llegado a una lista de genes significativamente alterados, parece poco probable que observar los 40 hacia arriba y ninguno hacia abajo sea el resultado de la pura casualidad: se predice que sacar 40 caras seguidas ocurrirá aproximadamente una vez en un billón de intentos con una moneda justa.

Para un tipo de célula, el grupo de genes cuyo patrón de expresión combinado es característico de una determinada enfermedad constituye la firma genética de esa enfermedad. Idealmente, la firma genética se puede utilizar para seleccionar un grupo de pacientes en un estado específico de una enfermedad con una precisión que facilita la selección de tratamientos. [25] [26] El análisis de enriquecimiento de conjuntos de genes (GSEA) [16] y métodos similares [17] aprovechan este tipo de lógica, pero utilizan estadísticas más sofisticadas, porque los genes componentes de los procesos reales muestran un comportamiento más complejo que simplemente moverse hacia arriba o hacia abajo como grupo, y la cantidad en que los genes se mueven hacia arriba y hacia abajo es significativa, no solo la dirección. En cualquier caso, estas estadísticas miden cuán diferente es el comportamiento de un pequeño conjunto de genes en comparación con los genes que no están en ese pequeño conjunto.

GSEA utiliza una estadística de estilo Kolmogorov Smirnov para ver si algún conjunto de genes previamente definido exhibió un comportamiento inusual en el perfil de expresión actual. Esto genera un desafío de prueba de hipótesis múltiples, pero existen métodos razonables para abordarlo. [27]

Conclusiones

Los perfiles de expresión proporcionan nueva información sobre lo que hacen los genes en diversas condiciones. En general, la tecnología de microarrays produce perfiles de expresión confiables. [28] A partir de esta información, se pueden generar nuevas hipótesis sobre biología o probar las existentes. Sin embargo, el tamaño y la complejidad de estos experimentos a menudo dan lugar a una amplia variedad de posibles interpretaciones. En muchos casos, analizar los resultados de los perfiles de expresión requiere mucho más esfuerzo que realizar los experimentos iniciales.

La mayoría de los investigadores utilizan múltiples métodos estadísticos y análisis exploratorios de datos antes de publicar los resultados de sus perfiles de expresión, coordinando sus esfuerzos con un bioinformático u otro experto en microarrays de ADN . Un buen diseño experimental, una replicación biológica adecuada y experimentos de seguimiento desempeñan un papel fundamental en el éxito de los experimentos de perfiles de expresión.

Véase también

Referencias

  1. ^ "Hoja informativa sobre microarrays" . Consultado el 28 de diciembre de 2007 .
  2. ^ Suter L, Babiss LE, Wheeldon EB (2004). "Toxicogenómica en la toxicología predictiva en el desarrollo de fármacos". Chem. Biol . 11 (2): 161–71. doi : 10.1016/j.chembiol.2004.02.003 . PMID  15123278.
  3. ^ Magic Z, Radulovic S, Brankovic-Magic M (2007). "Microarreglos de ADNc: identificación de firmas genéticas y su aplicación en la práctica clínica". J BUON . 12 (Supl 1): S39–44. PMID  17935276.
  4. ^ Cheung AN (2007). "Objetivos moleculares en cánceres ginecológicos". Patología . 39 (1): 26–45. doi :10.1080/00313020601153273. PMID  17365821. S2CID  40896577.
  5. ^ Mirza SP, Olivier M (2007). "Métodos y enfoques para la caracterización y cuantificación integral de proteomas celulares mediante espectrometría de masas". Physiol Genomics . 33 (1): 3–11. doi :10.1152/physiolgenomics.00292.2007. PMC 2771641 . PMID  18162499. 
  6. ^ Hebert AS, Richards AL, et al. (2014). "El proteoma de levadura de una hora". Mol Cell Proteomics . 13 (1): 339–347. doi : 10.1074/mcp.M113.034769 . PMC 3879625 . PMID  24143002. 
  7. ^ Chen JJ (2007). "Aspectos clave del análisis de datos de expresión génica de microarrays". Farmacogenómica . 8 (5): 473–82. doi :10.2217/14622416.8.5.473. PMID  17465711.
  8. ^ van Dongen, Stijn (2000). Agrupación de gráficos mediante simulación de flujo. Universidad de Utrecht.
  9. ^ Jaskowiak, Pablo A; Campello, Ricardo JGB; Costa, Ivan G (24 de enero de 2014). "Sobre la selección de distancias apropiadas para la agrupación de datos de expresión génica". BMC Bioinformatics . 15 (Suppl 2): ​​S2. doi : 10.1186/1471-2105-15-S2-S2 . PMC 4072854 . PMID  24564555. 
  10. ^ Vardhanabhuti S, Blakemore SJ, Clark SM, Ghosh S, Stephens RJ, Rajagopalan D (2006). "Una comparación de pruebas estadísticas para detectar la expresión diferencial utilizando microarreglos de oligonucleótidos Affymetrix". OMICS . 10 (4): 555–66. doi :10.1089/omi.2006.10.555. PMID  17233564.
  11. ^ "Análisis de significancia de microarrays". Archivado desde el original el 20 de enero de 2008. Consultado el 27 de diciembre de 2007 .
  12. ^ Yauk CL, Berndt ML (2007). "Revisión de la literatura que examina la correlación entre las tecnologías de microarrays de ADN". Environ. Mol. Mutagen . 48 (5): 380–94. Bibcode :2007EnvMM..48..380Y. doi :10.1002/em.20290. PMC 2682332 . PMID  17370338. 
  13. ^ Breitling R (2006). "Interpretación de microarrays biológicos: las reglas de juego" (PDF) . Biochim. Biophys. Acta . 1759 (7): 319–27. doi :10.1016/j.bbaexp.2006.06.003. PMID  16904203. S2CID  1857997.
  14. ^ Draminski M, Rada-Iglesias A, Enroth S, Wadelius C, Koronacki J, Komorowski J (2008). "Selección de características de Monte Carlo para clasificación supervisada". Bioinformática . 24 (1): 110–7. doi : 10.1093/bioinformatics/btm486 . PMID  18048398.
  15. ^ Dr. Leming Shi, Centro Nacional de Investigación Toxicológica. "Proyecto de Control de Calidad de Microarrays (MAQC)". Administración de Alimentos y Medicamentos de los Estados Unidos . Consultado el 26 de diciembre de 2007 .
  16. ^ abcdef Subramanian A, Tamayo P, Mootha VK, Mukherjee S, Ebert BL, Gillette MA, Paulovich A, Pomeroy SL, Golub TR, Lander ES, Mesirov JP (2005). "Análisis de enriquecimiento del conjunto de genes: un enfoque basado en el conocimiento para interpretar los perfiles de expresión de todo el genoma". Proc. Natl. Sci. EE. UU . . 102 (43): 15545–50. doi : 10.1073/pnas.0506580102 . PMC 1239896 . PMID  16199517. 
  17. ^ abcde Luo W, Friedman M, Shedden K, Hankenson KD, Woolf JP (2009). "GAGE: enriquecimiento del conjunto de genes de aplicación general para el análisis de vías". BMC Bioinformatics . 10 : 161. doi : 10.1186/1471-2105-10-161 . PMC 2696452 ​​. PMID  19473525. 
  18. ^ Dai M, Wang P, Boyd AD, et al. (2005). "La evolución de las definiciones de genes y transcripciones altera significativamente la interpretación de los datos de GeneChip". Nucleic Acids Res . 33 (20): e175. doi :10.1093/nar/gni179. PMC 1283542. PMID  16284200 . 
  19. ^ Alberts R, Terpstra P, Hardonk M, et al. (2007). "Un protocolo de verificación para las secuencias de sonda de las matrices genómicas de Affymetrix revela una alta precisión de la sonda para estudios en ratones, humanos y ratas". BMC Bioinformatics . 8 : 132. doi : 10.1186/1471-2105-8-132 . PMC 1865557 . PMID  17448222. 
  20. ^ "GSEA – MSigDB" . Consultado el 3 de enero de 2008 .
  21. ^ "CTD: La base de datos toxicogenómica comparativa" . Consultado el 3 de enero de 2008 .
  22. ^ "Ingenuity Systems" . Consultado el 27 de diciembre de 2007 .
  23. ^ Alekseev OM, Richardson RT, Alekseev O, O'Rand MG (2009). "Análisis de los perfiles de expresión génica en células HeLa en respuesta a la sobreexpresión o agotamiento de NASP mediado por ARNi". Reprod. Biol. Endocrinol . 7 : 45. doi : 10.1186/1477-7827-7-45 . PMC 2686705 . PMID  19439102. 
  24. ^ Curtis RK, Oresic M, Vidal-Puig A (2005). "Caminos hacia el análisis de datos de microarrays". Trends Biotechnol . 23 (8): 429–35. doi :10.1016/j.tibtech.2005.05.011. PMID  15950303.
  25. ^ Mook S, Van't Veer LJ, Rutgers EJ, Piccart-Gebhart MJ, Cardoso F (2007). "Individualización de la terapia con Mammaprint: desde el desarrollo hasta el ensayo MINDACT". Genómica del cáncer y proteómica . 4 (3): 147–55. PMID  17878518.
  26. ^ Corsello SM, Roti G, Ross KN, Chow KT, Galinsky I, DeAngelo DJ, Stone RM, Kung AL, Golub TR, Stegmaier K (junio de 2009). "Identificación de moduladores de AML1-ETO mediante genómica química". Blood . 113 (24): 6193–205. doi :10.1182/blood-2008-07-166090. PMC 2699238 . PMID  19377049. 
  27. ^ "GSEA" . Consultado el 9 de enero de 2008 .
  28. ^ Couzin J (2006). "Genómica. Datos de microarrays reproducidos, pero persisten algunas preocupaciones". Science . 313 (5793): 1559. doi :10.1126/science.313.5793.1559a. PMID  16973852. S2CID  58528299.

Enlaces externos