En el campo de la biología molecular , el perfil de expresión génica es la medición de la actividad (la expresión ) de miles de genes a la vez, para crear una imagen global de la función celular. Estos perfiles pueden, por ejemplo, distinguir entre células que se están dividiendo activamente o mostrar cómo reaccionan las células a un tratamiento particular. Muchos experimentos de este tipo miden simultáneamente un genoma completo , es decir, cada gen presente en una célula concreta.
Se pueden utilizar varias tecnologías transcriptómicas para generar los datos necesarios para analizar. Los microarrays de ADN [1] miden la actividad relativa de genes diana previamente identificados. Las técnicas basadas en secuencias, como RNA-Seq , proporcionan información sobre las secuencias de genes además de su nivel de expresión.
El perfil de expresión es el siguiente paso lógico después de secuenciar un genoma : la secuencia nos dice qué podría hacer la célula, mientras que el perfil de expresión nos dice qué está haciendo realmente en un momento determinado. Los genes contienen las instrucciones para producir ARN mensajero ( ARNm ), pero en cualquier momento cada célula produce ARNm a partir de sólo una fracción de los genes que porta. Si un gen se utiliza para producir ARNm, se considera "activado"; en caso contrario, "apagado". Muchos factores determinan si un gen está activado o desactivado, como la hora del día, si la célula se está dividiendo activamente o no, su entorno local y las señales químicas de otras células. Por ejemplo, las células de la piel , las células del hígado y las células nerviosas activan (expresan) genes algo diferentes y eso es en gran parte lo que las hace diferentes. Por lo tanto, un perfil de expresión permite deducir el tipo, estado, entorno, etc. de una célula.
Los experimentos de perfiles de expresión a menudo implican medir la cantidad relativa de ARNm expresado en dos o más condiciones experimentales. Esto se debe a que los niveles alterados de una secuencia específica de ARNm sugieren un cambio en la necesidad de la proteína codificada por el ARNm, lo que tal vez indique una respuesta homeostática o una condición patológica. Por ejemplo, niveles más altos de ARNm que codifica la alcohol deshidrogenasa sugieren que las células o tejidos bajo estudio están respondiendo a niveles elevados de etanol en su entorno. De manera similar, si las células de cáncer de mama expresan niveles más altos de ARNm asociado con un receptor transmembrana particular que las células normales, podría ser que este receptor desempeñe un papel en el cáncer de mama. Un medicamento que interfiere con este receptor puede prevenir o tratar el cáncer de mama. Al desarrollar un fármaco, se pueden realizar experimentos de perfiles de expresión genética para ayudar a evaluar la toxicidad del fármaco, tal vez buscando niveles cambiantes en la expresión de los genes del citocromo P450 , que pueden ser un biomarcador del metabolismo del fármaco. [2] El perfil de expresión genética puede convertirse en una prueba de diagnóstico importante. [3] [4]
El genoma humano contiene del orden de 20.000 genes que trabajan en conjunto para producir aproximadamente 1.000.000 de proteínas distintas. Esto se debe al empalme alternativo y también a que las células realizan cambios importantes en las proteínas mediante modificaciones postraduccionales después de construirlas por primera vez, por lo que un gen determinado sirve como base para muchas versiones posibles de una proteína en particular. En cualquier caso, un solo experimento de espectrometría de masas puede identificar alrededor de 2.000 proteínas [5] o el 0,2% del total. Si bien el conocimiento de las proteínas precisas que produce una célula ( proteómica ) es más relevante que saber cuánto ARN mensajero se produce a partir de cada gen, ¿ por qué? ] el perfil de expresión genética proporciona la imagen más global posible en un solo experimento. Sin embargo, la metodología proteómica está mejorando. En otras especies, como la levadura, es posible identificar más de 4.000 proteínas en poco más de una hora. [6]
A veces, un científico ya tiene una idea de lo que está sucediendo, una hipótesis , y realiza un experimento de perfilado de expresiones con la idea de refutar potencialmente esta hipótesis. En otras palabras, el científico está haciendo una predicción concreta sobre niveles de expresión que podría resultar falsa.
Más comúnmente, el perfil de expresión se realiza antes de que se sepa lo suficiente sobre cómo interactúan los genes con las condiciones experimentales para que exista una hipótesis comprobable. Sin hipótesis, no hay nada que refutar, pero el perfil de expresión puede ayudar a identificar una hipótesis candidata para experimentos futuros. La mayoría de los primeros experimentos de perfiles de expresión, y muchos de los actuales, tienen esta forma [7] que se conoce como descubrimiento de clases. Un enfoque popular para el descubrimiento de clases implica agrupar genes o muestras similares utilizando uno de los muchos métodos de agrupación existentes, como el tradicional k-means o la agrupación jerárquica , o el más reciente MCL . [8] Además de seleccionar un algoritmo de agrupamiento, el usuario generalmente tiene que elegir una medida de proximidad apropiada (distancia o similitud) entre los objetos de datos. [9] La figura anterior representa el resultado de un grupo bidimensional, en el que muestras similares (filas, arriba) y sondas genéticas similares (columnas) se organizaron para que estuvieran muy juntas. La forma más sencilla de descubrimiento de clases sería enumerar todos los genes que cambiaron más de cierta cantidad entre dos condiciones experimentales.
La predicción de clase es más difícil que el descubrimiento de clase, pero permite responder preguntas de importancia clínica directa como, dado este perfil, ¿cuál es la probabilidad de que este paciente responda a este fármaco? Esto requiere muchos ejemplos de perfiles que respondieron y no respondieron, así como técnicas de validación cruzada para discriminarlos.
En general, los estudios de perfiles de expresión informan sobre aquellos genes que mostraron diferencias estadísticamente significativas bajo condiciones experimentales modificadas. Suele ser una pequeña fracción del genoma por varias razones. En primer lugar, diferentes células y tejidos expresan un subconjunto de genes como consecuencia directa de la diferenciación celular, por lo que muchos genes están desactivados. En segundo lugar, muchos de los genes codifican proteínas que se necesitan para la supervivencia en cantidades muy específicas, por lo que muchos genes no cambian. En tercer lugar, las células utilizan muchos otros mecanismos para regular las proteínas además de alterar la cantidad de ARNm , por lo que estos genes pueden permanecer expresados de manera constante incluso cuando las concentraciones de proteínas aumentan y disminuyen. En cuarto lugar, las restricciones financieras limitan los experimentos de perfiles de expresión a un pequeño número de observaciones del mismo gen en condiciones idénticas, lo que reduce el poder estadístico del experimento y hace imposible que el experimento identifique cambios importantes pero sutiles. Por último, se necesita un gran esfuerzo para discutir la importancia biológica de cada gen regulado, por lo que los científicos a menudo limitan su discusión a un subconjunto. Las técnicas más nuevas de análisis de microarrays automatizan ciertos aspectos de la asignación de importancia biológica a los resultados de los perfiles de expresión, pero esto sigue siendo un problema muy difícil.
La longitud relativamente corta de las listas de genes publicadas a partir de experimentos de perfiles de expresión limita el grado en que los experimentos realizados en diferentes laboratorios parecen coincidir. Colocar los resultados de los perfiles de expresión en una base de datos de microarrays de acceso público permite a los investigadores evaluar patrones de expresión más allá del alcance de los resultados publicados, tal vez identificando similitudes con su propio trabajo.
Tanto los microarrays de ADN como la PCR cuantitativa explotan la unión preferencial o " emparejamiento de bases " de secuencias de ácidos nucleicos complementarias, y ambas se utilizan en la elaboración de perfiles de expresión génica, a menudo en forma serial. Si bien los microarrays de ADN de alto rendimiento carecen de la precisión cuantitativa de la qPCR, se necesita aproximadamente el mismo tiempo para medir la expresión genética de unas pocas docenas de genes mediante qPCR que para medir un genoma completo utilizando microarrays de ADN. Por lo tanto, a menudo tiene sentido realizar experimentos de análisis de microarrays de ADN semicuantitativos para identificar genes candidatos y luego realizar qPCR en algunos de los genes candidatos más interesantes para validar los resultados de los microarrays. Otros experimentos, como una transferencia Western de algunos de los productos proteicos de genes expresados diferencialmente, hacen que las conclusiones basadas en el perfil de expresión sean más persuasivas, ya que los niveles de ARNm no necesariamente se correlacionan con la cantidad de proteína expresada.
El análisis de datos de microarrays se ha convertido en un área de intensa investigación. [10] El simple hecho de afirmar que un grupo de genes estaba regulado al menos dos veces, lo que alguna vez fue una práctica común, carece de una base estadística sólida. Con cinco o menos réplicas en cada grupo, típico de los microarrays, una sola observación atípica puede crear una diferencia aparente mayor al doble. Además, fijar arbitrariamente el listón al doble no es biológicamente sensato, ya que elimina de la consideración muchos genes con importancia biológica obvia.
En lugar de identificar genes expresados diferencialmente utilizando un límite de cambio, se pueden utilizar una variedad de pruebas estadísticas o pruebas generales como ANOVA , todas las cuales consideran tanto el cambio como la variabilidad para crear un valor p , una estimación de la frecuencia con la que observar los datos sólo por casualidad. La aplicación de valores p a microarrays es complicada por la gran cantidad de comparaciones múltiples (genes) involucradas. Por ejemplo, normalmente se piensa que un valor p de 0,05 indica significancia, ya que estima una probabilidad del 5% de observar los datos por casualidad. Pero con 10.000 genes en un microarray, 500 genes se identificarían como significativos en p < 0,05 incluso si no hubiera diferencias entre los grupos experimentales. Una solución obvia es considerar significativos sólo aquellos genes que cumplan un criterio de valor p mucho más estricto; por ejemplo, se podría realizar una corrección de Bonferroni en los valores p, o utilizar un cálculo de tasa de descubrimiento falso para ajustar los valores p en proporción al número de pruebas paralelas involucradas. Desafortunadamente, estos enfoques pueden reducir el número de genes significativos a cero, incluso cuando los genes en realidad se expresan de manera diferencial. Las estadísticas actuales, como las de los productos Rank, pretenden lograr un equilibrio entre el descubrimiento falso de genes debido a variaciones aleatorias y el no descubrimiento de genes expresados diferencialmente. Los métodos comúnmente citados incluyen el Análisis de Significancia de Microarrays (SAM) [11] y hay una amplia variedad de métodos disponibles en Bioconductor y una variedad de paquetes de análisis de empresas de bioinformática .
La selección de una prueba diferente generalmente identifica una lista diferente de genes importantes [12], ya que cada prueba opera bajo un conjunto específico de suposiciones y pone un énfasis diferente en ciertas características de los datos. Muchas pruebas comienzan con el supuesto de una distribución normal de los datos, porque parece un punto de partida sensato y, a menudo, produce resultados que parecen más significativos. Algunas pruebas consideran la distribución conjunta de todas las observaciones de genes para estimar la variabilidad general en las mediciones, [13] mientras que otras analizan cada gen de forma aislada. Muchas técnicas modernas de análisis de microarrays implican métodos de arranque (estadísticas) , aprendizaje automático o Monte Carlo . [14]
A medida que aumenta el número de mediciones replicadas en un experimento de microarrays, varios enfoques estadísticos producen resultados cada vez más similares, pero la falta de concordancia entre los diferentes métodos estadísticos hace que los resultados de los arreglos parezcan menos confiables. El Proyecto MAQC [15] hace recomendaciones para guiar a los investigadores en la selección de métodos más estándar (por ejemplo, utilizando el valor p y el cambio múltiple juntos para seleccionar los genes expresados diferencialmente) de modo que los experimentos realizados en diferentes laboratorios concuerden mejor.
A diferencia del análisis de genes individuales expresados diferencialmente, otro tipo de análisis se centra en la expresión diferencial o perturbación de conjuntos de genes predefinidos y se denomina análisis de conjuntos de genes. [16] [17] El análisis de conjuntos de genes demostró varias ventajas importantes sobre el análisis de expresión diferencial de genes individuales. [16] [17] Los conjuntos de genes son grupos de genes que están funcionalmente relacionados según el conocimiento actual. Por lo tanto, el análisis de conjuntos de genes se considera un enfoque de análisis basado en el conocimiento. [16] Los conjuntos de genes comúnmente utilizados incluyen aquellos derivados de vías KEGG , términos de ontología genética , grupos de genes que comparten algunas otras anotaciones funcionales, como reguladores transcripcionales comunes, etc. Los métodos de análisis de conjuntos de genes representativos incluyen el análisis de enriquecimiento de conjuntos de genes (GSEA), [16 ] que estima la importancia de los conjuntos de genes basándose en la permutación de etiquetas de muestras, y el Enriquecimiento de conjuntos de genes de aplicación general (GAGE), [17] que prueba la importancia de los conjuntos de genes basándose en la permutación de etiquetas de genes o una distribución paramétrica.
Si bien las estadísticas pueden identificar qué productos genéticos cambian en condiciones experimentales, dar sentido biológico al perfil de expresión depende de saber qué proteína produce cada producto genético y qué función realiza esta proteína. La anotación genética proporciona información funcional y de otro tipo, por ejemplo, la ubicación de cada gen dentro de un cromosoma particular. Algunas anotaciones funcionales son más fiables que otras; algunos están ausentes. Las bases de datos de anotaciones genéticas cambian periódicamente y varias bases de datos se refieren a la misma proteína con nombres diferentes, lo que refleja una comprensión cambiante de la función de las proteínas. El uso de una nomenclatura genética estandarizada ayuda a abordar el aspecto de denominación del problema, pero la correspondencia exacta de las transcripciones con los genes [18] [19] sigue siendo una consideración importante.
Una vez identificado algún conjunto de genes regulados, el siguiente paso en el perfil de expresión implica buscar patrones dentro del conjunto regulado. ¿Las proteínas elaboradas a partir de estos genes realizan funciones similares? ¿Son químicamente similares? ¿Residen en partes similares de la célula? El análisis de ontología genética proporciona una forma estándar de definir estas relaciones. Las ontologías genéticas comienzan con categorías muy amplias, por ejemplo, "proceso metabólico" y las dividen en categorías más pequeñas, por ejemplo, "proceso metabólico de carbohidratos" y finalmente en categorías bastante restrictivas como "inositol y fosforilación de derivados".
Los genes tienen otros atributos además de la función biológica, las propiedades químicas y la ubicación celular. Se pueden componer conjuntos de genes basándose en la proximidad a otros genes, la asociación con una enfermedad y las relaciones con drogas o toxinas. La base de datos de firmas moleculares [20] y la base de datos de toxicogenómica comparativa [21] son ejemplos de recursos para categorizar genes de numerosas maneras.
Los genes regulados se clasifican en términos de lo que son y lo que hacen; pueden surgir relaciones importantes entre genes. [23] Por ejemplo, podríamos ver evidencia de que un determinado gen crea una proteína para producir una enzima que activa una proteína para activar un segundo gen en nuestra lista. Este segundo gen puede ser un factor de transcripción que regula otro gen más de nuestra lista. Al observar estos vínculos podemos empezar a sospechar que representan mucho más que asociaciones casuales en los resultados, y que todos están en nuestra lista debido a un proceso biológico subyacente. Por otro lado, podría ser que si se seleccionaran genes al azar, se encontrarían muchos que parecieran tener algo en común. En este sentido, necesitamos procedimientos estadísticos rigurosos para comprobar si los temas biológicos emergentes son significativos o no. Ahí es donde entra en juego el análisis de conjuntos de genes [16] [17] .
Estadísticas bastante sencillas proporcionan estimaciones sobre si las asociaciones entre genes de las listas son mayores de lo que cabría esperar por casualidad. Estas estadísticas son interesantes, incluso si representan una simplificación excesiva y sustancial de lo que realmente está sucediendo. Aquí hay un ejemplo. Supongamos que hay 10.000 genes en un experimento, de los cuales sólo 50 (0,5%) desempeñan un papel conocido en la producción de colesterol . El experimento identifica 200 genes regulados. De ellos, 40 (20%) también están en una lista de genes del colesterol. Con base en la prevalencia general de los genes del colesterol (0,5%), se espera un promedio de 1 gen de colesterol por cada 200 genes regulados, es decir, 0,005 veces 200. Esta expectativa es un promedio, por lo que se espera ver más de uno en algunos de los genes. el tiempo. La pregunta es con qué frecuencia veríamos 40 en lugar de 1 debido a pura casualidad.
Según la distribución hipergeométrica , se esperaría intentarlo unas 10^57 veces (10 seguido de 56 ceros) antes de seleccionar 39 o más genes de colesterol de un conjunto de 10.000 extrayendo 200 genes al azar. Si se presta mucha atención a cuán infinitamente pequeña es la probabilidad de observar esto por casualidad, se podría concluir que la lista de genes regulados está enriquecida [24] en genes con una asociación conocida con el colesterol.
Además, se podría plantear la hipótesis de que el tratamiento experimental regula el colesterol, porque el tratamiento parece regular selectivamente los genes asociados con el colesterol. Si bien esto puede ser cierto, hay una serie de razones por las que llegar a esta conclusión firme basada únicamente en el enriquecimiento representa un acto de fe injustificado. Una cuestión mencionada anteriormente tiene que ver con la observación de que la regulación genética puede no tener un impacto directo en la regulación de las proteínas: incluso si las proteínas codificadas por estos genes no hacen nada más que producir colesterol, demostrar que su ARNm está alterado no nos dice directamente qué está sucediendo a nivel de proteínas. Es muy posible que la cantidad de estas proteínas relacionadas con el colesterol permanezca constante en las condiciones experimentales. En segundo lugar, incluso si los niveles de proteínas cambian, tal vez siempre haya suficientes para producir colesterol lo más rápido posible, es decir, otra proteína, que no está en nuestra lista, es el paso que determina la velocidad en el proceso de producción. colesterol. Por último, las proteínas suelen desempeñar muchas funciones, por lo que estos genes pueden estar regulados no por su asociación compartida con la producción de colesterol sino por una función compartida en un proceso completamente independiente.
Teniendo en cuenta las advertencias anteriores, si bien los perfiles genéticos no prueban en sí mismos relaciones causales entre los tratamientos y los efectos biológicos, sí ofrecen conocimientos biológicos únicos a los que a menudo sería muy difícil llegar de otras maneras.
Como se describió anteriormente, primero se pueden identificar genes significativamente regulados y luego encontrar patrones comparando la lista de genes importantes con conjuntos de genes que se sabe que comparten ciertas asociaciones. También se puede resolver el problema en orden inverso. He aquí un ejemplo muy sencillo. Supongamos que hay 40 genes asociados con un proceso conocido, por ejemplo, una predisposición a la diabetes. Al observar dos grupos de perfiles de expresión, uno para ratones alimentados con una dieta alta en carbohidratos y otro para ratones alimentados con una dieta baja en carbohidratos, se observa que los 40 genes de la diabetes se expresan en un nivel más alto en el grupo alto en carbohidratos que en el grupo bajo en carbohidratos. Independientemente de si alguno de estos genes habría llegado a una lista de genes significativamente alterados, observar los 40 hacia arriba y ninguno hacia abajo parece poco probable que sea el resultado de pura casualidad: se predice que voltear 40 cabezas seguidas ocurrirá aproximadamente una vez. en un billón de intentos utilizando una moneda justa.
Para un tipo de célula, el grupo de genes cuyo patrón de expresión combinado es exclusivamente característico de una afección determinada constituye la firma genética de esta afección. Idealmente, la firma genética se puede utilizar para seleccionar un grupo de pacientes en un estado específico de una enfermedad con una precisión que facilite la selección de tratamientos. [25] [26] El análisis de enriquecimiento de conjuntos de genes (GSEA) [16] y métodos similares [17] aprovechan este tipo de lógica pero utilizan estadísticas más sofisticadas, porque los genes componentes en procesos reales muestran un comportamiento más complejo que simplemente moverse hacia arriba o hacia arriba. hacia abajo como grupo, y la cantidad de movimiento de los genes hacia arriba y hacia abajo es significativa, no sólo la dirección. En cualquier caso, estas estadísticas miden cuán diferente es el comportamiento de un pequeño conjunto de genes en comparación con genes que no están en ese pequeño conjunto.
GSEA utiliza una estadística de estilo Kolmogorov Smirnov para ver si algún conjunto de genes previamente definido exhibió un comportamiento inusual en el perfil de expresión actual. Esto conduce a un desafío para probar múltiples hipótesis, pero existen métodos razonables para abordarlo. [27]
Los perfiles de expresión proporcionan nueva información sobre lo que hacen los genes en diversas condiciones. En general, la tecnología de microarrays produce perfiles de expresión fiables. [28] A partir de esta información se pueden generar nuevas hipótesis sobre biología o probar las existentes. Sin embargo, el tamaño y la complejidad de estos experimentos a menudo dan como resultado una amplia variedad de interpretaciones posibles. En muchos casos, analizar los resultados del perfil de expresión requiere mucho más esfuerzo que realizar los experimentos iniciales.
La mayoría de los investigadores utilizan múltiples métodos estadísticos y análisis de datos exploratorios antes de publicar los resultados de sus perfiles de expresión, coordinando sus esfuerzos con un bioinformático u otro experto en microarrays de ADN . Un buen diseño experimental, una replicación biológica adecuada y experimentos de seguimiento desempeñan papeles clave en experimentos exitosos de perfiles de expresión.