La genómica funcional es un campo de la biología molecular que intenta describir las funciones e interacciones de los genes (y las proteínas ). La genómica funcional hace uso de la gran cantidad de datos generados por proyectos genómicos y transcriptómicos (como los proyectos de secuenciación del genoma y la secuenciación del ARN ). La genómica funcional se centra en los aspectos dinámicos como la transcripción génica , la traducción , la regulación de la expresión génica y las interacciones proteína-proteína , en contraposición a los aspectos estáticos de la información genómica como la secuencia o las estructuras del ADN. Una característica clave de los estudios de genómica funcional es su enfoque de todo el genoma para estas cuestiones, que generalmente implica métodos de alto rendimiento en lugar de un enfoque más tradicional de "gen candidato".
Para comprender la genómica funcional es importante definir primero la función. En su artículo [1], Graur et al. definen la función de dos maneras posibles: "efecto seleccionado" y "rol causal". La función de "efecto seleccionado" se refiere a la función para la cual se selecciona un rasgo (ADN, ARN, proteína, etc.). La función de "rol causal" se refiere a la función para la cual un rasgo es suficiente y necesario. La genómica funcional generalmente prueba la definición de "rol causal" de la función.
El objetivo de la genómica funcional es comprender la función de los genes o las proteínas, en definitiva todos los componentes de un genoma. El término genómica funcional se utiliza a menudo para referirse a los numerosos enfoques técnicos para estudiar los genes y las proteínas de un organismo, incluidas las "propiedades bioquímicas, celulares y/o fisiológicas de todos y cada uno de los productos génicos" [2], mientras que algunos autores incluyen el estudio de elementos no genéticos en su definición. [3] La genómica funcional también puede incluir estudios de la variación genética natural a lo largo del tiempo (como el desarrollo de un organismo) o del espacio (como sus regiones corporales), así como de alteraciones funcionales como las mutaciones.
La promesa de la genómica funcional es generar y sintetizar conocimientos genómicos y proteómicos para comprender las propiedades dinámicas de un organismo. Esto podría proporcionar potencialmente una imagen más completa de cómo el genoma especifica la función en comparación con los estudios de genes individuales. La integración de datos de genómica funcional suele ser parte de los enfoques de biología de sistemas .
La genómica funcional incluye aspectos relacionados con la función del genoma en sí, como la mutación y el polimorfismo (como el análisis de polimorfismos de un solo nucleótido (SNP)), así como la medición de actividades moleculares. Estas últimas comprenden una serie de " ómicas ", como la transcriptómica ( expresión génica ), la proteómica ( producción de proteínas ) y la metabolómica . La genómica funcional utiliza principalmente técnicas multiplex para medir la abundancia de muchos o todos los productos génicos, como los ARNm o las proteínas, dentro de una muestra biológica . Un enfoque de genómica funcional más centrado podría probar la función de todas las variantes de un gen y cuantificar los efectos de los mutantes utilizando la secuenciación como una lectura de la actividad. En conjunto, estas modalidades de medición intentan cuantificar los diversos procesos biológicos y mejorar nuestra comprensión de las funciones e interacciones de los genes y las proteínas.
La eliminación sistemática de genes por pares o la inhibición de la expresión génica se pueden utilizar para identificar genes con funciones relacionadas, incluso si no interactúan físicamente. La epistasis se refiere al hecho de que los efectos de dos knockouts de genes diferentes pueden no ser aditivos; es decir, el fenotipo que resulta cuando se inhiben dos genes puede ser diferente de la suma de los efectos de knockouts individuales.
Las proteínas formadas por la traducción del ARN mensajero (ARN mensajero, una información codificada del ADN para la síntesis de proteínas) desempeñan un papel importante en la regulación de la expresión génica. Para comprender cómo regulan la expresión génica es necesario identificar las secuencias de ADN con las que interactúan. Se han desarrollado técnicas para identificar los sitios de interacción entre el ADN y las proteínas. Estas incluyen la secuenciación ChIP , la secuenciación CUT&RUN y las tarjetas de visita. [4]
Se han desarrollado ensayos para identificar regiones del genoma que son accesibles. Estas regiones de cromatina accesible son regiones reguladoras candidatas. Estos ensayos incluyen ATAC-seq , DNase-Seq y FAIRE-Seq .
Los microarrays miden la cantidad de ARNm en una muestra que corresponde a un gen determinado o a una secuencia de ADN de sonda. Las secuencias de sonda se inmovilizan en una superficie sólida y se les permite hibridar con el ARNm "diana" marcado con fluorescencia. La intensidad de la fluorescencia de un punto es proporcional a la cantidad de secuencia diana que se ha hibridado con ese punto y, por lo tanto, a la abundancia de esa secuencia de ARNm en la muestra. Los microarrays permiten la identificación de genes candidatos involucrados en un proceso determinado en función de la variación entre los niveles de transcripción para diferentes condiciones y los patrones de expresión compartidos con genes de función conocida.
El análisis serial de la expresión génica (SAGE, por sus siglas en inglés) es un método alternativo de análisis basado en la secuenciación de ARN en lugar de la hibridación. El SAGE se basa en la secuenciación de etiquetas de 10 a 17 pares de bases que son exclusivas de cada gen. Estas etiquetas se producen a partir de ARNm poli-A y se ligan de extremo a extremo antes de la secuenciación. El SAGE proporciona una medición imparcial del número de transcripciones por célula, ya que no depende del conocimiento previo de qué transcripciones se deben estudiar (como lo hacen los microarrays).
Como se señaló en 2016, en los últimos años la secuenciación de ARN ha sustituido a la tecnología de microarrays y SAGE y se ha convertido en la forma más eficiente de estudiar la transcripción y la expresión génica. Esto se hace normalmente mediante secuenciación de nueva generación . [5]
Un subconjunto de los ARN secuenciados son los ARN pequeños, una clase de moléculas de ARN no codificante que son reguladores clave del silenciamiento génico transcripcional y postranscripcional, o silenciamiento de ARN . La secuenciación de próxima generación es la herramienta de referencia para el descubrimiento, la elaboración de perfiles y el análisis de expresión de ARN no codificante .
Los ensayos de reporteros paralelos masivos son una tecnología para probar la actividad cis-reguladora de secuencias de ADN. [6] [7] Los MPRA utilizan un plásmido con un elemento cis-regulador sintético aguas arriba de un promotor que impulsa un gen sintético como la proteína fluorescente verde. Una biblioteca de elementos cis-reguladores generalmente se prueba utilizando MPRA, una biblioteca puede contener de cientos a miles de elementos cis-reguladores. La actividad cis-reguladora de los elementos se analiza utilizando la actividad del reportero aguas abajo. La actividad de todos los miembros de la biblioteca se analiza en paralelo utilizando códigos de barras para cada elemento cis-regulador. Una limitación de los MPRA es que la actividad se analiza en un plásmido y puede no capturar todos los aspectos de la regulación genética observados en el genoma.
STARR-seq es una técnica similar a las MPRA para ensayar la actividad potenciadora de fragmentos genómicos cortados al azar. En la publicación original, [8] fragmentos cortados al azar del genoma de Drosophila se colocaron aguas abajo de un promotor mínimo. Los potenciadores candidatos entre los fragmentos cortados al azar se transcribirán a sí mismos utilizando el promotor mínimo. Al utilizar la secuenciación como lectura y controlar las cantidades de entrada de cada secuencia, se ensaya la fuerza de los potenciadores putativos mediante este método.
Perturb-seq combina la inhibición de genes mediada por CRISPR con la expresión génica de una sola célula. Se utilizan modelos lineales para calcular el efecto de la inhibición de un solo gen sobre la expresión de múltiples genes.
Un cribado de dos híbridos de levadura (Y2H) prueba una proteína "cebo" contra muchas proteínas interactuantes potenciales ("presa") para identificar interacciones físicas proteína-proteína. Este sistema se basa en un factor de transcripción, originalmente GAL4, [9] cuyos dominios separados de unión al ADN y activación de la transcripción son necesarios para que la proteína cause la transcripción de un gen reportero. En un cribado Y2H, la proteína "cebo" se fusiona con el dominio de unión de GAL4, y una biblioteca de proteínas "presa" (interactuantes) potenciales se expresa de forma recombinante en un vector con el dominio de activación. La interacción in vivo de las proteínas cebo y presa en una célula de levadura acerca los dominios de activación y unión de GAL4 lo suficiente como para dar como resultado la expresión de un gen reportero . También es posible probar sistemáticamente una biblioteca de proteínas cebo contra una biblioteca de proteínas presa para identificar todas las interacciones posibles en una célula.
La espectrometría de masas (MS) puede identificar proteínas y sus niveles relativos, por lo que se puede utilizar para estudiar la expresión de proteínas. Cuando se utiliza en combinación con la purificación por afinidad , la espectrometría de masas (AP/MS) se puede utilizar para estudiar complejos proteicos, es decir, qué proteínas interactúan entre sí en complejos y en qué proporciones. Para purificar complejos proteicos, normalmente se marca una proteína "cebo" con una proteína o péptido específico que se puede utilizar para extraer el complejo de una mezcla compleja. La purificación se realiza normalmente utilizando un anticuerpo o un compuesto que se une a la parte de fusión. A continuación, las proteínas se digieren en fragmentos de péptidos cortos y se utiliza la espectrometría de masas para identificar las proteínas en función de las proporciones masa-carga de esos fragmentos.
En el escaneo mutacional profundo, primero se sintetiza cada posible cambio de aminoácidos en una proteína dada. [10] La actividad de cada una de estas variantes de proteína se analiza en paralelo utilizando códigos de barras para cada variante. [11] Al comparar la actividad con la proteína de tipo salvaje, se identifica el efecto de cada mutación. Si bien es posible analizar cada posible cambio de aminoácidos debido a la combinatoria, dos o más mutaciones concurrentes son difíciles de analizar. Los experimentos de escaneo mutacional profundo también se han utilizado para inferir la estructura de las proteínas y las interacciones proteína-proteína. [12] El escaneo mutacional profundo es un ejemplo de ensayos multiplexados de efecto de variante (MAVE), una familia de métodos que implican la mutagénesis de una proteína codificada por ADN o un elemento regulador seguido de un ensayo multiplexado para algún aspecto de la función. Los MAVE permiten la generación de "mapas de efecto de variante" que caracterizan aspectos de la función de cada posible cambio de nucleótido único en un gen o elemento funcional de interés. [13]
Una característica funcional importante de los genes es el fenotipo causado por las mutaciones. Los mutantes pueden producirse por mutaciones aleatorias o por mutagénesis dirigida, incluida la mutagénesis dirigida, la eliminación de genes completos u otras técnicas.
La función de los genes se puede investigar "eliminando" sistemáticamente genes uno por uno. Esto se hace mediante la eliminación o la alteración de la función (como por mutagénesis insercional ) y los organismos resultantes se examinan en busca de fenotipos que proporcionen pistas sobre la función del gen alterado. Se han producido eliminaciones para genomas completos, es decir, eliminando todos los genes de un genoma. Para los genes esenciales , esto no es posible, por lo que se utilizan otras técnicas, por ejemplo, eliminando un gen mientras se expresa el gen a partir de un plásmido , utilizando un promotor inducible, de modo que el nivel de producto génico se pueda cambiar a voluntad (y así lograr una eliminación "funcional").
La mutagénesis dirigida se utiliza para mutar bases específicas (y, por lo tanto, aminoácidos ). Esto es fundamental para investigar la función de aminoácidos específicos en una proteína, por ejemplo, en el sitio activo de una enzima .
Los métodos de interferencia de ARN (RNAi) se pueden utilizar para silenciar o inhibir transitoriamente la expresión génica utilizando ARN bicatenario de ~20 pares de bases típicamente administrado por transfección de moléculas de ARN de interferencia cortas sintéticas de ~20 meros (siRNA) o por ARN de horquilla corta codificados por virus (shRNA). Los exámenes de RNAi, típicamente realizados en ensayos basados en cultivos celulares u organismos experimentales (como C. elegans ) se pueden utilizar para alterar sistemáticamente casi todos los genes en un genoma o subconjuntos de genes (subgenomas); las posibles funciones de los genes alterados se pueden asignar en función de los fenotipos observados .
CRISPR-Cas9 se ha utilizado para eliminar genes de forma multiplexada en líneas celulares. Cuantificar la cantidad de ARN guía para cada gen antes y después del experimento puede indicar la presencia de genes esenciales. Si un ARN guía altera un gen esencial, provocará la pérdida de esa célula y, por lo tanto, habrá una disminución de ese ARN guía en particular después del análisis. En un experimento reciente con CRISPR-cas9 en líneas celulares de mamíferos, se encontró que alrededor de 2000 genes eran esenciales en múltiples líneas celulares. [15] [16] Algunos de estos genes eran esenciales en una sola línea celular. La mayoría de los genes forman parte de complejos multiproteicos. Este enfoque se puede utilizar para identificar la letalidad sintética utilizando el trasfondo genético adecuado. CRISPRi y CRISPRa permiten realizar análisis de pérdida y ganancia de función de forma similar. CRISPRi identificó ~2100 genes esenciales en la línea celular K562. [17] [18] Los análisis de deleción CRISPR también se han utilizado para identificar posibles elementos reguladores de un gen. Por ejemplo, se publicó una técnica llamada ScanDel que intentó este enfoque. Los autores eliminaron regiones fuera de un gen de interés (HPRT1 involucrado en un trastorno mendeliano) en un intento de identificar elementos reguladores de este gen. [19] Gassperini et al. no identificaron ningún elemento regulador distal para HPRT1 utilizando este enfoque, sin embargo, dichos enfoques se pueden extender a otros genes de interés.
Los genes putativos se pueden identificar escaneando un genoma en busca de regiones que probablemente codifiquen proteínas, basándose en características como marcos de lectura abiertos largos , secuencias de iniciación de la transcripción y sitios de poliadenilación . Una secuencia identificada como un gen putativo debe confirmarse con evidencia adicional, como similitud con secuencias de ADNc o EST del mismo organismo, similitud de la secuencia de proteína predicha con proteínas conocidas, asociación con secuencias promotoras o evidencia de que mutar la secuencia produce un fenotipo observable.
El método de la piedra de Rosetta es un método computacional para la predicción de funciones de proteínas de novo. Se basa en la hipótesis de que algunas proteínas involucradas en un proceso fisiológico determinado pueden existir como dos genes separados en un organismo y como un solo gen en otro. Los genomas se escanean en busca de secuencias que sean independientes en un organismo y que estén en un único marco de lectura abierto en otro. Si dos genes se han fusionado, se predice que tienen funciones biológicas similares que hacen que dicha corregulación sea ventajosa.
Debido a la gran cantidad de datos producidos por estas técnicas y el deseo de encontrar patrones biológicamente significativos, la bioinformática es crucial para el análisis de datos genómicos funcionales. Ejemplos de técnicas en esta clase son la agrupación de datos o el análisis de componentes principales para el aprendizaje automático no supervisado (detección de clases), así como las redes neuronales artificiales o las máquinas de vectores de soporte para el aprendizaje automático supervisado (predicción de clases, clasificación ). El análisis de enriquecimiento funcional se utiliza para determinar el grado de sobreexpresión o subexpresión (reguladores positivos o negativos en el caso de las pruebas de ARNi) de las categorías funcionales en relación con un conjunto de antecedentes. El análisis de enriquecimiento basado en ontología genética lo proporcionan DAVID y el análisis de enriquecimiento de conjuntos de genes (GSEA), [20] el análisis basado en vías de Ingenuity [21] y Pathway Studio [22] y el análisis basado en complejos proteicos de COMPLEAT. [23]
Se han desarrollado nuevos métodos computacionales para comprender los resultados de un experimento de escaneo mutacional profundo. 'phydms' compara el resultado de un experimento de escaneo mutacional profundo con un árbol filogenético. [24] Esto permite al usuario inferir si el proceso de selección en la naturaleza aplica restricciones similares a una proteína como indican los resultados del escaneo mutacional profundo. Esto puede permitir que un experimentador elija entre diferentes condiciones experimentales en función de lo bien que reflejen la naturaleza. El escaneo mutacional profundo también se ha utilizado para inferir interacciones proteína-proteína. [25] Los autores utilizaron un modelo termodinámico para predecir los efectos de las mutaciones en diferentes partes de un dímero. La estructura mutacional profunda también se puede utilizar para inferir la estructura de la proteína. Una epistasis positiva fuerte entre dos mutaciones en un escaneo mutacional profundo puede ser indicativa de dos partes de la proteína que están cerca una de la otra en el espacio 3-D. Esta información se puede utilizar para inferir la estructura de la proteína. Una prueba de principio de este enfoque fue mostrada por dos grupos que utilizaron la proteína GB1. [26] [27]
Los resultados de los experimentos de MPRA han requerido enfoques de aprendizaje automático para interpretar los datos. Se ha utilizado un modelo SVM de k-meros con huecos para inferir los kmeros que están enriquecidos dentro de secuencias cis-reguladoras con alta actividad en comparación con secuencias con menor actividad. [28] Estos modelos proporcionan un alto poder predictivo. También se han utilizado enfoques de aprendizaje profundo y de bosque aleatorio para interpretar los resultados de estos experimentos de alta dimensión. [29] Estos modelos están comenzando a ayudar a desarrollar una mejor comprensión de la función del ADN no codificante con respecto a la regulación genética.
El proyecto ENCODE (Enciclopedia de elementos del ADN) es un análisis profundo del genoma humano cuyo objetivo es identificar todos los elementos funcionales del ADN genómico, tanto en las regiones codificantes como en las no codificantes. Entre los resultados importantes se incluyen pruebas de que la mayoría de los nucleótidos se transcriben como transcripciones codificantes, ARN no codificantes o transcripciones aleatorias, el descubrimiento de sitios reguladores de la transcripción adicionales y una mayor elucidación de los mecanismos de modificación de la cromatina.
El proyecto GTEx es un proyecto de genética humana cuyo objetivo es comprender el papel de la variación genética en la conformación de la variación en el transcriptoma en los distintos tejidos. El proyecto ha recopilado una variedad de muestras de tejido (> 50 tejidos diferentes) de más de 700 donantes post mortem. Esto ha dado como resultado la recolección de > 11.000 muestras. GTEx ha ayudado a comprender la compartición de tejidos y la especificidad de los tejidos de los eQTL . [30] El recurso genómico se desarrolló para "enriquecer nuestra comprensión de cómo las diferencias en nuestra secuencia de ADN contribuyen a la salud y la enfermedad". [31]
La Atlas of Variant Effects Alliance (AVE), [32] fundada en 2020, es un consorcio internacional cuyo objetivo es catalogar el impacto de todas las variantes genéticas posibles para la genómica funcional relacionada con las enfermedades mediante la creación de mapas de efectos de variantes que revelen la función de cada posible cambio de nucleótido en un gen o elemento regulador. AVE está financiada en parte por el Instituto Brotman Baty de la Universidad de Washington y el Instituto Nacional de Investigación del Genoma Humano, a través de la financiación de la subvención del Centro de Excelencia en Ciencia Genómica (NHGRI RM1HG010461). [33]