El análisis Cap de expresión génica ( CAGE ) es una técnica de expresión génica utilizada en biología molecular para producir una instantánea del extremo 5' de la población de ARN mensajero en una muestra biológica (el transcriptoma ). Los pequeños fragmentos (históricamente de 27 nucleótidos de longitud, pero ahora limitados únicamente por las tecnologías de secuenciación) de los inicios de los ARNm (extremos 5' de las transcripciones cubiertas ) se extraen, se transcriben de forma inversa a ADNc, se amplifican por PCR (si es necesario) y se secuencian . CAGE fue publicado por primera vez por Hayashizaki, Carninci y sus compañeros de trabajo en 2003. [1] CAGE se ha utilizado ampliamente en los proyectos de investigación FANTOM .
El resultado de CAGE es un conjunto de secuencias de nucleótidos cortas (a menudo denominadas etiquetas en analogía con las etiquetas de secuencia expresadas ) con sus recuentos observados. Los números de copias de las etiquetas CAGE proporcionan una cuantificación digital de la abundancia de transcripciones de ARN en muestras biológicas. Usando un genoma de referencia, un investigador generalmente puede determinar, con cierta confianza, el ARNm original (y por lo tanto de qué gen ) se extrajo la etiqueta.
A diferencia de una técnica similar de análisis en serie de la expresión genética (SAGE) en la que las etiquetas provienen de otras partes de las transcripciones, CAGE se utiliza principalmente para localizar sitios exactos de inicio de la transcripción en el genoma. Este conocimiento, a su vez, permite al investigador investigar la estructura del promotor necesaria para la expresión génica.
Las etiquetas CAGE tienden a comenzar con una guanina adicional (G) que no está codificada en el genoma, lo que se atribuye a la extensión 5' sin plantilla durante la síntesis de ADNc de la primera cadena [2] o a la transcripción inversa de la propia tapa. . [3] Cuando no se corrige, esto puede inducir un mapeo erróneo de etiquetas CAGE, por ejemplo, a pseudogenes no transcritos. [2] Por otro lado, esta adición de Gs también se utilizó como señal para filtrar picos de TSS más confiables. [4]
El método CAGE original (Shiraki et al. , 2003) [1] utilizaba CAP Trapper [5] para capturar los extremos 5', cebadores oligo-dT para sintetizar los ADNc, la enzima de restricción de tipo II MmeI para escindir las etiquetas y el método Sanger para secuenciarlos.
Los cebadores aleatorios de transcripción inversa fueron introducidos en 2006 por Kodzius et al. [6] para detectar mejor los ARN no poliadenilados.
En DeepCAGE (Valen et al. , 2008), [7] los concatémeros de etiquetas se secuenciaron con un mayor rendimiento en la plataforma de secuenciación 454 de “ próxima generación ”.
En 2008, se agregó la multiplexación de códigos de barras al protocolo DeepCAGE (Maeda et al. , 2008). [8]
En nanoCAGE (Plessy et al. , 2010), [9] los extremos 5' o los ARN se capturaron con el método de cambio de plantilla en lugar de CAP Trapper, para analizar cantidades iniciales más pequeñas de ARN total. Las etiquetas más largas se escindieron con la enzima de restricción tipo III EcoP15I y se secuenciaron directamente en la plataforma Solexa (luego Illumina) sin concatenación.
La metodología CAGEscan (Plessy et al. , 2010), [9] donde se omite la escisión de la etiqueta enzimática y los ADNc 5' se secuencian en los extremos pares , se introdujo en el mismo artículo para conectar nuevos promotores con anotaciones conocidas.
Con HeliScopeCAGE (Kanamori-Katayama et al. , 2011), [10] se cambió el protocolo CAGE atrapado en CAP para omitir la escisión de la etiqueta enzimática y secuenciar directamente los extremos 5' tapados en la plataforma HeliScope, sin amplificación por PCR. Luego fue automatizado por Itoh et al. [11] en 2012.
En 2012, Takahashi et al. actualizaron el protocolo CAGE estándar . [12] para escindir etiquetas con EcoP15I y secuenciarlas en la plataforma Illumina-Solexa.
En 2013, Batut et al. [13] combinaron CAP tramper, cambio de plantilla y digestión con exonucleasa dependiente de 5′-fosfato en RAMPAGE para maximizar la especificidad del promotor.
En 2014, Murata et al. [14] publicaron el protocolo nAnTi-CAGE , donde los extremos 5' cubiertos se secuencian en la plataforma Illumina sin amplificación por PCR ni escisión de etiquetas.
En 2017, Poulain et al. [15] actualizó el protocolo nanoCAGE para utilizar el método de etiquetación (basado en la transposición Tn5 ) para la multiplexación.
En 2018, Cvetesic et al. [16] aumentaron la sensibilidad de CAGE atrapado en CAP mediante la introducción de ARN portador selectivamente degradable (SLIC-CAGE, "Super-Low Input Carrier-CAGE").
En 2021, Takahashi et al. [17] simplificó la secuenciación de bibliotecas CAGE en secuenciadores Illumina omitiendo la síntesis de segunda cadena cargando directamente ADNc monocatenario (CAGE de cadena única de baja cantidad, "LQ-ssCAGE").