El análisis serial de la expresión génica ( SAGE ) es una técnica transcriptómica utilizada por los biólogos moleculares para producir una instantánea de la población de ARN mensajero en una muestra de interés en forma de pequeñas etiquetas que corresponden a fragmentos de esas transcripciones. Desde entonces se han desarrollado varias variantes, en particular una versión más robusta, LongSAGE, [2] RL-SAGE [3] y la más reciente SuperSAGE. [4] Muchas de ellas han mejorado la técnica con la captura de etiquetas más largas, lo que permite una identificación más segura de un gen fuente.
En resumen, los experimentos SAGE se realizan de la siguiente manera:
El resultado de SAGE es una lista de etiquetas de secuencias cortas y la cantidad de veces que se observan. Mediante el uso de bases de datos de secuencias , un investigador generalmente puede determinar, con cierta confianza, de qué ARNm original (y, por lo tanto, de qué gen ) se extrajo la etiqueta.
Se pueden aplicar métodos estadísticos para etiquetar y contar listas de diferentes muestras con el fin de determinar qué genes se expresan con mayor intensidad. Por ejemplo, se puede comparar una muestra de tejido normal con un tumor correspondiente para determinar qué genes tienden a ser más (o menos) activos.
En 1979, equipos de Harvard y Caltech extendieron la idea básica de hacer copias de ADN de ARNm in vitro para amplificar una biblioteca de los mismos en plásmidos bacterianos. [5] En 1982-1983, Greg Sutcliffe y colaboradores exploraron la idea de seleccionar clones aleatorios o semialeatorios de dicha biblioteca de ADNc para secuenciar. [6] y Putney et al. quienes secuenciaron 178 clones de una biblioteca de ADNc de músculo de conejo. [7] En 1991, Adams y colaboradores acuñaron el término etiqueta de secuencia expresada (EST) e iniciaron una secuenciación más sistemática de ADNc como proyecto (comenzando con 600 ADNc cerebrales). [8] La identificación de EST avanzó rápidamente, millones de EST ahora están disponibles en bases de datos públicas (por ejemplo, GenBank ).
En 1995, la idea de reducir la longitud de la etiqueta de 100 a 800 pb a una longitud de etiqueta de 10 a 22 pb ayudó a reducir el costo de los estudios de ARNm. [9] En este año, el protocolo SAGE original fue publicado por Victor Velculescu en el Centro de Oncología de la Universidad Johns Hopkins . [9] Aunque SAGE fue concebido originalmente para su uso en estudios sobre el cáncer, se ha utilizado con éxito para describir el transcriptoma de otras enfermedades y en una amplia variedad de organismos.
El objetivo general de la técnica es similar al de la micromatriz de ADN . Sin embargo, el muestreo SAGE se basa en la secuenciación de la salida de ARNm, no en la hibridación de la salida de ARNm con sondas, por lo que los niveles de transcripción se miden de forma más cuantitativa que mediante microarrays. Además, no es necesario conocer las secuencias de ARNm a priori , por lo que se pueden descubrir genes o variantes genéticas que no se conocen. Los experimentos con microarrays son mucho más baratos de realizar, por lo que los estudios a gran escala no suelen utilizar SAGE. La cuantificación de las expresiones genéticas es más exacta en SAGE porque implica contar directamente el número de transcripciones, mientras que las intensidades puntuales en microarrays caen en gradientes no discretos y son propensas al ruido de fondo.
Los microARN , o miARN para abreviar, son segmentos pequeños (~22 nt) de ARN que se ha descubierto que desempeñan un papel crucial en la regulación genética. Uno de los métodos más utilizados para clonar e identificar miARN dentro de una célula o tejido fue desarrollado en el Laboratorio Bartel y publicado en un artículo por Lau et al. (2001). Desde entonces, han surgido varios protocolos variantes, pero la mayoría tienen el mismo formato básico. El procedimiento es bastante similar a SAGE: se aíslan los ARN pequeños, luego se agregan enlaces a cada uno y el ARN se convierte en ADNc por RT-PCR . Después de esto, los enlaces, que contienen sitios de restricción internos, se digieren con la enzima de restricción adecuada y los extremos pegajosos se ligan entre sí en concatámeros. Después de la concatenación, los fragmentos se ligan en plásmidos y se utilizan para transformar bacterias para generar muchas copias del plásmido que contiene los insertos. Estos pueden luego secuenciarse para identificar el miRNA presente, así como para analizar los niveles de expresión de un miRNA determinado contando el número de veces que está presente, de forma similar a SAGE.
LongSAGE fue una versión más robusta del SAGE original desarrollado en 2002 que tenía un mayor rendimiento, utilizando 20 μg de ARNm para generar una biblioteca de ADNc de miles de etiquetas. [10] LongSage robusto (RL-SAGE) Mejoró aún más el protocolo LongSAGE con la capacidad de generar una biblioteca con un tamaño de inserto de 50 ng de ARNm , mucho más pequeño que el tamaño de inserto LongSAGE anterior de 2 μg de ARNm [10] y utilizando un número menor de reacciones en cadena de la polimerasa ditag ( PCR ) para obtener una biblioteca de ADNc completa. [11]
SuperSAGE es un derivado de SAGE que utiliza la endonucleasa tipo III EcoP15I del fago P1 , para cortar etiquetas de secuencia de 26 pb de largo del ADNc de cada transcripción , expandiendo el tamaño de la etiqueta en al menos 6 pb en comparación con las técnicas predecesoras SAGE y LongSAGE. [12] El tamaño de etiqueta más largo permite una asignación más precisa de la etiqueta a la transcripción correspondiente, porque cada base adicional aumenta considerablemente la precisión de la anotación.
Al igual que en el protocolo SAGE original, se forman los denominados ditags, utilizando etiquetas de extremos romos . Sin embargo, SuperSAGE evita el sesgo observado durante la ligadura de ditag de 20 pb de LongSAGE, menos aleatoria. [13] Mediante la secuenciación directa con técnicas de secuenciación de alto rendimiento ( secuenciación de próxima generación , es decir, pirosecuenciación ), se pueden analizar cientos de miles o millones de etiquetas simultáneamente, produciendo perfiles de expresión génica muy precisos y cuantitativos . Por lo tanto, el perfil de expresión génica basado en etiquetas, también llamado "perfil de expresión génica digital" (DGE), puede proporcionar hoy en día los perfiles de transcripción más precisos que superan las limitaciones de los microarrays . [14] [15]
A mediados de la década de 2010, se desarrollaron varias técnicas combinadas con la secuenciación de nueva generación que emplean el principio de "etiqueta" para el "perfilado digital de la expresión génica", pero sin el uso de la enzima de etiquetado. El enfoque "MACE" (=Análisis masivo de extremos de ADNc) genera etiquetas en algún lugar de los últimos 1500 bps de una transcripción. La técnica ya no depende de las enzimas de restricción y, por lo tanto, evita el sesgo relacionado con la ausencia o la ubicación del sitio de restricción dentro del ADNc. En cambio, el ADNc se fragmenta aleatoriamente y los extremos 3' se secuencian a partir del extremo 5' de la molécula de ADNc que lleva la cola de poli-A. La longitud de secuenciación de la etiqueta se puede elegir libremente. Debido a esto, las etiquetas se pueden ensamblar en contigs y la anotación de las etiquetas se puede mejorar drásticamente. Por lo tanto, MACE también se utiliza para los análisis de organismos no modelo. Además, los contigs más largos se pueden examinar para detectar polimorfismos. Como los UTR muestran una gran cantidad de polimorfismos entre individuos, el método MACE se puede aplicar para la determinación de alelos, el perfil de expresión génica específico de alelos y la búsqueda de marcadores moleculares para la reproducción. Además, el método permite determinar la poliadenilación alternativa de las transcripciones. Debido a que MACE solo requiere los extremos 3' de las transcripciones, incluso el ARN parcialmente degradado se puede analizar con un sesgo dependiente de la degradación menor. El método MACE utiliza identificadores moleculares únicos para permitir la identificación del sesgo de PCR. [16]