Análisis seriado de la expresión genética

El análisis serial de la expresión génica ( SAGE ) es una técnica transcriptómica utilizada por los biólogos moleculares para producir una instantánea de la población de ARN mensajero en una muestra de interés en forma de pequeñas etiquetas que corresponden a fragmentos de esas transcripciones. Desde entonces se han desarrollado varias variantes, en particular una versión más robusta, LongSAGE, ^[2] RL-SAGE ^[3] y la más reciente SuperSAGE. ^[4] Muchas de ellas han mejorado la técnica con la captura de etiquetas más largas, lo que permite una identificación más segura de un gen fuente.

Descripción general

En resumen, los experimentos SAGE se realizan de la siguiente manera:

Se aísla el ARNm de una muestra de entrada (por ejemplo, un tumor ) y se utilizan una transcriptasa inversa y cebadores biotinilados para sintetizar ADNc a partir del ARNm .
El ADNc se une a las perlas de estreptavidina mediante la interacción con la biotina unida a los cebadores y luego se corta utilizando una endonucleasa de restricción llamada enzima de anclaje (AE). La ubicación del sitio de corte y, por lo tanto, la longitud del ADNc restante unido a la perla variará para cada ADNc (ARNm) individual.
Luego, el ADNc escindido aguas abajo del sitio de escisión se descarta, y los fragmentos de ADNc inmóviles restantes aguas arriba de los sitios de escisión se dividen por la mitad y se exponen a uno de los dos oligonucleótidos adaptadores (A o B) que contienen varios componentes en el siguiente orden aguas arriba del sitio de unión: 1) extremos pegajosos con el sitio de corte AE para permitir la unión al ADNc escindido; 2) un sitio de reconocimiento para una endonucleasa de restricción conocida como enzima etiquetadora (TE), que corta aproximadamente 15 nucleótidos aguas abajo de su sitio de reconocimiento (dentro de la secuencia original de ADNc/ARNm); 3) una secuencia de cebador corta exclusiva del adaptador A o B, que luego se utilizará para una mayor amplificación mediante PCR.
Después de la ligadura del adaptador , el ADNc se escinde utilizando TE para eliminarlo de las perlas, dejando solo una "etiqueta" corta de aproximadamente 11 nucleótidos del ADNc original (15 nucleótidos menos los 4 correspondientes al sitio de reconocimiento de AE).
Las etiquetas de ADNc escindidas se reparan luego con la ADN polimerasa para producir fragmentos de ADNc con extremos romos.
Estos fragmentos de etiquetas de ADNc (con cebadores adaptadores y sitios de reconocimiento AE y TE adjuntos) se ligan, uniendo las dos secuencias de etiquetas y flanqueando los adaptadores A y B en cada extremo. Estas nuevas construcciones, llamadas ditags , se amplifican luego por PCR utilizando cebadores específicos de anclaje A y B.
Luego, los ditags se escinden utilizando el AE original y se les permite unirse con otros ditags, que se ligarán para crear un concatémero de ADNc con cada ditag separado por el sitio de reconocimiento de AE.
Estos concatémeros se transforman luego en bacterias para su amplificación a través de la replicación bacteriana.
Los concatémeros de ADNc pueden luego aislarse y secuenciarse utilizando secuenciadores de ADN de alto rendimiento modernos , y estas secuencias pueden analizarse con programas informáticos que cuantifican la recurrencia de etiquetas individuales.

Análisis

El resultado de SAGE es una lista de etiquetas de secuencias cortas y la cantidad de veces que se observan. Mediante el uso de bases de datos de secuencias , un investigador generalmente puede determinar, con cierta confianza, de qué ARNm original (y, por lo tanto, de qué gen ) se extrajo la etiqueta.

Se pueden aplicar métodos estadísticos para etiquetar y contar listas de diferentes muestras con el fin de determinar qué genes se expresan con mayor intensidad. Por ejemplo, se puede comparar una muestra de tejido normal con un tumor correspondiente para determinar qué genes tienden a ser más (o menos) activos.

Historia

En 1979, equipos de Harvard y Caltech extendieron la idea básica de hacer copias de ADN de ARNm in vitro para amplificar una biblioteca de los mismos en plásmidos bacterianos. ^[5] En 1982-1983, Greg Sutcliffe y colaboradores exploraron la idea de seleccionar clones aleatorios o semialeatorios de dicha biblioteca de ADNc para secuenciar. ^[6] y Putney et al. quienes secuenciaron 178 clones de una biblioteca de ADNc de músculo de conejo. ^[7] En 1991, Adams y colaboradores acuñaron el término etiqueta de secuencia expresada (EST) e iniciaron una secuenciación más sistemática de ADNc como proyecto (comenzando con 600 ADNc cerebrales). ^[8] La identificación de EST avanzó rápidamente, millones de EST ahora están disponibles en bases de datos públicas (por ejemplo, GenBank ).

En 1995, la idea de reducir la longitud de la etiqueta de 100 a 800 pb a una longitud de etiqueta de 10 a 22 pb ayudó a reducir el costo de los estudios de ARNm. ^[9] En este año, el protocolo SAGE original fue publicado por Victor Velculescu en el Centro de Oncología de la Universidad Johns Hopkins . ^[9] Aunque SAGE fue concebido originalmente para su uso en estudios sobre el cáncer, se ha utilizado con éxito para describir el transcriptoma de otras enfermedades y en una amplia variedad de organismos.

Comparación con microarrays de ADN

El objetivo general de la técnica es similar al de la micromatriz de ADN . Sin embargo, el muestreo SAGE se basa en la secuenciación de la salida de ARNm, no en la hibridación de la salida de ARNm con sondas, por lo que los niveles de transcripción se miden de forma más cuantitativa que mediante microarrays. Además, no es necesario conocer las secuencias de ARNm a priori , por lo que se pueden descubrir genes o variantes genéticas que no se conocen. Los experimentos con microarrays son mucho más baratos de realizar, por lo que los estudios a gran escala no suelen utilizar SAGE. La cuantificación de las expresiones genéticas es más exacta en SAGE porque implica contar directamente el número de transcripciones, mientras que las intensidades puntuales en microarrays caen en gradientes no discretos y son propensas al ruido de fondo.

Protocolos variantes

Clonación de miRNA

Los microARN , o miARN para abreviar, son segmentos pequeños (~22 nt) de ARN que se ha descubierto que desempeñan un papel crucial en la regulación genética. Uno de los métodos más utilizados para clonar e identificar miARN dentro de una célula o tejido fue desarrollado en el Laboratorio Bartel y publicado en un artículo por Lau et al. (2001). Desde entonces, han surgido varios protocolos variantes, pero la mayoría tienen el mismo formato básico. El procedimiento es bastante similar a SAGE: se aíslan los ARN pequeños, luego se agregan enlaces a cada uno y el ARN se convierte en ADNc por RT-PCR . Después de esto, los enlaces, que contienen sitios de restricción internos, se digieren con la enzima de restricción adecuada y los extremos pegajosos se ligan entre sí en concatámeros. Después de la concatenación, los fragmentos se ligan en plásmidos y se utilizan para transformar bacterias para generar muchas copias del plásmido que contiene los insertos. Estos pueden luego secuenciarse para identificar el miRNA presente, así como para analizar los niveles de expresión de un miRNA determinado contando el número de veces que está presente, de forma similar a SAGE.

LongSAGE y RL-SAGE

LongSAGE fue una versión más robusta del SAGE original desarrollado en 2002 que tenía un mayor rendimiento, utilizando 20 μg de ARNm para generar una biblioteca de ADNc de miles de etiquetas. ^[10] LongSage robusto (RL-SAGE) Mejoró aún más el protocolo LongSAGE con la capacidad de generar una biblioteca con un tamaño de inserto de 50 ng de ARNm , mucho más pequeño que el tamaño de inserto LongSAGE anterior de 2 μg de ARNm ^[10] y utilizando un número menor de reacciones en cadena de la polimerasa ditag ( PCR ) para obtener una biblioteca de ADNc completa. ^[11]

SuperSAGE

SuperSAGE es un derivado de SAGE que utiliza la endonucleasa tipo III EcoP15I del fago P1 , para cortar etiquetas de secuencia de 26 pb de largo del ADNc de cada transcripción , expandiendo el tamaño de la etiqueta en al menos 6 pb en comparación con las técnicas predecesoras SAGE y LongSAGE. ^[12] El tamaño de etiqueta más largo permite una asignación más precisa de la etiqueta a la transcripción correspondiente, porque cada base adicional aumenta considerablemente la precisión de la anotación.

Al igual que en el protocolo SAGE original, se forman los denominados ditags, utilizando etiquetas de extremos romos . Sin embargo, SuperSAGE evita el sesgo observado durante la ligadura de ditag de 20 pb de LongSAGE, menos aleatoria. ^[13] Mediante la secuenciación directa con técnicas de secuenciación de alto rendimiento ( secuenciación de próxima generación , es decir, pirosecuenciación ), se pueden analizar cientos de miles o millones de etiquetas simultáneamente, produciendo perfiles de expresión génica muy precisos y cuantitativos . Por lo tanto, el perfil de expresión génica basado en etiquetas, también llamado "perfil de expresión génica digital" (DGE), puede proporcionar hoy en día los perfiles de transcripción más precisos que superan las limitaciones de los microarrays . ^[14]^[15]

Secuenciación de ARNm del extremo 3', análisis masivo de extremos de ADNc

A mediados de la década de 2010, se desarrollaron varias técnicas combinadas con la secuenciación de nueva generación que emplean el principio de "etiqueta" para el "perfilado digital de la expresión génica", pero sin el uso de la enzima de etiquetado. El enfoque "MACE" (=Análisis masivo de extremos de ADNc) genera etiquetas en algún lugar de los últimos 1500 bps de una transcripción. La técnica ya no depende de las enzimas de restricción y, por lo tanto, evita el sesgo relacionado con la ausencia o la ubicación del sitio de restricción dentro del ADNc. En cambio, el ADNc se fragmenta aleatoriamente y los extremos 3' se secuencian a partir del extremo 5' de la molécula de ADNc que lleva la cola de poli-A. La longitud de secuenciación de la etiqueta se puede elegir libremente. Debido a esto, las etiquetas se pueden ensamblar en contigs y la anotación de las etiquetas se puede mejorar drásticamente. Por lo tanto, MACE también se utiliza para los análisis de organismos no modelo. Además, los contigs más largos se pueden examinar para detectar polimorfismos. Como los UTR muestran una gran cantidad de polimorfismos entre individuos, el método MACE se puede aplicar para la determinación de alelos, el perfil de expresión génica específico de alelos y la búsqueda de marcadores moleculares para la reproducción. Además, el método permite determinar la poliadenilación alternativa de las transcripciones. Debido a que MACE solo requiere los extremos 3' de las transcripciones, incluso el ARN parcialmente degradado se puede analizar con un sesgo dependiente de la degradación menor. El método MACE utiliza identificadores moleculares únicos para permitir la identificación del sesgo de PCR. ^[16]

Véase también

Referencias

^ Shafee, Thomas; Lowe, Rohan (2017). "Estructura de genes eucariotas y procariotas". WikiJournal of Medicine . 4 (1). doi : 10.15347/wjm/2017.002 . ISSN 2002-4436.
^ Saha S, et al. (2002). "Uso del transcriptoma para anotar el genoma". Nat Biotechnol . 20 (5): 508–12. doi :10.1038/nbt0502-508. PMID 11981567. S2CID 12709815.
^ Gowda M; Jantasuriyarat C; Dean RA; Wang GL. (2004). "Robust-LongSAGE (RL-SAGE): un método LongSAGE sustancialmente mejorado para el descubrimiento de genes y el análisis del transcriptoma". Plant Physiol . 134 (3): 890–7. doi :10.1104/pp.103.034496. PMC 389912. PMID 15020752 .
^ Matsumura H; Ito A; Saitoh H; Winter P; Kahl G; Reuter M; Krüger DH; Terauchi R. (2005). "SuperSAGE". Cell Microbiol . 7 (1): 11–8. doi : 10.1111/j.1462-5822.2004.00478.x . PMID 15617519. S2CID 221579149.
^ Sim GK; Kafatos FC; Jones CW; Koehler MD; Efstratiadis A; Maniatis T (diciembre de 1979). "Uso de una biblioteca de ADNc para estudios sobre la evolución y la expresión del desarrollo de las familias multigénicas del corion". Cell . 18 (4): 1303–16. doi : 10.1016/0092-8674(79)90241-1 . PMID 519770.
^ Sutcliffe JG; Milner RJ; Bloom FE; Lerner RA (agosto de 1982). "Secuencia común de 82 nucleótidos exclusiva del ARN cerebral". Proc Natl Acad Sci USA . 79 (16): 4942–6. Bibcode :1982PNAS...79.4942S. doi : 10.1073/pnas.79.16.4942 . PMC 346801 . PMID 6956902.
^ Putney SD; Herlihy WC; Schimmel P (1983). "Una nueva troponina T y clones de ADNc para 13 proteínas musculares diferentes, encontrados mediante secuenciación shotgun". Nature . 302 (5910): 718–21. Bibcode :1983Natur.302..718P. doi :10.1038/302718a0. PMID 6687628. S2CID 4364361.
^ Adams MD, Kelley JM, Gocayne JD, et al. (junio de 1991). "Secuenciación complementaria de ADN: etiquetas de secuencia expresada y proyecto genoma humano". Science . 252 (5013): 1651–6. Bibcode :1991Sci...252.1651A. doi :10.1126/science.2047873. PMID 2047873. S2CID 13436211.
^ ab Velculescu VE; Zhang L; Vogelstein B; Kinzler KW. (1995). "Análisis serial de la expresión génica". Science . 270 (5235): 484–7. Bibcode :1995Sci...270..484V. doi :10.1126/science.270.5235.484. PMID 7570003. S2CID 16281846.
^ ab Saha, S., et al. (2002). "Uso del transcriptoma para anotar el genoma". Nat Biotechnol 20(5): 508-512.
^ Gowda, M., et al. (2004). "Robust-LongSAGE (RL-SAGE): un método LongSAGE sustancialmente mejorado para el descubrimiento de genes y el análisis del transcriptoma". Plant Physiol 134(3): 890-897.
^ Matsumura, H.; Reich, S.; Ito, A.; Saitoh, H.; Kamoun, S.; Winter, P.; Kahl, G.; Reuter, M.; Krüger, D.; Terauchi, R. (2003). "Análisis de la expresión génica de las interacciones entre el hospedante y el patógeno de las plantas mediante SuperSAGE". Actas de la Academia Nacional de Ciencias . 100 (26): 15718–15723. Bibcode :2003PNAS..10015718M. doi : 10.1073/pnas.2536670100 . PMC 307634 . PMID 14676315.
^ Gowda, Malali; Jantasuriyarat, Chatchawan; Dean, Ralph A.; Wang, Guo-Liang (1 de marzo de 2004). "Robust-LongSAGE (RL-SAGE): un método LongSAGE sustancialmente mejorado para el descubrimiento de genes y el análisis del transcriptoma". Fisiología vegetal . 134 (3): 890–897. doi :10.1104/pp.103.034496. ISSN 1532-2548. PMC 389912 . PMID 15020752.
^ Shendure, J. (2008). "¿El principio del fin de los microarrays?". Nature Methods . 5 (7): 585–7. doi :10.1038/nmeth0708-585. PMID 18587314. S2CID 29682662.
^ Matsumura, H.; Bin Nasir, KH; Yoshida, K.; Ito, A.; Kahl, GN; Krüger, DH; Terauchi, R. (2006). "Matriz SuperSAGE: el uso directo de etiquetas de transcripción de 26 pares de bases en matrices de oligonucleótidos". Nature Methods . 3 (6): 469–74. doi :10.1038/nmeth882. PMID 16721381. S2CID 19160070.
^ Zawada, Adam (enero de 2014). "Análisis masivo de extremos de ADNc (MACE) y perfil de expresión de miRNA que identifica vías proaterogénicas en la enfermedad renal crónica". Epigenética . 9 (1): 161–172. doi :10.4161/epi.26931. PMC 3928179 . PMID 24184689.

Enlaces externos

SAGEnet
SAGE para principiantes
Una reseña de la técnica SAGE en Science Creative Quarterly