Etiqueta de extremo emparejado

Las etiquetas de extremos emparejados (PET) (a veces "diTags de extremos emparejados", o simplemente "ditags") son las secuencias cortas en los extremos 5' y 3' de un fragmento de ADN que son lo suficientemente únicas como para que (teóricamente) existan juntas solo una vez en un genoma , por lo tanto, hacen que la secuencia del ADN entre ellas esté disponible en la búsqueda (si hay datos de secuencia del genoma completo disponibles) o en una secuenciación adicional (ya que los sitios de etiqueta son lo suficientemente únicos como para servir como sitios de hibridación de cebadores ). Las etiquetas de extremos emparejados (PET) existen en bibliotecas PET con el ADN intermedio ausente, es decir, una PET "representa" un fragmento más grande de ADN genómico o cDNA al consistir en una secuencia de enlace 5' corta, una etiqueta de secuencia 5' corta, una etiqueta de secuencia 3' corta y una secuencia de enlace 3' corta. Se demostró conceptualmente que 13 pares de bases son suficientes para mapear etiquetas de forma única. ^[1] Sin embargo, las secuencias más largas son más prácticas para mapear lecturas de forma única. Las endonucleasas (que se analizan a continuación) que se utilizan para producir PET proporcionan etiquetas más largas (18/20 pares de bases y 25/27 pares de bases), pero las secuencias de 50 a 100 pares de bases serían óptimas tanto para el mapeo como para la rentabilidad. ^[1] Después de extraer las PET de muchos fragmentos de ADN, se unen (concatenan) entre sí para una secuenciación eficiente. En promedio, se podrían secuenciar entre 20 y 30 etiquetas con el método de Sanger , que tiene una longitud de lectura más larga. ^[1] Dado que las secuencias de etiquetas son cortas, las PET individuales son adecuadas para la secuenciación de próxima generación que tiene longitudes de lectura cortas y un mayor rendimiento. Las principales ventajas de la secuenciación PET son su costo reducido al secuenciar solo fragmentos cortos, la detección de variantes estructurales en el genoma y una mayor especificidad al alinearse de nuevo con el genoma en comparación con las etiquetas individuales, que involucran solo un extremo del fragmento de ADN.

Construyendo la biblioteca PET

Flujo de trabajo de construcción de bibliotecas PET basadas en clonación y sin clonación.

Las bibliotecas PET normalmente se preparan mediante dos métodos generales: basados en clonación y basados en no clonación.

Basado en clonación

El ADN genómico fragmentado o el ADN complementario (ADNc) de interés se clona en vectores plasmídicos . Los sitios de clonación están flanqueados por secuencias adaptadoras que contienen sitios de restricción para endonucleasas (que se analizan a continuación). Los insertos se ligan a los vectores plasmídicos y luego los vectores individuales se transforman en E. coli para formar la biblioteca PET. Las secuencias PET se obtienen purificando el plásmido y digiriéndolo con una endonucleasa específica, dejando dos secuencias cortas en los extremos de los vectores. En condiciones intramoleculares (diluidas), los vectores se recirculan y se ligan, dejando solo los ditags en el vector. Las secuencias exclusivas del clon ahora se emparejan. Dependiendo de la técnica de secuenciación de próxima generación , las secuencias PET se pueden dejar singulares, dimerizadas o concatenadas en cadenas largas. ^[1]

Basado en la ausencia de clonación

En lugar de clonar, los adaptadores que contienen la secuencia de endonucleasa se ligan a los extremos del ADN genómico fragmentado o del ADNc. Luego, las moléculas se autocircularizan y se digieren con endonucleasa, liberando el PET. ^[1] Antes de la secuenciación, estos PET se ligan a adaptadores a los que se unen los cebadores de PCR para la amplificación. La ventaja de la construcción de la biblioteca basada en la clonación es que mantiene los fragmentos o el ADNc intactos para su uso futuro. Sin embargo, el proceso de construcción es mucho más largo que el método sin clonación. Las empresas de secuenciación de próxima generación han producido variaciones en la construcción de la biblioteca para adaptarse a sus respectivas tecnologías. ^[1]

Endonucleasas

A diferencia de otras endonucleasas, las endonucleasas de restricción MmeI (tipo IIS) y EcoP15I (tipo III) cortan aguas abajo de sus sitios de unión objetivo. MmeI corta 18/20 pares de bases aguas abajo ^[2] y EcoP15I corta 25/27 pares de bases aguas abajo ^[3] . A medida que estas enzimas de restricción se unen a sus secuencias objetivo ubicadas en los adaptadores, cortan y liberan vectores que contienen secuencias cortas del fragmento o ADNc ligado a ellos, produciendo PET.

Aplicaciones del PET

Ejemplo de detección PET de deleciones e inserciones.

Ejemplo de estructuras de transcripción alternativas detectadas por RNA-PET.

ADN-PET : Debido a que la PET representa la conectividad entre las etiquetas, el uso de la PET en la resecuenciación del genoma tiene ventajas sobre el uso de lecturas individuales . Esta aplicación se llama secuenciación de extremos por pares , conocida coloquialmente como secuenciación de escopeta de doble cañón . Anclar la mitad del par de forma única a una única ubicación en el genoma permite el mapeo de la otra mitad que es ambigua. Las lecturas ambiguas son aquellas que se asignan a más de una única ubicación. Esta mayor eficiencia reduce el costo de la secuenciación ya que estas secuencias ambiguas, o lecturas, normalmente se descartarían. La conectividad de las secuencias PET también permite la detección de variaciones estructurales: inserciones , deleciones , duplicaciones , inversiones , translocaciones . ^[1]^[4] Durante la construcción de la biblioteca PET, los fragmentos pueden seleccionarse para que todos sean de un tamaño determinado. Después del mapeo, se espera que las secuencias PET estén consistentemente a una distancia particular entre sí. Una discrepancia de esta distancia indica una variación estructural entre las secuencias PET. Por ejemplo (Figura de la derecha): una deleción en el genoma secuenciado tendrá lecturas que se mapearán más lejos de lo esperado en el genoma de referencia, ya que el genoma de referencia tendrá un segmento de ADN que no está presente en el genoma secuenciado.
ChIP-PET : el uso combinado de inmunoprecipitación de cromatina ( ChIP ) y PET se utiliza para detectar regiones de ADN unidas por una proteína de interés. ChIP-PET tiene la ventaja sobre la secuenciación de lectura única al reducir la ambigüedad de las lecturas generadas. La ventaja sobre la hibridación en chip ( ChIP-Chip ) es que las matrices de hibridación en mosaico no tienen la sensibilidad estadística que tienen las lecturas de secuencia. Sin embargo, ChIP-PET, ChIP-Seq ^[5]^[6]^[7] y ChIP-chip ^[8] han tenido mucho éxito. ^[1]
ChIA-PET : La aplicación de la secuenciación PET en el análisis de la interacción de la cromatina. Es una estrategia de todo el genoma para encontrar interacciones de novo de largo alcance entre elementos del ADN unidos por factores proteicos.^[9] El primer ChIA-PET fue desarrollado por Fullwood et al . (2009)^[9] para generar un mapa de las interacciones entre la cromatina unida por el receptor de estrógeno α (ER-α) en células de adenocarcinoma de mama humano tratadas con estrógeno.^[9] ChIA-PET es una forma imparcial de analizar interacciones y estructuras de cromatina de orden superior porque puede detectar interacciones entre elementos de ADN desconocidos. Por el contrario, los métodos 3C y 4C se utilizan para detectar interacciones que involucran una región objetivo específica en el genoma. ChIA-PET es similar a encontrar genes de fusión a través de RNA-PET en que las etiquetas pareadas se asignan a diferentes regiones en el genoma.^[1] Sin embargo, la ChIA-PET implica ligaduras artificiales entre diferentes fragmentos de ADN ubicados en diferentes regiones genómicas, en lugar de una fusión natural entre dos regiones genómicas como en la ARN-PET.
RNA-PET : Esta aplicación se utiliza para estudiar el transcriptoma : transcripciones, estructuras genéticas y expresiones genéticas. ^[1]^[10] La biblioteca PET se genera utilizando ADNc de longitud completa, por lo que los ditags representan las firmas de cola de poliA 3' y tapa 5' de transcripciones individuales. Por lo tanto, RNA-PET es especialmente útil para demarcar los límites de las unidades de transcripción. Esto ayudará a identificar sitios de inicio de transcripción alternativos y sitios de poliadenilación de genes. ^[1] RNA-PET también podría usarse para detectar genes de fusión y trans-splicing , pero se necesitan más experimentos para distinguirlos. ^[11] Otros métodos para encontrar los límites de las transcripciones incluyen las estrategias de etiqueta única CAGE , SAGE y la más reciente SuperSAGE , con CAGE y 5' SAGE definiendo los sitios de inicio de la transcripción y 3' SAGE definiendo los sitios de poliadenilación . ^[1] Las ventajas de la secuenciación PET sobre estos métodos son que la PET identifica ambos extremos de las transcripciones y, al mismo tiempo, proporciona más especificidad al mapear de nuevo al genoma. La secuenciación de los ADNc puede revelar las estructuras de las transcripciones con gran detalle, pero este enfoque es mucho más caro que la secuenciación RNA-PET, especialmente para caracterizar todo el transcriptoma . ^[10] La principal limitación de RNA-PET es la falta de información sobre la organización de los exones internos de las transcripciones. Por lo tanto, RNA-PET no es adecuado para detectar splicing alternativo . Además, si se utiliza el procedimiento de clonación para construir la biblioteca de ADNc antes de generar las PET, los ADNc que son difíciles de clonar (como resultado de transcripciones largas) tendrían una cobertura menor. ^[10] De manera similar, las transcripciones (o isoformas de transcripción) con bajos niveles de expresión probablemente también estarían subrepresentadas.

Referencias

^ abcdefghijkl Fullwood, MJ; Wei, CL; Liu, ET; Ruan, Y. (2009). "Secuenciación de ADN de próxima generación de etiquetas de extremos emparejados (PET) para análisis del transcriptoma y del genoma". Genome Research . 19 (4): 521–532. doi :10.1101/gr.074906.107. PMC 3807531 . PMID 19339662.
^ Morgan, RD; Bhatia, TK; Lovasco, L.; Davis, TB (2008). "MmeI: Un sistema mínimo de modificación por restricción de tipo II que solo modifica una cadena de ADN para la protección del huésped". Nucleic Acids Research . 36 (20): 6558–6570. doi :10.1093/nar/gkn711. PMC 2582602 . PMID 18931376.
^ Matsumura, H.; Reich, S.; Ito, A.; Saitoh, H.; Kamoun, S.; Winter, P.; Kahl, G.; Reuter, M.; Kruger, DH; Terauchi, R. (2003). "Análisis de expresión génica de interacciones entre hospedante y patógeno de plantas mediante SuperSAGE". Actas de la Academia Nacional de Ciencias de los Estados Unidos de América . 100 (26): 15718–15723. Bibcode :2003PNAS..10015718M. doi : 10.1073/pnas.2536670100 . PMC 307634 . PMID 14676315.
^ McKernan, KJ; et al. (2009). "Variación estructural y de secuencia en un genoma humano descubierta mediante secuenciación de ligación masiva en paralelo de lectura corta utilizando codificación de dos bases". Genome Research . 19 (9): 1527–1541. doi :10.1101/gr.091868.109. PMC 2752135 . PMID 19546169.
^ Barski, A.; Cuddapah, S.; Cui, K.; Roh, TY; Schones, DE; Wang, Z.; Wei, G.; Chepelev, I.; Zhao, K. (2007). "Perfiles de alta resolución de metilaciones de histonas en el genoma humano". Celúla . 129 (4): 823–837. doi : 10.1016/j.cell.2007.05.009 . PMID 17512414. S2CID 6326093.
^ Johnson, DS; Mortazavi, A.; Myers, RM; Wold, B. (2007). "Mapeo de interacciones proteína-ADN in vivo en todo el genoma". Science . 316 (5830): 1497–1902. Bibcode :2007Sci...316.1497J. doi : 10.1126/science.1141319 . PMID 17540862. S2CID 519841.
^ Chen, X.; Xu, H.; Yuan, P.; Fang, F.; Huss, M.; Vega, VB; Wong, E.; Orlov, YL; Zhang, W.; Jiang, J.; Loh, YH; Yeo, HC; Yeo, ZX; Narang, V.; Govindarajan, KR; Leong, B.; Shahab, A.; Ruan, Y.; Bourque, G.; Sung, WK; Clarke, ND; Wei, CL; Ng, HH (2008). "Integración de vías de señalización externa con la red transcripcional central en células madre embrionarias". Cell . 133 (6): 1106–1117. doi : 10.1016/j.cell.2008.04.043 . PMID 18555785. S2CID 1768190.
^ Wu, J.; Smith, LT; Plass, C.; Huang, TH (2006). "ChIP-chip alcanza la madurez para el análisis funcional de todo el genoma". Cancer Research . 66 (14): 6899–7702. doi :10.1158/0008-5472.CAN-06-0276. PMID 16849531.
^ abc Fullwood, MJ; et al. (2009). "Un interactoma de cromatina humana unido al receptor de estrógeno alfa". Nature . 462 (7269): 58–64. Bibcode :2009Natur.462...58F. doi :10.1038/nature08497. PMC 2774924 . PMID 19890323.
^ abc Ng, P.; Wei, CL; Sung, WK; Chiu, KP; Lipovich, L.; Ang, CC; Gupta, S.; Shahab, A.; Ridwan, A.; Wong, CH; Liu, ET; Ruan, Y. (2005). "Análisis de firmas de identificación genética (GIS) para la caracterización del transcriptoma y la anotación del genoma". Nature Methods . 2 (2): 105–111. doi :10.1038/nmeth733. PMID 15782207. S2CID 14288213.
^ Ruan, Y.; Ooi, HS; Choo, SW; Chiu, KP; Zhao, XD; Srinivasan, KG; Yao, F.; Choo, CY; Liu, J.; Ariyaratne, P.; Bin, WG; Kuznetsov, VA; Shahab, A.; Sung, WK; Bourque, G.; Palanisamy, N.; Wei, CL (2007). "Transcripciones de fusión y loci retrotranspuestos transcritos descubiertos a través de un análisis del transcriptoma exhaustivo utilizando diTags de extremos emparejados (PET)". Genome Research . 17 (6): 828–838. doi :10.1101/gr.6018607. PMC 1891342 . PMID 17568001.