stringtranslate.com

Etiqueta de secuencia expresada

En genética , una etiqueta de secuencia expresada ( EST ) es una subsecuencia corta de una secuencia de ADNc . [1] Las EST se pueden utilizar para identificar transcripciones de genes y fueron fundamentales en el descubrimiento de genes y en la determinación de secuencias de genes. [2] La identificación de EST ha avanzado rápidamente, con aproximadamente 74,2 millones de EST disponibles ahora en bases de datos públicas (por ejemplo, GenBank 1 de enero de 2013, todas las especies). Los enfoques EST han sido reemplazados en gran medida por la secuenciación del genoma completo y del transcriptoma y la secuenciación del metagenoma.

Un EST es el resultado de la secuenciación de un solo paso de un ADNc clonado . Los ADNc utilizados para la generación de EST son típicamente clones individuales de una biblioteca de ADNc . La secuencia resultante es un fragmento de calidad relativamente baja cuya longitud está limitada por la tecnología actual a aproximadamente 500 a 800 nucleótidos . Debido a que estos clones consisten en ADN que es complementario al ARNm, los EST representan porciones de genes expresados. Pueden representarse en bases de datos como secuencia de ADNc/ARNm o como el complemento inverso del ARNm, la cadena molde .

Se pueden asignar EST a ubicaciones cromosómicas específicas mediante técnicas de mapeo físico , como el mapeo híbrido por radiación , el mapeo HAPPY o el FISH . Alternativamente, si se ha secuenciado el genoma del organismo que originó el EST, se puede alinear la secuencia del EST con ese genoma mediante una computadora.

El conocimiento actual del conjunto de genes humanos (a fecha de 2006 ) incluye la existencia de miles de genes basándose únicamente en la evidencia de EST. En este sentido, las EST se han convertido en una herramienta para refinar las transcripciones predichas para esos genes, lo que conduce a la predicción de sus productos proteicos y, en última instancia, de su función. Además, la situación en la que se obtienen esas EST (tejido, órgano, estado patológico, por ejemplo, cáncer ) proporciona información sobre las condiciones en las que actúa el gen correspondiente. Las EST contienen suficiente información para permitir el diseño de sondas precisas para microarreglos de ADN que luego se pueden utilizar para determinar los perfiles de expresión génica .

Algunos autores utilizan el término "EST" para describir genes para los cuales existe poca o ninguna información adicional además de la etiqueta. [3]

Historia

En 1979, equipos de Harvard y Caltech extendieron la idea básica de hacer copias de ADN de ARNm in vitro para amplificar una biblioteca de los mismos en plásmidos bacterianos. [4]

En 1982, Greg Sutcliffe y sus colaboradores exploraron la idea de seleccionar clones aleatorios o semialeatorios de dicha biblioteca de ADNc para secuenciar. [5]

En 1983, Putney et al. secuenciaron 178 clones de una biblioteca de ADNc de músculo de conejo. [6]

En 1991, Adams y sus colaboradores acuñaron el término EST e iniciaron un proyecto de secuenciación más sistemática (comenzando con 600 ADNc cerebrales). [2]

Fuentes de datos y anotaciones

Estadística de calidad

dbEST es una división de Genbank establecida en 1992. En cuanto a GenBank , los datos en dbEST son enviados directamente por laboratorios de todo el mundo y no están curados.

Contiguo EST

Debido a la forma en que se secuencian los EST, muchas etiquetas de secuencias expresadas distintas suelen ser secuencias parciales que corresponden al mismo ARNm de un organismo. En un esfuerzo por reducir la cantidad de etiquetas de secuencias expresadas para los análisis de descubrimiento de genes posteriores, varios grupos ensamblaron etiquetas de secuencias expresadas en contigs EST . Algunos ejemplos de recursos que proporcionan contigs EST incluyen: índices de genes TIGR, [7] Unigene, [8] y STACK [9]

La construcción de contigs de EST no es una tarea sencilla y puede generar artefactos (contigs que contienen dos productos genéticos distintos). Cuando se dispone de la secuencia completa del genoma de un organismo y se anotan las transcripciones, es posible omitir el ensamblaje de contigs y hacer coincidir directamente las transcripciones con los EST. Este enfoque se utiliza en el sistema TissueInfo (ver a continuación) y facilita la vinculación de las anotaciones en la base de datos genómica con la información tisular proporcionada por los datos EST.

Información sobre el tejido

Los análisis de alto rendimiento de EST a menudo se enfrentan a desafíos similares en la gestión de datos. Un primer desafío es que la procedencia de los tejidos de las bibliotecas de EST se describe en un lenguaje sencillo en dbEST. [10] Esto dificulta la escritura de programas que puedan determinar de forma inequívoca que dos bibliotecas de EST se secuenciaron a partir del mismo tejido. De manera similar, las condiciones de la enfermedad para el tejido no se anotan de una manera que sea fácil de usar desde el punto de vista computacional. Por ejemplo, el origen del cáncer de una biblioteca a menudo se mezcla con el nombre del tejido (por ejemplo, el nombre del tejido " glioblastoma " indica que la biblioteca de EST se secuenció a partir de tejido cerebral y la condición de la enfermedad es cáncer). [11] Con la notable excepción del cáncer, la condición de la enfermedad a menudo no se registra en las entradas de dbEST. El proyecto TissueInfo se inició en 2000 para ayudar con estos desafíos. El proyecto proporciona datos seleccionados (actualizados diariamente) para desambiguar el origen del tejido y el estado de la enfermedad (cáncer/no cáncer), ofrece una ontología de tejidos que vincula tejidos y órganos mediante relaciones de "es parte de" (es decir, formaliza el conocimiento de que el hipotálamo es parte del cerebro y que el cerebro es parte del sistema nervioso central) y distribuye software de código abierto para vincular anotaciones de transcripción de genomas secuenciados a perfiles de expresión de tejidos calculados con datos en dbEST. [12]

Véase también

Referencias

  1. ^ Hoja informativa sobre EST. Centro Nacional de Información Biotecnológica .
  2. ^ ab Adams MD, Kelley JM, Gocayne JD, et al. (junio de 1991). "Secuenciación complementaria de ADN: etiquetas de secuencia expresada y proyecto genoma humano". Science . 252 (5013): 1651–6. Bibcode :1991Sci...252.1651A. doi :10.1126/science.2047873. PMID  2047873. S2CID  13436211.
  3. ^ dbEST
  4. ^ Sim GK, Kafatos FC, Jones CW, Koehler MD, Efstratiadis A, Maniatis T (diciembre de 1979). "Uso de una biblioteca de ADNc para estudios sobre la evolución y la expresión del desarrollo de las familias multigénicas del corion". Cell . 18 (4): 1303–16. doi : 10.1016/0092-8674(79)90241-1 . PMID  519770.
  5. ^ Sutcliffe JG, Milner RJ, Bloom FE, Lerner RA (agosto de 1982). "Secuencia común de 82 nucleótidos exclusiva del ARN cerebral". Proc Natl Acad Sci USA . 79 (16): 4942–6. Bibcode :1982PNAS...79.4942S. doi : 10.1073/pnas.79.16.4942 . PMC 346801 . PMID  6956902. 
  6. ^ Putney SD, Herlihy WC, Schimmel P (1983). "Una nueva troponina T y clones de ADNc para 13 proteínas musculares diferentes, encontrados mediante secuenciación shotgun". Nature . 302 (5910): 718–21. Bibcode :1983Natur.302..718P. doi :10.1038/302718a0. PMID  6687628. S2CID  4364361.
  7. ^ Lee Y, Tsai J, Sunkara S, et al. (enero de 2005). "Los índices genéticos TIGR: agrupamiento y ensamblaje de EST y genes conocidos e integración con genomas eucariotas". Nucleic Acids Res . 33 (número de la base de datos): D71–4. doi :10.1093/nar/gki064. PMC 540018 . PMID  15608288. 
  8. ^ Stanton JA, Macgregor AB, Green DP (2003). "Identificación de la expresión génica enriquecida en tejidos de ratón utilizando la base de datos NIH UniGene". Appl Bioinform . 2 (3 Suppl): S65–73. PMID  15130819.
  9. ^ Christoffels A, van Gelder A, Greyling G, Miller R, Hide T, Hide W (enero de 2001). "STACK: alineación de etiquetas de secuencia y base de conocimiento de consenso". Nucleic Acids Res . 29 (1): 234–8. doi :10.1093/nar/29.1.234. PMC 29830 . PMID  11125101. 
  10. ^ Skrabanek L, Campagne F (noviembre de 2001). "TissueInfo: identificación de alto rendimiento de perfiles de expresión y especificidad tisular". Nucleic Acids Res . 29 (21): E102–2. doi :10.1093/nar/29.21.e102. PMC 60201 . PMID  11691939. 
  11. ^ Campagne F, Skrabanek L (2006). "La extracción de etiquetas de secuencias expresadas identifica marcadores de cáncer de interés clínico". BMC Bioinformatics . 7 : 481. doi : 10.1186/1471-2105-7-481 . PMC 1635568 . PMID  17078886. 
  12. ^ :institute for computational biomedicine::TissueInfo Archivado el 4 de junio de 2008 en Wayback Machine

Enlaces externos

Información sobre el tejido