En genética , una etiqueta de secuencia expresada ( EST ) es una subsecuencia corta de una secuencia de ADNc . [1] Las EST se pueden utilizar para identificar transcripciones de genes y fueron fundamentales en el descubrimiento de genes y en la determinación de secuencias de genes. [2] La identificación de EST ha avanzado rápidamente, con aproximadamente 74,2 millones de EST disponibles ahora en bases de datos públicas (por ejemplo, GenBank 1 de enero de 2013, todas las especies). Los enfoques EST han sido reemplazados en gran medida por la secuenciación del genoma completo y del transcriptoma y la secuenciación del metagenoma.
Un EST es el resultado de la secuenciación de un solo paso de un ADNc clonado . Los ADNc utilizados para la generación de EST son típicamente clones individuales de una biblioteca de ADNc . La secuencia resultante es un fragmento de calidad relativamente baja cuya longitud está limitada por la tecnología actual a aproximadamente 500 a 800 nucleótidos . Debido a que estos clones consisten en ADN que es complementario al ARNm, los EST representan porciones de genes expresados. Pueden representarse en bases de datos como secuencia de ADNc/ARNm o como el complemento inverso del ARNm, la cadena molde .
Se pueden asignar EST a ubicaciones cromosómicas específicas mediante técnicas de mapeo físico , como el mapeo híbrido por radiación , el mapeo HAPPY o el FISH . Alternativamente, si se ha secuenciado el genoma del organismo que originó el EST, se puede alinear la secuencia del EST con ese genoma mediante una computadora.
El conocimiento actual del conjunto de genes humanos (a fecha de 2006 [actualizar]) incluye la existencia de miles de genes basándose únicamente en la evidencia de EST. En este sentido, las EST se han convertido en una herramienta para refinar las transcripciones predichas para esos genes, lo que conduce a la predicción de sus productos proteicos y, en última instancia, de su función. Además, la situación en la que se obtienen esas EST (tejido, órgano, estado patológico, por ejemplo, cáncer ) proporciona información sobre las condiciones en las que actúa el gen correspondiente. Las EST contienen suficiente información para permitir el diseño de sondas precisas para microarreglos de ADN que luego se pueden utilizar para determinar los perfiles de expresión génica .
Algunos autores utilizan el término "EST" para describir genes para los cuales existe poca o ninguna información adicional además de la etiqueta. [3]
En 1979, equipos de Harvard y Caltech extendieron la idea básica de hacer copias de ADN de ARNm in vitro para amplificar una biblioteca de los mismos en plásmidos bacterianos. [4]
En 1982, Greg Sutcliffe y sus colaboradores exploraron la idea de seleccionar clones aleatorios o semialeatorios de dicha biblioteca de ADNc para secuenciar. [5]
En 1983, Putney et al. secuenciaron 178 clones de una biblioteca de ADNc de músculo de conejo. [6]
En 1991, Adams y sus colaboradores acuñaron el término EST e iniciaron un proyecto de secuenciación más sistemática (comenzando con 600 ADNc cerebrales). [2]
dbEST es una división de Genbank establecida en 1992. En cuanto a GenBank , los datos en dbEST son enviados directamente por laboratorios de todo el mundo y no están curados.
Debido a la forma en que se secuencian los EST, muchas etiquetas de secuencias expresadas distintas suelen ser secuencias parciales que corresponden al mismo ARNm de un organismo. En un esfuerzo por reducir la cantidad de etiquetas de secuencias expresadas para los análisis de descubrimiento de genes posteriores, varios grupos ensamblaron etiquetas de secuencias expresadas en contigs EST . Algunos ejemplos de recursos que proporcionan contigs EST incluyen: índices de genes TIGR, [7] Unigene, [8] y STACK [9]
La construcción de contigs de EST no es una tarea sencilla y puede generar artefactos (contigs que contienen dos productos genéticos distintos). Cuando se dispone de la secuencia completa del genoma de un organismo y se anotan las transcripciones, es posible omitir el ensamblaje de contigs y hacer coincidir directamente las transcripciones con los EST. Este enfoque se utiliza en el sistema TissueInfo (ver a continuación) y facilita la vinculación de las anotaciones en la base de datos genómica con la información tisular proporcionada por los datos EST.
Los análisis de alto rendimiento de EST a menudo se enfrentan a desafíos similares en la gestión de datos. Un primer desafío es que la procedencia de los tejidos de las bibliotecas de EST se describe en un lenguaje sencillo en dbEST. [10] Esto dificulta la escritura de programas que puedan determinar de forma inequívoca que dos bibliotecas de EST se secuenciaron a partir del mismo tejido. De manera similar, las condiciones de la enfermedad para el tejido no se anotan de una manera que sea fácil de usar desde el punto de vista computacional. Por ejemplo, el origen del cáncer de una biblioteca a menudo se mezcla con el nombre del tejido (por ejemplo, el nombre del tejido " glioblastoma " indica que la biblioteca de EST se secuenció a partir de tejido cerebral y la condición de la enfermedad es cáncer). [11] Con la notable excepción del cáncer, la condición de la enfermedad a menudo no se registra en las entradas de dbEST. El proyecto TissueInfo se inició en 2000 para ayudar con estos desafíos. El proyecto proporciona datos seleccionados (actualizados diariamente) para desambiguar el origen del tejido y el estado de la enfermedad (cáncer/no cáncer), ofrece una ontología de tejidos que vincula tejidos y órganos mediante relaciones de "es parte de" (es decir, formaliza el conocimiento de que el hipotálamo es parte del cerebro y que el cerebro es parte del sistema nervioso central) y distribuye software de código abierto para vincular anotaciones de transcripción de genomas secuenciados a perfiles de expresión de tejidos calculados con datos en dbEST. [12]
Esta publicación se ofrece solo como referencia histórica y la información puede estar desactualizada.
{{cite journal}}
: CS1 maint: nombres numéricos: lista de autores ( enlace )Servidor para la clasificación de EST de grupos mixtos de EST (de plantas infectadas por hongos) mediante el uso de codones
Procedencia de tejido EST curado, ontología de tejido, software de código abierto