Marco de lectura abierto

Secuencia de muestra que muestra tres posibles marcos de lectura diferentes . Los codones de inicio están resaltados en violeta y los codones de terminación están resaltados en rojo.

En biología molecular , los marcos de lectura se definen como tramos de secuencia de ADN entre los codones de inicio y de terminación . Por lo general, esto se considera dentro de una región estudiada de una secuencia de ADN procariota , donde solo uno de los seis marcos de lectura posibles estará "abierto" (la "lectura", sin embargo, se refiere al ARN producido por la transcripción del ADN y su posterior interacción con el ribosoma en la traducción ). Tal ORF puede ^[1] contener un codón de inicio (generalmente AUG en términos de ARN ) y, por definición, no puede extenderse más allá de un codón de terminación (generalmente UAA, UAG o UGA en ARN). ^[2] Ese codón de inicio (no necesariamente el primero) indica dónde puede comenzar la traducción. El sitio de terminación de la transcripción se encuentra después del ORF, más allá del codón de terminación de la traducción. Si la transcripción cesara antes del codón de terminación, se produciría una proteína incompleta durante la traducción. ^[3]

En los genes eucariotas con múltiples exones , los intrones se eliminan y los exones se unen después de la transcripción para producir el ARNm final para la traducción de proteínas. En el contexto de la búsqueda de genes , la definición de inicio-parada de un ORF solo se aplica a los ARNm empalmados , no al ADN genómico, ya que los intrones pueden contener codones de parada y/o causar cambios entre marcos de lectura. Una definición alternativa dice que un ORF es una secuencia que tiene una longitud divisible por tres y está limitada por codones de parada. ^[1]^[4] Esta definición más general puede ser útil en el contexto de la transcriptómica y la metagenómica , donde un codón de inicio o parada puede no estar presente en las secuencias obtenidas. Tal ORF corresponde a partes de un gen en lugar del gen completo.

Importancia biológica

Un uso común de los marcos de lectura abiertos (ORF) es como una pieza de evidencia para ayudar en la predicción de genes . Los ORF largos se utilizan a menudo, junto con otra evidencia, para identificar inicialmente regiones codificantes de proteínas candidatas o regiones codificantes de ARN funcionales en una secuencia de ADN . ^[5] La presencia de un ORF no significa necesariamente que la región siempre se traduzca . Por ejemplo, en una secuencia de ADN generada aleatoriamente con un porcentaje igual de cada nucleótido , se esperaría un codón de parada una vez cada 21 codones . ^[5] Un algoritmo simple de predicción de genes para procariotas podría buscar un codón de inicio seguido de un marco de lectura abierto que sea lo suficientemente largo para codificar una proteína típica, donde el uso de codones de esa región coincida con la frecuencia característica de las regiones codificantes del organismo dado. ^[5] Por lo tanto, algunos autores dicen que un ORF debe tener una longitud mínima, por ejemplo, 100 codones ^[6] o 150 codones. ^[5] Por sí solo, incluso un marco de lectura abierto largo no es evidencia concluyente de la presencia de un gen . ^[5]

ORFs cortos (sORF)

Algunos ORF cortos (sORFs), también llamados marcos de lectura abiertos pequeños , ^[7] generalmente <100 codones de longitud, ^[8] que carecen de las características clásicas de los genes codificadores de proteínas (tanto de ncRNAs como de mRNAs) pueden producir péptidos funcionales. ^[9] Se sabe que 5'-UTR de aproximadamente el 50% de los ARNm de mamíferos contienen uno o varios sORF, ^[10] también llamados ORFs upstream o uORFs . Sin embargo, menos del 10% de los ARNm de vertebrados examinados en un estudio anterior contenían codones AUG delante del ORF principal. Curiosamente, se encontraron uORFs en dos tercios de los protooncogenes y proteínas relacionadas. ^[11] El 64–75% de los sitios de inicio de la traducción de sORF encontrados experimentalmente se conservan en los genomas de humanos y ratones y pueden indicar que estos elementos tienen función. ^[12] Sin embargo, los sORFs a menudo se encuentran solo en las formas menores de los ARNm y evitan la selección; la alta conservación de los sitios de iniciación puede estar relacionada con su ubicación dentro de los promotores de los genes relevantes. Esto es característico del gen SLAMF1 , por ejemplo. ^[13]

Traducción de seis cuadros

Como el ADN se interpreta en grupos de tres nucleótidos (codones), una cadena de ADN tiene tres marcos de lectura distintos. ^[14] La doble hélice de una molécula de ADN tiene dos cadenas antiparalelas; como cada una de las dos cadenas tiene tres marcos de lectura, hay seis posibles traducciones de marcos. ^[14]

Software

Descubridor

El ORF Finder (Open Reading Frame Finder) ^[15] es una herramienta de análisis gráfico que encuentra todos los marcos de lectura abiertos de un tamaño mínimo seleccionable en la secuencia de un usuario o en una secuencia que ya se encuentra en la base de datos. Esta herramienta identifica todos los marcos de lectura abiertos utilizando los códigos genéticos estándar o alternativos. La secuencia de aminoácidos deducida se puede guardar en varios formatos y buscar en la base de datos de secuencias utilizando el servidor de la herramienta de búsqueda de alineamiento local básico (BLAST). El ORF Finder debería ser útil para preparar presentaciones de secuencias completas y precisas. También se incluye con el software de presentación de secuencias de Shine (analizador de secuencias).

Investigador

ORF Investigator ^[16] es un programa que no solo brinda información sobre las secuencias codificantes y no codificantes, sino que también puede realizar un alineamiento global por pares de secuencias de diferentes regiones de genes/ADN. La herramienta encuentra de manera eficiente los ORF para las secuencias de aminoácidos correspondientes y los convierte en su código de aminoácido de una sola letra, y proporciona sus ubicaciones en la secuencia. El alineamiento global por pares entre las secuencias hace que sea conveniente detectar las diferentes mutaciones, incluido el polimorfismo de un solo nucleótido . Los algoritmos Needleman-Wunsch se utilizan para el alineamiento de genes. ORF Investigator está escrito en el lenguaje de programación portátil Perl y, por lo tanto, está disponible para los usuarios de todos los sistemas operativos comunes.

Vaticinador

OrfPredictor ^[17] es un servidor web diseñado para identificar regiones codificantes de proteínas en secuencias derivadas de etiquetas de secuencia expresadas (EST). Para las secuencias de consulta con un resultado en BLASTX, el programa predice las regiones codificantes basándose en los marcos de lectura de traducción identificados en las alineaciones de BLASTX; de lo contrario, predice la región codificante más probable basándose en las señales intrínsecas de las secuencias de consulta. El resultado son las secuencias de péptidos predichas en el formato FASTA y una línea de definición que incluye el ID de consulta, el marco de lectura de traducción y las posiciones de nucleótidos donde comienza y termina la región codificante. OrfPredictor facilita la anotación de secuencias derivadas de EST, en particular, para proyectos EST a gran escala.

ORF Predictor utiliza una combinación de las dos definiciones de ORF mencionadas anteriormente. Busca tramos que comienzan con un codón de inicio y terminan en un codón de terminación. Como criterio adicional, busca un codón de terminación en la región no traducida 5' (UTR o NTR, región no traducida ^[18] ).

ORFIK

ORFik es un paquete R en Bioconductor para encontrar marcos de lectura abiertos y utilizar tecnologías de secuenciación de próxima generación para la justificación de ORF. ^[19] ^[20]

Orfipia

orfipy es una herramienta escrita en Python / Cython para extraer ORFs de una manera extremadamente rápida y flexible. ^[21] orfipy puede trabajar con secuencias FASTA y FASTQ simples o comprimidas, y proporciona varias opciones para afinar las búsquedas de ORFs; estas incluyen especificar los codones de inicio y de fin, informar ORFs parciales y usar tablas de traducción personalizadas. Los resultados se pueden guardar en múltiples formatos, incluido el formato BED que ahorra espacio. orfipy es particularmente más rápido para datos que contienen múltiples secuencias FASTA más pequeñas, como ensamblajes de transcriptomas de novo. ^[22]

Véase también

Región de codificación
Gen putativo
Sequerome : una herramienta de creación de perfiles de secuencia que vincula cada registro BLAST con el ORF del NCBI , lo que permite un análisis ORF completo de un informe BLAST.
Micropéptido

Referencias

^ ab Sieber P, Platzer M, Schuster S (marzo de 2018). "Revisión de la definición de marco de lectura abierto". Tendencias en genética . 34 (3): 167–170. doi :10.1016/j.tig.2017.12.009. PMID 29366605.
^ Brody LC (25 de agosto de 2021). "Codón de parada". Instituto Nacional de Investigación del Genoma Humano . Institutos Nacionales de Salud . Consultado el 25 de agosto de 2021 .
^ Slonczewski J, Foster JW (2009). Microbiología: una ciencia en evolución . Nueva York: WW Norton & Co. ISBN 978-0-393-97857-5.OCLC 185042615 .
^ Claverie JM (1997). "Métodos computacionales para la identificación de genes en secuencias genómicas de vertebrados". Genética molecular humana . 6 (10): 1735–44. doi : 10.1093/hmg/6.10.1735 . PMID 9300666.
^ abcde Deonier R, Tavaré S , Waterman M (2005). Análisis computacional del genoma: una introducción . Springer-Verlag . pág. 25. ISBN. 978-0-387-98785-9.
^ Claverie JM, Poirot O, Lopez F (1997). "La dificultad de identificar genes en secuencias anónimas de vertebrados". Computers & Chemistry . 21 (4): 203–14. doi :10.1016/s0097-8485(96)00039-3. PMID 9415985.
^ Vakirlis, Nikolaos; Vance, Zoe; Duggan, Kate M.; McLysaght, Aoife (2022). "Nacimiento de novo de microproteínas funcionales en el linaje humano". Cell Reports . 41 (12): 111808. doi :10.1016/j.celrep.2022.111808. PMC 10073203 . PMID 36543139. S2CID 254966620.
^ Kute, Preeti Madhav; Soukarieh, Omar; Tjeldnes, Håkon; Trégouët, David-Alexandre; Valen, Eivind (2022). "Pequeños marcos de lectura abiertos, cómo encontrarlos y determinar su función". Frontiers in Genetics . 12 : 796060. doi : 10.3389/fgene.2021.796060 . PMC 8831751 . PMID 35154250.
^ Zanet J, Benrabah E, Li T, Pélissier-Monier A, Chanut-Delalande H, Ronsin B, et al. (Septiembre de 2015). "Los péptidos Pri sORF inducen el procesamiento selectivo de proteínas mediado por proteasoma". Ciencia . 349 (6254): 1356-1358. Código Bib : 2015 Ciencia... 349.1356Z. doi : 10.1126/ciencia.aac5677. PMID 26383956. S2CID 206639549.
^ Wethmar K, Barbosa-Silva A, Andrade-Navarro MA, Leutz A (enero de 2014). "uORFdb: una base de datos completa de literatura sobre biología de uORF eucariotas". Nucleic Acids Research . 42 (número de base de datos): D60–D67. doi :10.1093/nar/gkt952. PMC 3964959 . PMID 24163100.
^ Geballe, AP; Morris, DR (abril de 1994). "Codones de iniciación dentro de los líderes 5' de los ARNm como reguladores de la traducción". Tendencias en ciencias bioquímicas . 19 (4): 159–164. doi :10.1016/0968-0004(94)90277-1. ISSN 0968-0004. PMID 8016865.
^ Lee S, Liu B, Lee S, Huang SX, Shen B, Qian SB (septiembre de 2012). "Mapeo global de sitios de iniciación de la traducción en células de mamíferos con resolución de un solo nucleótido". Actas de la Academia Nacional de Ciencias de los Estados Unidos de América . 109 (37): E2424–E2432. doi : 10.1073/pnas.1207846109 . PMC 3443142 . PMID 22927429.
^ Schwartz AM, Putlyaeva LV, Covich M, Klepikova AV, Akulich KA, Vorontsov IE, et al. (octubre de 2016). "El factor 1 temprano de células B (EBF1) es fundamental para el control transcripcional del gen SLAMF1 en células B humanas". Biochimica et Biophysica Acta (BBA) - Mecanismos reguladores de genes . 1859 (10): 1259-1268. doi :10.1016/j.bbagrm.2016.07.004. PMID 27424222.
^ ab Pearson WR, Wood T, Zhang Z, Miller W (noviembre de 1997). "Comparación de secuencias de ADN con secuencias de proteínas". Genomics . 46 (1): 24–36. doi :10.1006/geno.1997.4995. PMID 9403055. S2CID 6413018.
^ "ORFfinder". Centro Nacional de Información Biotecnológica .
^ Dhar DV, Kumar MS (2012). "ORF Investigator: una nueva herramienta de búsqueda de ORF que combina la alineación génica global por pares". Revista de investigación de ciencias recientes . 1 (11): 32–35.
^ "OrfPredictor". bioinformatics.ysu.edu . Archivado desde el original el 22 de diciembre de 2015. Consultado el 17 de diciembre de 2015 .
^ Carrington JC, Freed DD (abril de 1990). "Mejora de la traducción independiente de la caperuza por una región 5' no traducida de un potyvirus de plantas". Journal of Virology . 64 (4): 1590–7. doi :10.1128/JVI.64.4.1590-1597.1990. PMC 249294 . PMID 2319646.
^ Kornel Labun, Haakon Tjeldnes (2018). "ORFik - Marcos de lectura abiertos en genómica". bioconductor.org . doi :10.18129/B9.bioc.ORFik.
^ Tjeldnes, Håkon; Labún, Kornel; Torres Cleuren, Yamila; Chyżyńska, Katarzyna; Świrski, Michał; Valen, Eivind (2021). "ORFik: un completo conjunto de herramientas de R para el análisis de la traducción". Bioinformática BMC . 22 (1): 336. doi : 10.1186/s12859-021-04254-w . PMC 8214792 . PMID 34147079.
^ Singh U, Wurtele ES (febrero de 2021). «orfipy: una herramienta rápida y flexible para extraer ORF». Bioinformática . 37 (18): 3019–3020. doi : 10.1093/bioinformatics/btab090 . ISSN 1367-4803. PMC 8479652 . PMID 33576786.
^ Singh U (13 de febrero de 2021), urmi-21/orfipy , consultado el 13 de febrero de 2021

Enlaces externos

Traducción y marcos de lectura abiertos
hORFeome V5.1: una herramienta interactiva basada en la web para la colección de ORFeome humanos del CCSB
ORF Marker: una herramienta GUI de escritorio gratuita, rápida y multiplataforma para predecir y analizar ORF
StarORF: una herramienta GUI multiplataforma basada en Java para predecir y analizar ORF y obtener secuencias de complemento inverso
ORFPredictor Archivado el 22 de diciembre de 2015 en Wayback Machine : un servidor web diseñado para la predicción y traducción de ORF de un lote de secuencias EST o de ADNc