Marco de lectura abierto

Secuencia de muestra que muestra tres posibles marcos de lectura diferentes . Los codones de inicio están resaltados en violeta y los codones de parada están resaltados en rojo.

En biología molecular , los marcos de lectura abiertos ( ORF ) se definen como tramos de secuencia de ADN entre los codones de inicio y parada . Habitualmente, esto se considera dentro de una región estudiada de una secuencia de ADN procariota , donde sólo uno de los seis marcos de lectura posibles estará "abierto" (la "lectura", sin embargo, se refiere al ARN producido por la transcripción del ADN y su posterior interacción con el ribosoma en la traducción ). Dicho ORF puede ^[1] contener un codón de inicio (normalmente AUG en términos de ARN ) y, por definición, no puede extenderse más allá de un codón de parada (normalmente UAA, UAG o UGA en ARN). ^[2] Ese codón de inicio (no necesariamente el primero) indica dónde puede comenzar la traducción. El sitio de terminación de la transcripción se encuentra después del ORF, más allá del codón de parada de la traducción. Si la transcripción cesara antes del codón de parada, se produciría una proteína incompleta durante la traducción. ^[3]

En genes eucariotas con múltiples exones , los intrones se eliminan y luego los exones se unen después de la transcripción para producir el ARNm final para la traducción de proteínas. En el contexto de la búsqueda de genes , la definición de inicio y fin de un ORF solo se aplica a los ARNm empalmados , no al ADN genómico, ya que los intrones pueden contener codones de parada y/o causar cambios entre marcos de lectura. Una definición alternativa dice que un ORF es una secuencia que tiene una longitud divisible por tres y está limitada por codones de terminación. ^[1]^[4] Esta definición más general puede ser útil en el contexto de la transcriptómica y la metagenómica , donde un codón de inicio o de parada puede no estar presente en las secuencias obtenidas. Un ORF de este tipo corresponde a partes de un gen y no al gen completo.

Importancia biológica

Un uso común de los marcos de lectura abiertos (ORF) es como pieza de evidencia para ayudar en la predicción de genes . Los ORF largos se utilizan a menudo, junto con otras pruebas, para identificar inicialmente regiones codificantes de proteínas candidatas o regiones codificantes de ARN funcionales en una secuencia de ADN . ^[5] La presencia de un ORF no significa necesariamente que la región siempre esté traducida . Por ejemplo, en una secuencia de ADN generada aleatoriamente con un porcentaje igual de cada nucleótido , se esperaría un codón de terminación una vez cada 21 codones . ^[5] Un algoritmo simple de predicción de genes para procariotas podría buscar un codón de inicio seguido de un marco de lectura abierto que sea lo suficientemente largo para codificar una proteína típica, donde el uso del codón de esa región coincida con la característica de frecuencia de las regiones codificantes del organismo dado. ^[5] Por lo tanto, algunos autores dicen que un ORF debe tener una longitud mínima, por ejemplo, 100 codones ^[6] o 150 codones. ^[5] Por sí solo, incluso un marco de lectura abierto prolongado no es evidencia concluyente de la presencia de un gen . ^[5]

ORF cortos (sORF)

Algunos ORF cortos (sORF), también denominados marcos de lectura abiertos pequeños , ^[7] generalmente <100 codones de longitud, ^[8] que carecen de las características clásicas de los genes codificadores de proteínas (tanto de ncRNA como de mRNA) pueden producir péptidos funcionales. ^[9] Se sabe que las 5'-UTR de aproximadamente el 50% de los ARNm de mamíferos contienen uno o varios sORF, ^[10] también llamados ORF ascendentes o uORF . Sin embargo, menos del 10% de los ARNm de vertebrados examinados en un estudio anterior contenían codones AUG delante del ORF principal. Curiosamente, se encontraron uORF en dos tercios de los protooncogenes y proteínas relacionadas. ^[11] Entre el 64% y el 75% de los sitios de iniciación de la traducción de sORF encontrados experimentalmente se conservan en los genomas de humanos y ratones y pueden indicar que estos elementos tienen una función. ^[12] Sin embargo, los sORF a menudo se pueden encontrar sólo en las formas menores de ARNm y evitan la selección; La alta conservación de los sitios de iniciación puede estar relacionada con su ubicación dentro de los promotores de los genes relevantes. Esto es característico, por ejemplo, del gen SLAMF1 . ^[13]

Traducción de seis cuadros

Dado que el ADN se interpreta en grupos de tres nucleótidos (codones), una cadena de ADN tiene tres marcos de lectura distintos. ^[14] La doble hélice de una molécula de ADN tiene dos hebras antiparalelas; Dado que las dos cadenas tienen tres marcos de lectura cada una, hay seis posibles traducciones de marcos. ^[14]

Software

Descubridor

El ORF Finder (Open Reading Frame Finder) ^[15] es una herramienta de análisis gráfico que encuentra todos los marcos de lectura abiertos de un tamaño mínimo seleccionable en una secuencia del usuario o en una secuencia que ya está en la base de datos. Esta herramienta identifica todos los marcos de lectura abiertos utilizando códigos genéticos estándar o alternativos. La secuencia de aminoácidos deducida se puede guardar en varios formatos y buscar en la base de datos de secuencias utilizando el servidor de la herramienta de búsqueda de alineación local básica (BLAST). El ORF Finder debería ser útil para preparar envíos de secuencias completos y precisos. También viene incluido con el software de envío de secuencias Lentejuelas (analizador de secuencias).

Investigador

ORF Investigator ^[16] es un programa que no sólo proporciona información sobre las secuencias codificantes y no codificantes, sino que también puede realizar una alineación global por pares de diferentes secuencias de genes/regiones de ADN. La herramienta encuentra eficientemente los ORF para las secuencias de aminoácidos correspondientes y los convierte en su código de aminoácidos de una sola letra y proporciona sus ubicaciones en la secuencia. La alineación global por pares entre las secuencias hace que sea conveniente detectar las diferentes mutaciones, incluido el polimorfismo de un solo nucleótido . Se utilizan algoritmos de Needleman-Wunsch para la alineación de genes. ORF Investigator está escrito en el lenguaje de programación portátil Perl y, por lo tanto, está disponible para los usuarios de todos los sistemas operativos comunes.

Vaticinador

OrfPredictor ^[17] es un servidor web diseñado para identificar regiones codificantes de proteínas en secuencias derivadas de etiquetas de secuencia expresadas (EST). Para secuencias de consulta con un acierto en BLASTX, el programa predice las regiones de codificación basándose en los marcos de lectura de traducción identificados en los alineamientos de BLASTX; de lo contrario, predice la región de codificación más probable basándose en las señales intrínsecas de las secuencias de consulta. El resultado son las secuencias peptídicas predichas en formato FASTA y una línea de definición que incluye el ID de consulta, el marco de lectura de la traducción y las posiciones de nucleótidos donde comienza y termina la región codificante. OrfPredictor facilita la anotación de secuencias derivadas de EST, en particular, para proyectos EST a gran escala.

ORF Predictor utiliza una combinación de las dos definiciones de ORF diferentes mencionadas anteriormente. Busca tramos que comienzan con un codón de inicio y terminan en un codón de parada. Como criterio adicional, busca un codón de parada en la región 5' no traducida (UTR o NTR, región no traducida ^[18] ).

ORFik

ORFik es un paquete R en Bioconductor para encontrar marcos de lectura abiertos y utilizar tecnologías de secuenciación de próxima generación para la justificación de ORF. ^[19] ^[20]

orfipy

orfipy es una herramienta escrita en Python / Cython para extraer ORF de una manera extremadamente rápida y flexible. ^[21] orfipy puede funcionar con secuencias FASTA y FASTQ simples o comprimidas con gzip, y proporciona varias opciones para ajustar las búsquedas ORF; estos incluyen especificar los codones de inicio y parada, informar ORF parciales y usar tablas de traducción personalizadas. Los resultados se pueden guardar en múltiples formatos, incluido el formato BED que ahorra espacio. orfipy es particularmente más rápido para datos que contienen múltiples secuencias FASTA más pequeñas, como conjuntos de transcriptomas de novo. ^[22]

Ver también

Región de codificación
gen putativo
Sequerome : una herramienta de creación de perfiles de secuencia que vincula cada registro BLAST con el ORF del NCBI , lo que permite un análisis ORF completo de un informe BLAST.
micropéptido

Referencias

^ ab Sieber P, Platzer M, Schuster S (marzo de 2018). "Revisión de la definición de marco de lectura abierto". Tendencias en Genética . 34 (3): 167-170. doi :10.1016/j.tig.2017.12.009. PMID 29366605.
^ Brody LC (25 de agosto de 2021). "Detener codón". Instituto Nacional de Investigaciones del Genoma Humano . Institutos Nacionales de Salud . Consultado el 25 de agosto de 2021 .
^ Slonczewski J, Foster JW (2009). Microbiología: una ciencia en evolución . Nueva York: WW Norton & Co. ISBN 978-0-393-97857-5. OCLC 185042615.
^ Clavérie JM (1997). "Métodos computacionales para la identificación de genes en secuencias genómicas de vertebrados". Genética Molecular Humana . 6 (10): 1735–44. doi : 10.1093/hmg/6.10.1735 . PMID 9300666.
^ abcde Deonier R, Tavaré S , Waterman M (2005). Análisis computacional del genoma: una introducción . Springer-Verlag . pag. 25.ISBN 978-0-387-98785-9.
^ Claverie JM, Poirot O, López F (1997). "La dificultad de identificar genes en secuencias anónimas de vertebrados". Computadoras y Química . 21 (4): 203–14. doi :10.1016/s0097-8485(96)00039-3. PMID 9415985.
^ Vakirlis, Nikolaos; Vance, Zoé; Duggan, Kate M.; McLysaght, Aoife (2022). "Nacimiento de novo de microproteínas funcionales en el linaje humano". Informes celulares . 41 (12): 111808. doi : 10.1016/j.celrep.2022.111808. PMC 10073203 . PMID 36543139. S2CID 254966620.
^ Kute, Preeti Madhav; Soukarieh, Omar; Tjeldnes, Håkon; Trégouët, David-Alexandre; Valen, Eivind (2022). "Pequeños marcos de lectura abiertos, cómo encontrarlos y determinar su función". Fronteras en genética . 12 : 796060. doi : 10.3389/fgene.2021.796060 . PMC 8831751 . PMID 35154250.
^ Zanet J, Benrabah E, Li T, Pélissier-Monier A, Chanut-Delalande H, Ronsin B, et al. (Septiembre de 2015). "Los péptidos Pri sORF inducen el procesamiento selectivo de proteínas mediado por proteasoma". Ciencia . 349 (6254): 1356-1358. Código Bib : 2015 Ciencia... 349.1356Z. doi : 10.1126/ciencia.aac5677. PMID 26383956. S2CID 206639549.
^ Wethmar K, Barbosa-Silva A, Andrade-Navarro MA, Leutz A (enero de 2014). "uORFdb: una base de datos bibliográfica completa sobre biología eucariota uORF". Investigación de ácidos nucleicos . 42 (Problema de la base de datos): D60 – D67. doi : 10.1093/nar/gkt952. PMC 3964959 . PMID 24163100.
^ Geballe, AP; Morris, DR (abril de 1994). "Codones de iniciación dentro de los líderes 5' de los ARNm como reguladores de la traducción". Tendencias en Ciencias Bioquímicas . 19 (4): 159–164. doi :10.1016/0968-0004(94)90277-1. ISSN 0968-0004. PMID 8016865.
^ Lee S, Liu B, Lee S, Huang SX, Shen B, Qian SB (septiembre de 2012). "Mapeo global de sitios de inicio de traducción en células de mamíferos con resolución de un solo nucleótido". Actas de la Academia Nacional de Ciencias de los Estados Unidos de América . 109 (37): E2424–E2432. doi : 10.1073/pnas.1207846109 . PMC 3443142 . PMID 22927429.
^ Schwartz AM, Putlyaeva LV, Covich M, Klepikova AV, Akulich KA, Vorontsov IE, et al. (octubre de 2016). "El factor 1 temprano de células B (EBF1) es fundamental para el control transcripcional del gen SLAMF1 en células B humanas". Biochimica et Biophysica Acta (BBA) - Mecanismos reguladores de genes . 1859 (10): 1259-1268. doi :10.1016/j.bbagrm.2016.07.004. PMID 27424222.
^ ab Pearson WR, Wood T, Zhang Z, Miller W (noviembre de 1997). "Comparación de secuencias de ADN con secuencias de proteínas". Genómica . 46 (1): 24–36. doi :10.1006/geno.1997.4995. PMID 9403055. S2CID 6413018.
^ "Buscador ORF". Centro Nacional de Información Biotecnológica .
^ Dhar DV, Kumar MS (2012). "ORF Investigator: una nueva herramienta de búsqueda de ORF que combina la alineación genética global por pares". Revista de investigación de ciencias recientes . 1 (11): 32–35.
^ "OrfPredictor". bioinformática.ysu.edu . Archivado desde el original el 22 de diciembre de 2015 . Consultado el 17 de diciembre de 2015 .
^ Carrington JC, Freed DD (abril de 1990). "Mejora de la traducción independiente de la tapa por una región no traducida 5 'de potyvirus vegetal". Revista de Virología . 64 (4): 1590–7. doi :10.1128/JVI.64.4.1590-1597.1990. PMC 249294 . PMID 2319646.
^ Kornel Labun, Haakon Tjeldnes (2018). "ORFik - Marcos de lectura abiertos en genómica". bioconductor.org . doi :10.18129/B9.bioc.ORFik.
^ Tjeldnes, Håkon; Labún, Kornel; Torres Cleuren, Yamila; Chyżyńska, Katarzyna; Świrski, Michał; Valen, Eivind (2021). "ORFik: un completo conjunto de herramientas de R para el análisis de la traducción". Bioinformática BMC . 22 (1): 336. doi : 10.1186/s12859-021-04254-w . PMC 8214792 . PMID 34147079.
^ Singh U, Wurtele ES (febrero de 2021). "orfipy: una herramienta rápida y flexible para extraer ORF". Bioinformática . 37 (18): 3019–3020. doi : 10.1093/bioinformática/btab090 . ISSN 1367-4803. PMC 8479652 . PMID 33576786.
^ Singh U (13 de febrero de 2021), urmi-21 / orfipy , consultado el 13 de febrero de 2021

enlaces externos

Traducción y marcos de lectura abiertos
hORFeome V5.1: una herramienta interactiva basada en web para CCSB Human ORFeome Collection
ORF Marker: una herramienta GUI de escritorio gratuita, rápida y multiplataforma para predecir y analizar ORF
StarORF: una herramienta GUI multiplataforma basada en Java para predecir y analizar ORF y obtener secuencia de complemento inverso
ORFPredictor Archivado el 22 de diciembre de 2015 en Wayback Machine : un servidor web diseñado para la predicción ORF y la traducción de un lote de secuencias EST o ADNc.