En biología molecular , los marcos de lectura se definen como tramos de secuencia de ADN entre los codones de inicio y de terminación . Por lo general, esto se considera dentro de una región estudiada de una secuencia de ADN procariota , donde solo uno de los seis marcos de lectura posibles estará "abierto" (la "lectura", sin embargo, se refiere al ARN producido por la transcripción del ADN y su posterior interacción con el ribosoma en la traducción ). Tal ORF puede [1] contener un codón de inicio (generalmente AUG en términos de ARN ) y, por definición, no puede extenderse más allá de un codón de terminación (generalmente UAA, UAG o UGA en ARN). [2] Ese codón de inicio (no necesariamente el primero) indica dónde puede comenzar la traducción. El sitio de terminación de la transcripción se encuentra después del ORF, más allá del codón de terminación de la traducción. Si la transcripción cesara antes del codón de terminación, se produciría una proteína incompleta durante la traducción. [3]
En los genes eucariotas con múltiples exones , los intrones se eliminan y los exones se unen después de la transcripción para producir el ARNm final para la traducción de proteínas. En el contexto de la búsqueda de genes , la definición de inicio-parada de un ORF solo se aplica a los ARNm empalmados , no al ADN genómico, ya que los intrones pueden contener codones de parada y/o causar cambios entre marcos de lectura. Una definición alternativa dice que un ORF es una secuencia que tiene una longitud divisible por tres y está limitada por codones de parada. [1] [4] Esta definición más general puede ser útil en el contexto de la transcriptómica y la metagenómica , donde un codón de inicio o parada puede no estar presente en las secuencias obtenidas. Tal ORF corresponde a partes de un gen en lugar del gen completo.
Un uso común de los marcos de lectura abiertos (ORF) es como una pieza de evidencia para ayudar en la predicción de genes . Los ORF largos se utilizan a menudo, junto con otra evidencia, para identificar inicialmente regiones codificantes de proteínas candidatas o regiones codificantes de ARN funcionales en una secuencia de ADN . [5] La presencia de un ORF no significa necesariamente que la región siempre se traduzca . Por ejemplo, en una secuencia de ADN generada aleatoriamente con un porcentaje igual de cada nucleótido , se esperaría un codón de parada una vez cada 21 codones . [5] Un algoritmo simple de predicción de genes para procariotas podría buscar un codón de inicio seguido de un marco de lectura abierto que sea lo suficientemente largo para codificar una proteína típica, donde el uso de codones de esa región coincida con la frecuencia característica de las regiones codificantes del organismo dado. [5] Por lo tanto, algunos autores dicen que un ORF debe tener una longitud mínima, por ejemplo, 100 codones [6] o 150 codones. [5] Por sí solo, incluso un marco de lectura abierto largo no es evidencia concluyente de la presencia de un gen . [5]
Algunos ORF cortos (sORFs), también llamados marcos de lectura abiertos pequeños , [7] generalmente <100 codones de longitud, [8] que carecen de las características clásicas de los genes codificadores de proteínas (tanto de ncRNAs como de mRNAs) pueden producir péptidos funcionales. [9] Se sabe que 5'-UTR de aproximadamente el 50% de los ARNm de mamíferos contienen uno o varios sORF, [10] también llamados ORFs upstream o uORFs . Sin embargo, menos del 10% de los ARNm de vertebrados examinados en un estudio anterior contenían codones AUG delante del ORF principal. Curiosamente, se encontraron uORFs en dos tercios de los protooncogenes y proteínas relacionadas. [11] El 64–75% de los sitios de inicio de la traducción de sORF encontrados experimentalmente se conservan en los genomas de humanos y ratones y pueden indicar que estos elementos tienen función. [12] Sin embargo, los sORFs a menudo se encuentran solo en las formas menores de los ARNm y evitan la selección; la alta conservación de los sitios de iniciación puede estar relacionada con su ubicación dentro de los promotores de los genes relevantes. Esto es característico del gen SLAMF1 , por ejemplo. [13]
Como el ADN se interpreta en grupos de tres nucleótidos (codones), una cadena de ADN tiene tres marcos de lectura distintos. [14] La doble hélice de una molécula de ADN tiene dos cadenas antiparalelas; como cada una de las dos cadenas tiene tres marcos de lectura, hay seis posibles traducciones de marcos. [14]
El ORF Finder (Open Reading Frame Finder) [15] es una herramienta de análisis gráfico que encuentra todos los marcos de lectura abiertos de un tamaño mínimo seleccionable en la secuencia de un usuario o en una secuencia que ya se encuentra en la base de datos. Esta herramienta identifica todos los marcos de lectura abiertos utilizando los códigos genéticos estándar o alternativos. La secuencia de aminoácidos deducida se puede guardar en varios formatos y buscar en la base de datos de secuencias utilizando el servidor de la herramienta de búsqueda de alineamiento local básico (BLAST). El ORF Finder debería ser útil para preparar presentaciones de secuencias completas y precisas. También se incluye con el software de presentación de secuencias de Shine (analizador de secuencias).
ORF Investigator [16] es un programa que no solo brinda información sobre las secuencias codificantes y no codificantes, sino que también puede realizar un alineamiento global por pares de secuencias de diferentes regiones de genes/ADN. La herramienta encuentra de manera eficiente los ORF para las secuencias de aminoácidos correspondientes y los convierte en su código de aminoácido de una sola letra, y proporciona sus ubicaciones en la secuencia. El alineamiento global por pares entre las secuencias hace que sea conveniente detectar las diferentes mutaciones, incluido el polimorfismo de un solo nucleótido . Los algoritmos Needleman-Wunsch se utilizan para el alineamiento de genes. ORF Investigator está escrito en el lenguaje de programación portátil Perl y, por lo tanto, está disponible para los usuarios de todos los sistemas operativos comunes.
OrfPredictor [17] es un servidor web diseñado para identificar regiones codificantes de proteínas en secuencias derivadas de etiquetas de secuencia expresadas (EST). Para las secuencias de consulta con un resultado en BLASTX, el programa predice las regiones codificantes basándose en los marcos de lectura de traducción identificados en las alineaciones de BLASTX; de lo contrario, predice la región codificante más probable basándose en las señales intrínsecas de las secuencias de consulta. El resultado son las secuencias de péptidos predichas en el formato FASTA y una línea de definición que incluye el ID de consulta, el marco de lectura de traducción y las posiciones de nucleótidos donde comienza y termina la región codificante. OrfPredictor facilita la anotación de secuencias derivadas de EST, en particular, para proyectos EST a gran escala.
ORF Predictor utiliza una combinación de las dos definiciones de ORF mencionadas anteriormente. Busca tramos que comienzan con un codón de inicio y terminan en un codón de terminación. Como criterio adicional, busca un codón de terminación en la región no traducida 5' (UTR o NTR, región no traducida [18] ).
ORFik es un paquete R en Bioconductor para encontrar marcos de lectura abiertos y utilizar tecnologías de secuenciación de próxima generación para la justificación de ORF. [19] [20]
orfipy es una herramienta escrita en Python / Cython para extraer ORFs de una manera extremadamente rápida y flexible. [21] orfipy puede trabajar con secuencias FASTA y FASTQ simples o comprimidas, y proporciona varias opciones para afinar las búsquedas de ORFs; estas incluyen especificar los codones de inicio y de fin, informar ORFs parciales y usar tablas de traducción personalizadas. Los resultados se pueden guardar en múltiples formatos, incluido el formato BED que ahorra espacio. orfipy es particularmente más rápido para datos que contienen múltiples secuencias FASTA más pequeñas, como ensamblajes de transcriptomas de novo. [22]