En bioinformática , el análisis de secuencias es el proceso de someter una secuencia de ADN , ARN o péptidos a cualquiera de una amplia gama de métodos analíticos para comprender sus características, función, estructura o evolución. Se puede realizar en todo el genoma, transcriptoma o proteoma de un organismo, y también puede involucrar solo segmentos o regiones seleccionados, como repeticiones en tándem y elementos transponibles. Las metodologías utilizadas incluyen alineamiento de secuencias , búsquedas en bases de datos biológicas y otras. [1]
Desde que se desarrollaron métodos de producción de alto rendimiento de secuencias de genes y proteínas, la tasa de adición de nuevas secuencias a las bases de datos aumentó muy rápidamente. Tal recopilación de secuencias, por sí sola, no aumenta la comprensión científica de la biología de los organismos. Sin embargo, comparar estas nuevas secuencias con aquellas con funciones conocidas es una forma clave de comprender la biología de un organismo del que proviene la nueva secuencia. Por lo tanto, el análisis de secuencias se puede utilizar para asignar funciones a regiones codificantes y no codificantes en una secuencia biológica, generalmente comparando secuencias y estudiando similitudes y diferencias. Hoy en día, existen muchas herramientas y técnicas que proporcionan las comparaciones de secuencias (alineamiento de secuencias) y analizan el producto del alineamiento para comprender su biología.
El análisis de secuencias en biología molecular incluye una amplia gama de procesos:
Desde que Fred Sanger caracterizó las primeras secuencias de la proteína insulina en 1951, los biólogos han intentado utilizar este conocimiento para comprender la función de las moléculas. [2] [3] Los descubrimientos de él y sus colegas contribuyeron a la secuenciación exitosa del primer genoma basado en ADN. [4] El método utilizado en este estudio, que se denomina "método Sanger" o secuenciación Sanger , fue un hito en la secuenciación de moléculas de cadena larga como el ADN. Este método se utilizó finalmente en el proyecto del genoma humano . [5] Según Michael Levitt , el análisis de secuencias nació en el período de 1969 a 1977. [6] En 1969, el análisis de secuencias de ARN de transferencia se utilizó para inferir interacciones de residuos a partir de cambios correlacionados en las secuencias de nucleótidos, dando lugar a un modelo de la estructura secundaria del ARNt . [7] En 1970, Saul B. Needleman y Christian D. Wunsch publicaron el primer algoritmo informático para alinear dos secuencias. [8] Durante este tiempo, los avances en la obtención de secuencias de nucleótidos mejoraron enormemente, lo que llevó a la publicación del primer genoma completo de un bacteriófago en 1977. [9] Se cree que Robert Holley y su equipo en la Universidad de Cornell fueron los primeros en secuenciar una molécula de ARN. [10]
Los análisis de secuencias de nucleótidos identifican elementos funcionales como sitios de unión de proteínas, descubren variaciones genéticas como SNP, estudian patrones de expresión génica y comprenden la base genética de los rasgos. Ayudan a comprender los mecanismos que contribuyen a procesos como la replicación y la transcripción. Algunas de las tareas involucradas se describen a continuación.
El control de calidad evalúa la calidad de las lecturas de secuenciación obtenidas a partir de la tecnología de secuenciación (por ejemplo, Illumina ). Es el primer paso en el análisis de secuencias para limitar las conclusiones erróneas debido a datos de mala calidad. Las herramientas utilizadas en esta etapa dependen de la plataforma de secuenciación. Por ejemplo, FastQC verifica la calidad de lecturas cortas (incluidas las secuencias de ARN), Nanoplot o PycoQC se utilizan para secuencias de lecturas largas (por ejemplo, lecturas de secuencias de Nanopore) y MultiQC agrega el resultado de FastQC en un formato de página web. [11] [12] [13]
El control de calidad proporciona información como longitudes de lectura, contenido de GC , presencia de secuencias adaptadoras (para lecturas cortas) y una puntuación de calidad, que a menudo se expresa en una escala PHRED . [14] Si hay adaptadores u otros artefactos de la amplificación por PCR en las lecturas (particularmente lecturas cortas), se eliminan utilizando software como Trimmomatic [15] o Cutadapt. [16]
En este paso, las lecturas de secuenciación cuya calidad se ha mejorado se asignan a un genoma de referencia utilizando herramientas de alineamiento como BWA [17] para lecturas de secuencias de ADN cortas, minimap [18] para secuencias de ADN de lecturas largas y STAR [19] para lecturas de secuencias de ARN. El propósito del mapeo es encontrar el origen de cualquier lectura dada en función de la secuencia de referencia. También es importante para detectar variaciones o estudios filogenéticos . El resultado de este paso, es decir, las lecturas alineadas, se almacenan en formatos de archivo compatibles conocidos como SAM, que contienen información sobre el genoma de referencia, así como lecturas individuales. Alternativamente, se prefieren los formatos de archivo BAM , ya que utilizan mucho menos espacio de escritorio o de almacenamiento. [14]
Nota : Esto es diferente de la alineación de secuencias, que compara dos o más secuencias completas (o regiones de secuencia) para cuantificar la similitud o las diferencias o para identificar una secuencia desconocida (como se analiza a continuación).
Los siguientes pasos de análisis son propios de las secuencias de ADN:
La identificación de variantes es un aspecto popular del análisis de secuencias, ya que las variantes a menudo contienen información de importancia biológica, como la explicación del mecanismo de resistencia a los fármacos en una enfermedad infecciosa. Estas variantes pueden ser variantes de un solo nucleótido (SNV), pequeñas inserciones/deleciones (indel) y grandes variantes estructurales . Las alineaciones de lectura se ordenan utilizando SAMtools , después de lo cual se utilizan los llamadores de variantes como GATK [20] para identificar diferencias en comparación con la secuencia de referencia.
La elección de la herramienta de llamada de variantes depende en gran medida de la tecnología de secuenciación utilizada, por lo que GATK se utiliza a menudo cuando se trabaja con lecturas cortas, mientras que las secuencias de lecturas largas requieren herramientas como DeepVariant [21] y Sniffles. [22] Las herramientas también pueden diferir según el organismo (procariotas o eucariotas), la fuente de datos de secuencia (cáncer vs metagenómico ) y el tipo de variante de interés (SNV o variantes estructurales). El resultado de la llamada de variantes suele estar en formato vcf y se puede filtrar utilizando frecuencias de alelos, puntuaciones de calidad u otros factores en función de la pregunta de investigación en cuestión. [14]
Este paso agrega contexto a los datos de las variantes utilizando información seleccionada de artículos revisados por pares y bases de datos disponibles públicamente como gnomAD y Ensembl . Las variantes se pueden anotar con información sobre características genómicas, consecuencias funcionales, elementos reguladores y frecuencias poblacionales utilizando herramientas como ANNOVAR o SnpEff, [23] o scripts y pipelines personalizados. El resultado de este paso es un archivo de anotación en formato bed o txt. [14]
Los datos genómicos, como alineaciones de lecturas, gráficos de cobertura y llamadas de variantes, se pueden visualizar utilizando navegadores genómicos como IGV (Integrative Genomics Viewer) o UCSC Genome Browser. La interpretación de los resultados se realiza en el contexto de la pregunta biológica o hipótesis bajo investigación. El resultado puede ser una representación gráfica de los datos en forma de gráficos de Circos, gráficos de volcanes, etc., u otras formas de informe que describan las observaciones. [14]
El análisis de la secuencia de ADN también podría implicar modelos estadísticos para inferir relaciones y análisis epigenéticos, como la identificación de regiones de metilación diferencial utilizando una herramienta como DSS.
Los siguientes pasos son propios de las secuencias de ARN:
Las secuencias de ARN mapeadas se analizan para estimar los niveles de expresión génica utilizando herramientas de cuantificación como HTSeq, [24] e identificar genes expresados diferencialmente (DEG) entre condiciones experimentales utilizando métodos estadísticos como DESeq2 . [25] Esto se lleva a cabo para comparar los niveles de expresión de genes o isoformas entre o a través de diferentes muestras, e inferir relevancia biológica. [14] El resultado del análisis de expresión génica es típicamente una tabla con valores que representan los niveles de expresión de los identificadores o nombres de genes en filas y muestras en las columnas, así como errores estándar y valores p. Los resultados en la tabla se pueden visualizar aún más utilizando gráficos de volcanes y mapas de calor, donde los colores representan el nivel de expresión estimado. Paquetes como ggplot2 en R y Matplotlib en Python se utilizan a menudo para crear las imágenes. La tabla también se puede anotar utilizando un archivo de anotación de referencia, generalmente en formato GTF o GFF para proporcionar más contexto sobre los genes, como el nombre del cromosoma, la cadena y el inicio y las posiciones, y ayudar a la interpretación de los resultados. [14] [12] [13] [26]
El análisis de enriquecimiento funcional identifica los procesos biológicos, las vías y los impactos funcionales asociados con los genes expresados diferencialmente obtenidos en el paso anterior. Utiliza herramientas como GOSeq [27] y Pathview [28] . Esto crea una tabla con información sobre qué vías y procesos moleculares están asociados con los genes expresados diferencialmente, qué genes están regulados a la baja o al alza y qué términos de ontología génica son recurrentes o están sobrerrepresentados. [14] [12] [13] [26]
El análisis de secuencias de ARN permite explorar la dinámica de la expresión génica y los mecanismos reguladores que subyacen a los procesos biológicos y las enfermedades. La interpretación de imágenes y tablas se lleva a cabo en el contexto de las hipótesis investigadas.
Ver también: Tecnologías transcriptómicas .
El análisis de la secuencia del proteoma estudia el conjunto completo de proteínas expresadas por un organismo o una célula en condiciones específicas. Describe la estructura, la función, las modificaciones postraduccionales y las interacciones de las proteínas dentro de los sistemas biológicos. Suele comenzar con datos de espectrometría de masas (MS) sin procesar de experimentos de proteómica, normalmente en formatos de archivo mzML, mzXML o RAW. [14]
Además del preprocesamiento de los datos de MS sin procesar para eliminar el ruido, normalizar las intensidades y detectar picos, y convertir formatos de archivo propietarios (por ejemplo, RAW) a formatos de código abierto (mzML, mzXML) para la compatibilidad con herramientas de análisis posteriores, otros pasos analíticos incluyen la identificación de péptidos , la cuantificación de péptidos, la inferencia y cuantificación de proteínas, la generación de informes de control de calidad y la normalización, imputación y prueba de significancia. La elección y el orden de los pasos analíticos dependen del método de MS utilizado, que puede ser adquisición dependiente de datos (DDA) o adquisición independiente (DIA). [14] [29]
Los navegadores genómicos ofrecen una interfaz fácil de usar y sin código para visualizar genomas y segmentos genómicos, identificar características genómicas y analizar la relación entre numerosos elementos genómicos. Los tres navegadores genómicos principales (el navegador genómico Ensembl, el navegador genómico UCSC y el Centro Nacional de Información Biotecnológica [NCBI]) admiten diferentes procedimientos de análisis de secuencias, incluido el ensamblaje del genoma, la anotación del genoma y la genómica comparativa, como la exploración de patrones de expresión diferencial y la identificación de regiones conservadas. Todos los navegadores admiten múltiples formatos de datos para cargar y descargar y proporcionan enlaces a herramientas y recursos externos para análisis de secuencias, lo que contribuye a su versatilidad. [30] [31]
Se conocen millones de secuencias de proteínas y nucleótidos . Estas secuencias se dividen en muchos grupos de secuencias relacionadas conocidas como familias de proteínas o familias de genes. Las relaciones entre estas secuencias se descubren normalmente alineándolas entre sí y asignándoles una puntuación. Hay dos tipos principales de alineación de secuencias. La alineación de secuencias por pares solo compara dos secuencias a la vez y la alineación de secuencias múltiples compara muchas secuencias. Dos algoritmos importantes para alinear pares de secuencias son el algoritmo Needleman-Wunsch y el algoritmo Smith-Waterman . Las herramientas populares para la alineación de secuencias incluyen:
Un uso común de la alineación de secuencias por pares es tomar una secuencia de interés y compararla con todas las secuencias conocidas en una base de datos para identificar secuencias homólogas . En general, las coincidencias en la base de datos se ordenan para mostrar primero las secuencias más relacionadas, seguidas de las secuencias con similitud decreciente. Estas coincidencias generalmente se informan con una medida de significancia estadística, como un valor de expectativa .
En 1987, Michael Gribskov, Andrew McLachlan y David Eisenberg introdujeron el método de comparación de perfiles para identificar similitudes distantes entre proteínas. [32] En lugar de utilizar una sola secuencia, los métodos de perfil utilizan una alineación de secuencias múltiples para codificar un perfil que contiene información sobre el nivel de conservación de cada residuo. Estos perfiles pueden usarse para buscar colecciones de secuencias para encontrar secuencias que estén relacionadas. Los perfiles también se conocen como matrices de puntuación de posición específica (PSSM). En 1993, Anders Krogh y sus colegas introdujeron una interpretación probabilística de los perfiles utilizando modelos ocultos de Markov . [33] [34] Estos modelos se conocen como perfiles-HMM.
En los últimos años se han desarrollado métodos que permiten comparar perfiles directamente entre sí , conocidos como métodos de comparación perfil-perfil. [35]
El ensamblaje de secuencias se refiere a la reconstrucción de una secuencia de ADN mediante la alineación y fusión de pequeños fragmentos de ADN. Es una parte integral de la secuenciación de ADN moderna . Dado que las tecnologías de secuenciación de ADN disponibles en la actualidad no son adecuadas para leer secuencias largas, los fragmentos grandes de ADN (como los genomas) a menudo se secuencian (1) cortando el ADN en trozos pequeños, (2) leyendo los fragmentos pequeños y (3) reconstituyendo el ADN original fusionando la información de varios fragmentos.
Recientemente, la secuenciación de múltiples especies a la vez es uno de los principales objetivos de investigación. La metagenómica es el estudio de las comunidades microbianas obtenidas directamente del medio ambiente. A diferencia de los microorganismos cultivados en el laboratorio, la muestra silvestre suele contener docenas, a veces incluso miles, de tipos de microorganismos de sus hábitats originales. [36] Recuperar los genomas originales puede resultar muy complicado.
La predicción genética o hallazgo de genes se refiere al proceso de identificación de las regiones del ADN genómico que codifican genes . Esto incluye genes codificadores de proteínas , así como genes de ARN , pero también puede incluir la predicción de otros elementos funcionales como regiones reguladoras . Geri es uno de los primeros y más importantes pasos para comprender el genoma de una especie una vez que se ha secuenciado . En general, la predicción de genes bacterianos es significativamente más simple y precisa que la predicción de genes en especies eucariotas que suelen tener patrones intrones / exones complejos . Identificar genes en secuencias largas sigue siendo un problema, especialmente cuando se desconoce el número de genes. Los modelos ocultos de Markov pueden ser parte de la solución. [37] El aprendizaje automático ha desempeñado un papel importante en la predicción de la secuencia de factores de transcripción. [38] El análisis de secuenciación tradicional se centró en los parámetros estadísticos de la propia secuencia de nucleótidos (los programas más comunes utilizados se enumeran en la Tabla 4.1). Otro método es identificar secuencias homólogas basándose en otras secuencias de genes conocidas (Herramientas, consulte la Tabla 4.3). [39] Los dos métodos descritos aquí se centran en la secuencia. Sin embargo, también se han estudiado las características de forma de estas moléculas, como el ADN y las proteínas, y se ha propuesto que tienen una influencia equivalente, si no mayor, en el comportamiento de estas moléculas. [40]
Las estructuras tridimensionales de las moléculas son de suma importancia para sus funciones en la naturaleza. Dado que la predicción estructural de moléculas grandes a nivel atómico es un problema en gran medida insoluble, algunos biólogos introdujeron métodos para predecir la estructura tridimensional a nivel de secuencia primaria. Esto incluye el análisis bioquímico o estadístico de los residuos de aminoácidos en regiones locales y la inferencia estructural a partir de homólogos (u otras proteínas potencialmente relacionadas) con estructuras tridimensionales conocidas.
Se han utilizado numerosos enfoques diferentes para resolver el problema de la predicción de estructuras. Para determinar qué métodos eran los más eficaces, se creó una competición de predicción de estructuras denominada CASP (Critical Assessment of Structure Prediction). [41]
Las tareas de análisis de secuencias suelen ser complejas de resolver y requieren el uso de métodos relativamente complejos, muchos de los cuales son la columna vertebral de muchas herramientas de análisis de secuencias existentes. De los muchos métodos que se utilizan en la práctica, los más populares incluyen los siguientes: