stringtranslate.com

Análisis de secuencia

 No confundir con  análisis secuencial , análisis de secuencia de polímeros sintéticos o análisis de secuencia en ciencias sociales .

En bioinformática , el análisis de secuencia es el proceso de someter una secuencia de ADN , ARN o péptido a cualquiera de una amplia gama de métodos analíticos para comprender sus características, función, estructura o evolución. Las metodologías utilizadas incluyen alineación de secuencias , búsquedas en bases de datos biológicas y otras. [1]

Desde que se desarrollaron métodos de producción de alto rendimiento de secuencias de genes y proteínas, la tasa de adición de nuevas secuencias a las bases de datos aumentó muy rápidamente. Tal colección de secuencias no aumenta, por sí sola, la comprensión de los científicos sobre la biología de los organismos. Sin embargo, comparar estas nuevas secuencias con aquellas con funciones conocidas es una forma clave de comprender la biología de un organismo del que proviene la nueva secuencia. Por tanto, el análisis de secuencias se puede utilizar para asignar funciones a genes y proteínas mediante el estudio de las similitudes entre las secuencias comparadas. Hoy en día, existen muchas herramientas y técnicas que proporcionan comparaciones de secuencias (alineamiento de secuencias) y analizan el producto de alineación para comprender su biología.

El análisis de secuencias en biología molecular incluye una amplia gama de temas relevantes:

  1. La comparación de secuencias para encontrar similitudes, a menudo para inferir si están relacionadas ( homólogas ).
  2. Identificación de características intrínsecas de la secuencia, como sitios activos , sitios de modificación postraduccional , estructuras genéticas , marcos de lectura , distribuciones de intrones y exones y elementos reguladores.
  3. Identificación de diferencias y variaciones de secuencia como mutaciones puntuales y polimorfismo de un solo nucleótido (SNP) para obtener el marcador genético .
  4. Revelando la evolución y diversidad genética de secuencias y organismos.
  5. Identificación de la estructura molecular a partir de la secuencia únicamente.

Historia

Desde que Fred Sanger caracterizó las primeras secuencias de la proteína insulina en 1951, los biólogos han intentado utilizar este conocimiento para comprender la función de las moléculas. [2] [3] Los descubrimientos de él y sus colegas contribuyeron a la secuenciación exitosa del primer genoma basado en ADN. [4] El método utilizado en este estudio, que se denomina “método Sanger” o secuenciación Sanger , fue un hito en la secuenciación de moléculas de cadena larga como el ADN. Este método finalmente se utilizó en el proyecto del genoma humano . [5] Según Michael Levitt , el análisis de secuencias nació en el período de 1969 a 1977. [6] En 1969 el análisis de secuencias de ARN de transferencia se utilizó para inferir interacciones de residuos a partir de cambios correlacionados en las secuencias de nucleótidos, dando lugar a un Modelo de la estructura secundaria del ARNt . [7] En 1970, Saul B. Needleman y Christian D. Wunsch publicaron el primer algoritmo informático para alinear dos secuencias. [8] Durante este tiempo, los avances en la obtención de secuencias de nucleótidos mejoraron enormemente, lo que llevó a la publicación del primer genoma completo de un bacteriófago en 1977. [9] Se creía que Robert Holley y su equipo de la Universidad de Cornell fueron los primeros en secuenciar un Molécula de ARN. [10]

Alineación de secuencia

Ejemplo de alineación de secuencias múltiples

Se conocen millones de secuencias de proteínas y nucleótidos . Estas secuencias se dividen en muchos grupos de secuencias relacionadas conocidas como familias de proteínas o familias de genes. Las relaciones entre estas secuencias generalmente se descubren alineándolas y asignando una puntuación a esta alineación. Hay dos tipos principales de alineación de secuencias. La alineación de secuencias por pares solo compara dos secuencias a la vez y la alineación de secuencias múltiples compara muchas secuencias. Dos algoritmos importantes para alinear pares de secuencias son el algoritmo Needleman-Wunsch y el algoritmo Smith-Waterman . Las herramientas populares para la alineación de secuencias incluyen:

Un uso común del alineamiento de secuencias por pares es tomar una secuencia de interés y compararla con todas las secuencias conocidas en una base de datos para identificar secuencias homólogas . En general, las coincidencias en la base de datos están ordenadas para mostrar primero las secuencias más estrechamente relacionadas, seguidas de las secuencias con similitud decreciente. Estas coincidencias generalmente se informan con una medida de significación estadística, como un valor de Expectativa .

Comparación de perfiles

En 1987, Michael Gribskov, Andrew McLachlan y David Eisenberg introdujeron el método de comparación de perfiles para identificar similitudes distantes entre proteínas. [11] En lugar de utilizar una secuencia única, los métodos de perfil utilizan una alineación de secuencia múltiple para codificar un perfil que contiene información sobre el nivel de conservación de cada residuo. Estos perfiles se pueden utilizar para buscar colecciones de secuencias y encontrar secuencias relacionadas. Los perfiles también se conocen como matrices de puntuación específicas de la posición (PSSM). En 1993, Anders Krogh y sus colegas introdujeron una interpretación probabilística de los perfiles utilizando modelos ocultos de Markov . [12] [13] Estos modelos se conocen como HMM de perfil.

En los últimos años, [ ¿cuándo? ] Se han desarrollado métodos que permiten comparar perfiles directamente entre sí. Estos se conocen como métodos de comparación perfil-perfil. [14]

Montaje de secuencia

El ensamblaje de secuencia se refiere a la reconstrucción de una secuencia de ADN mediante la alineación y fusión de pequeños fragmentos de ADN. Es una parte integral de la secuenciación de ADN moderna . Dado que las tecnologías de secuenciación de ADN disponibles actualmente no son adecuadas para leer secuencias largas, a menudo se secuencian grandes fragmentos de ADN (como los genomas) (1) cortando el ADN en trozos pequeños, (2) leyendo los fragmentos pequeños y (3) ) reconstituir el ADN original fusionando la información de varios fragmentos.

Recientemente, secuenciar múltiples especies al mismo tiempo es uno de los principales objetivos de la investigación. La metagenómica es el estudio de comunidades microbianas obtenidas directamente del medio ambiente. A diferencia de los microorganismos cultivados en el laboratorio, la muestra silvestre suele contener docenas, a veces incluso miles, de tipos de microorganismos de sus hábitats originales. [15] Recuperar los genomas originales puede resultar un gran desafío.

Predicción genética

La predicción de genes o búsqueda de genes se refiere al proceso de identificación de las regiones del ADN genómico que codifican genes . Esto incluye genes codificadores de proteínas así como genes de ARN , pero también puede incluir la predicción de otros elementos funcionales como regiones reguladoras . Geri es uno de los primeros y más importantes pasos para comprender el genoma de una especie una vez secuenciado . En general, la predicción de genes bacterianos es significativamente más simple y precisa que la predicción de genes en especies eucariotas que suelen tener patrones complejos de intrones / exones . La identificación de genes en secuencias largas sigue siendo un problema, especialmente cuando se desconoce el número de genes. Los modelos de Markov ocultos pueden ser parte de la solución. [16] El aprendizaje automático ha desempeñado un papel importante en la predicción de la secuencia de factores de transcripción. [17] El análisis de secuenciación tradicional se centró en los parámetros estadísticos de la secuencia de nucleótidos en sí (los programas más comunes utilizados se enumeran en la Tabla 4.1). Otro método consiste en identificar secuencias homólogas basadas en otras secuencias de genes conocidos (Herramientas, consulte la Tabla 4.3). [18] Los dos métodos descritos aquí se centran en la secuencia. Sin embargo, también se ha estudiado la característica de forma de estas moléculas, como el ADN y las proteínas, y se ha propuesto que tiene una influencia equivalente, si no mayor, en el comportamiento de estas moléculas. [19]

Predicción de la estructura de las proteínas.

Estructura de la proteína objetivo (3dsm, mostrada en cintas), con la columna vertebral de Calpha (en gris) de 354 modelos predichos presentados en el experimento de predicción de estructura CASP8.

Las estructuras tridimensionales de las moléculas son de gran importancia para sus funciones en la naturaleza. Dado que la predicción estructural de moléculas grandes a nivel atómico es un problema en gran medida intratable, algunos biólogos introdujeron formas de predecir la estructura tridimensional a nivel de secuencia primaria. Esto incluye el análisis bioquímico o estadístico de residuos de aminoácidos en regiones locales y la inferencia estructural a partir de homólogos (u otras proteínas potencialmente relacionadas) con estructuras 3D conocidas.

Ha habido una gran cantidad de enfoques diversos para resolver el problema de predicción de estructuras. Para determinar qué métodos eran más eficaces, se fundó un concurso de predicción de estructuras llamado CASP (Evaluación crítica de la predicción de estructuras). [20]

Metodología

Las tareas que se encuentran en el espacio del análisis de secuencias a menudo no son triviales de resolver y requieren el uso de enfoques relativamente complejos. De los muchos tipos de métodos utilizados en la práctica, los más populares incluyen:

Ver también

Referencias

  1. ^ Durbin, Richard M .; Eddy, Sean R .; Krogh, Anders ; Mitchison, Graeme (1998), Análisis de secuencia biológica: modelos probabilísticos de proteínas y ácidos nucleicos (1ª ed.), Cambridge, Nueva York: Cambridge University Press , ISBN 0-521-62971-3, OCLC  593254083
  2. ^ Sanger F; Tuppy H (septiembre de 1951). "La secuencia de aminoácidos en la cadena de fenilalanilo de la insulina. I. La identificación de péptidos inferiores a partir de hidrolizados parciales". Bioquímica. J. _ 49 (4): 463–81. doi :10.1042/bj0490463. PMC 1197535 . PMID  14886310. 
  3. ^ SANGER F; TUPPY H (septiembre de 1951). "La secuencia de aminoácidos en la cadena de fenilalanilo de la insulina. 2. La investigación de péptidos a partir de hidrolizados enzimáticos". Bioquímica. J. _ 49 (4): 481–90. doi :10.1042/bj0490481. PMC 1197536 . PMID  14886311. 
  4. ^ Sanger, F; Níquel, S; Coulson, AR (diciembre de 1977). "Secuenciación de ADN con inhibidores terminadores de cadena". Proc Natl Acad Sci Estados Unidos . 74 (12): 441–448. Código bibliográfico : 1977PNAS...74.5463S. doi : 10.1073/pnas.74.12.5463 . PMC 431765 . PMID  271968. 
  5. ^ Sanger, F; Aire, GM; Barril, BG; marrón, NL; Coulson, AR; Fiddes, California; Hutchison, California; Slocombe, PM; Smith, M (febrero de 1977). "Secuencia de nucleótidos del ADN del bacteriófago phi X174". Naturaleza . 265 (5596): 687–695. Código Bib :1977Natur.265..687S. doi :10.1038/265687a0. PMID  870828. S2CID  4206886.
  6. ^ Levitt M (mayo de 2001). "El nacimiento de la biología estructural computacional". Naturaleza Biología estructural y molecular . 8 (5): 392–3. doi :10.1038/87545. PMID  11323711. S2CID  6519868.
  7. ^ Levitt M (noviembre de 1969). "Modelo molecular detallado para la transferencia de ácido ribonucleico". Naturaleza . 224 (5221): 759–63. Código Bib :1969Natur.224..759L. doi :10.1038/224759a0. PMID  5361649. S2CID  983981.
  8. ^ Aguja SB; CD Wunsch (marzo de 1970). "Un método general aplicable a la búsqueda de similitudes en la secuencia de aminoácidos de dos proteínas". J. Mol. Biol . 48 (3): 443–53. doi :10.1016/0022-2836(70)90057-4. PMID  5420325.
  9. ^ Sanger F, Air GM, Barrell BG y col. (febrero de 1977). "Secuencia de nucleótidos del ADN del bacteriófago phi X174". Naturaleza . 265 (5596): 687–95. Código Bib :1977Natur.265..687S. doi :10.1038/265687a0. PMID  870828. S2CID  4206886.
  10. ^ Holley, RW; Apgar, J; Everett, Georgia; Madison, JT; Marquesa, M; Merrill, SH; Penswick, JR; Zamir, A (mayo de 1965). "Estructura de un ácido ribonucleico". Ciencia . 147 (3664): 1462-1465. Código bibliográfico : 1965 Ciencia... 147.1462H. doi : 10.1126/ciencia.147.3664.1462. PMID  14263761. S2CID  40989800.
  11. ^ Gribskov M; McLachlan AD; Eisenberg D (julio de 1987). "Análisis de perfiles: detección de proteínas lejanamente relacionadas". Proc. Nacional. Acad. Ciencia. EE.UU . 84 (13): 4355–8. Código bibliográfico : 1987PNAS...84.4355G. doi : 10.1073/pnas.84.13.4355 . PMC 305087 . PMID  3474607. 
  12. ^ Marrón M; Hughey R; Krogh A; Mián ES; Sjolander K; Haussler D (1993). "Uso de mezclas anteriores de Dirichlet para derivar modelos de Markov ocultos para familias de proteínas". Proc Int Conf Intell Syst Mol Biol . 1 : 47–55. PMID  7584370.
  13. ^ Krogh A; Marrón M; Mián ES; Sjolander K; Haussler D (febrero de 1994). "Modelos ocultos de Markov en biología computacional. Aplicaciones al modelado de proteínas". J. Mol. Biol . 235 (5): 1501–31. doi :10.1006/jmbi.1994.1104. PMID  8107089. S2CID  2160404.
  14. ^ Vosotros X; Wang G; Altschul SF (diciembre de 2011). "Una evaluación de las puntuaciones de sustitución para la comparación perfil-perfil de proteínas". Bioinformática . 27 (24): 3356–63. doi : 10.1093/bioinformática/btr565. PMC 3232366 . PMID  21998158. 
  15. ^ Wooley, JC; Godzik, A; Friedberg, I (26 de febrero de 2010). "Una introducción a la metagenómica". PLOS Comput Biol . 6 (2): e1000667. Código Bib : 2010PLSCB...6E0667W. doi : 10.1371/journal.pcbi.1000667 . PMC 2829047 . PMID  20195499. 
  16. ^ Stanke, M; Waack, S (19 de octubre de 2003). "Predicción de genes con un modelo de Markov oculto y un nuevo submodelo de intrones". Bioinformática . 19 Suplemento 2 (2): 215–25. doi : 10.1093/bioinformática/btg1080 . PMID  14534192.
  17. ^ Alipanahi, B; Delong, A; Weirauch, MT; Frey, BJ (agosto de 2015). "Predecir las especificidades de secuencia de las proteínas de unión a ADN y ARN mediante aprendizaje profundo". Nat Biotecnología . 33 (8): 831–8. doi : 10.1038/nbt.3300 . PMID  26213851.
  18. ^ Wooley, JC; Godzik, A; Friedberg, I (26 de febrero de 2010). "Una introducción a la metagenómica". PLOS Comput Biol . 6 (2): e1000667. Código Bib : 2010PLSCB...6E0667W. doi : 10.1371/journal.pcbi.1000667 . PMC 2829047 . PMID  20195499. 
  19. ^ Abe, N; Dror, yo; Yang, L; Slattery, M; Zhou, T; Bussemaker, HJ; Rohs R, R; Mann, RS (9 de abril de 2015). "Desconvolucionar el reconocimiento de la forma del ADN a partir de la secuencia". Celúla . 161 (2): 307–18. doi :10.1016/j.cell.2015.02.008. PMC 4422406 . PMID  25843630. 
  20. ^ Muda J; Hubbard T; Bryant SH; Fidelis K; Pedersen JT (1997). "Evaluación crítica de métodos de predicción de la estructura de proteínas (CASP): ronda II". Proteínas . Suplemento 1 (T1): 2–6. doi :10.1002/(SICI)1097-0134(1997)1+<2::AID-PROT2>3.0.CO;2-T. PMID  9485489. S2CID  26823924.