Base de datos de secuencias

En el campo de la bioinformática , una base de datos de secuencias es un tipo de base de datos biológica que se compone de una gran colección de secuencias de ácidos nucleicos , secuencias de proteínas u otras secuencias de polímeros informatizadas (" digitales ") almacenadas en una computadora. La base de datos UniProt es un ejemplo de una base de datos de secuencias de proteínas . En 2013 contenía más de 40 millones de secuencias y está creciendo a un ritmo exponencial. ^[1] Históricamente, las secuencias se publicaban en formato papel, pero a medida que crecía el número de secuencias, este método de almacenamiento se volvió insostenible.

Buscar

La búsqueda en una base de datos de secuencias implica buscar similitudes entre una secuencia genómica o proteica y una cadena de consulta y encontrar la secuencia en la base de datos que "mejor" coincida con la secuencia de destino (según criterios que varían según el método de búsqueda). La cantidad de coincidencias/resultados se utiliza para formular una puntuación que determina la similitud entre la consulta de secuencia y las secuencias en la base de datos de secuencias. ^[2] El objetivo principal es tener un buen equilibrio entre los dos criterios.

Historia

1950

La necesidad de bases de datos de secuencias surgió en 1950, cuando Frederick Sanger informó sobre la estructura primaria de la insulina. Ganó su segundo Premio Nobel por crear métodos para secuenciar ácidos nucleicos, y su enfoque comparativo fue lo que impulsó a otros bioquímicos de proteínas a comenzar a recopilar secuencias de aminoácidos, marcando así el comienzo de las bases de datos moleculares. ^[3]

1960

En 1965, Margaret Dayhoff y su equipo de la Fundación Nacional de Investigación Biomédica (NBRF) publicaron "El Atlas de la secuencia y la estructura de las proteínas". En él, incluyeron todas las secuencias de proteínas conocidas , incluso material inédito. Esto puede considerarse como el primer intento de crear una base de datos molecular. Utilizaron el recién creado Sistema de Análisis y Recuperación de Literatura Médica (MEDLARS) (1964) de los Institutos Nacionales de Salud (NIH). El equipo utilizó ordenadores para almacenar los datos, pero tuvo que escribir y corregir manualmente cada secuencia, lo que supuso un elevado coste en tiempo y dinero. ^[3]

En 1966, el equipo publicó la segunda edición del Atlas, que duplicaba el tamaño de la primera. Contenía alrededor de 1000 secuencias y esta vez se consideró una explosión de información. La Fundación Nacional de Investigación Biomédica (NBRF) estaba a la vanguardia de la utilización de computadoras para la medicina y la biología en ese momento. Dayhoff y su equipo utilizaron sus instalaciones para determinar las secuencias de aminoácidos de las moléculas de proteínas en computadoras centrales. El número de secuencias descubiertas continuó creciendo, lo que permitió un análisis comparativo de proteínas más profundo que nunca antes. Esto condujo a muchos desarrollos, como modelos probabilísticos de sustituciones de aminoácidos, alineación de secuencias y árboles filogenéticos de relaciones evolutivas de proteínas. ^[3]

1970

Todo el proceso de secuenciación quedó totalmente automatizado. ^[3]

1980

Se creó la primera base de datos de secuencias de nucleótidos, conocida anteriormente como Biblioteca de datos de secuencias de nucleótidos del Laboratorio Europeo de Biología Molecular (EMBL) (ahora conocida como Archivo Europeo de Nucleótidos). El Proyecto Genoma Humano comenzó en 1988. El objetivo del proyecto era secuenciar y mapear todos los genes de un ser humano, lo que requería la capacidad de crear y utilizar una gran base de datos de secuencias. ^[4]

En la actualidad

Actualmente contamos con numerosas bases de datos de secuencias, herramientas para utilizarlas y un fácil acceso a ellas. Una de las más grandes es GenBank , que contiene más de 2 mil millones de secuencias. ^[3]

Cronología

Cuestiones actuales

Almacenamiento y redundancia

Los registros en las bases de datos de secuencias proceden de una amplia gama de fuentes, desde investigadores individuales hasta grandes centros de secuenciación genómica. Como resultado, las secuencias en sí mismas, y especialmente las anotaciones biológicas adjuntas a estas secuencias, pueden variar en calidad. Existe mucha redundancia, ya que varios laboratorios pueden enviar numerosas secuencias que son idénticas, o casi idénticas, a otras en las bases de datos. ^[5]

Muchas anotaciones de secuencias no se basan en experimentos de laboratorio, sino en los resultados de búsquedas de similitud de secuencias para secuencias anotadas previamente. Una vez que una secuencia ha sido anotada en función de su similitud con otras, y depositada en la base de datos, también puede convertirse en la base para futuras anotaciones. Esto puede conducir a un problema de anotación transitiva porque puede haber varias transferencias de anotaciones de este tipo por similitud de secuencia entre un registro de base de datos particular y la información experimental real de laboratorio . ^[6] Por lo tanto, se debe tener cuidado al interpretar los datos de anotación de las bases de datos de secuencias.

Métodos de puntuación

La mayoría de los algoritmos de búsqueda de bases de datos actuales clasifican la alineación mediante una puntuación, que suele ser un sistema de puntuación particular. ^[7] La solución para resolver este problema se encuentra poniendo a disposición una variedad de sistemas de puntuación que se adapten al problema específico.

Estadísticas de alineación

Cuando utilizamos un algoritmo de búsqueda, a menudo producimos una lista ordenada que muchas veces puede carecer de significado biológico. ^[8]

Véase también

Referencias

^ Cochrane, G.; Karsch-Mizrachi, I.; Nakamura, Y. (23 de noviembre de 2010). "La colaboración internacional de bases de datos de secuencias de nucleótidos". Nucleic Acids Research . 39 (Base de datos): D15–D18. doi :10.1093/nar/gkq1150. PMC 3013722 . PMID 21106499.
^ Sung, Wing-Kin (2010). Algoritmos en bioinformática: una introducción práctica. Boca Raton: Chapman & Hall/CRC Press. p. 109. ISBN 9781420070330.
^ abcde Hagen, Joel B. (2011), Hamacher, Michael; Eisenacher, Martin; Stephan, Christian (eds.), "El origen y la recepción temprana de las bases de datos de secuencias", Minería de datos en proteómica: de los estándares a las aplicaciones , Métodos en biología molecular, vol. 696, Totowa, NJ: Humana Press, págs. 61–77, doi :10.1007/978-1-60761-987-1_4, ISBN 978-1-60761-987-1, PMID 21063941 , consultado el 5 de mayo de 2022
^ "Historia < EMBL-EBI". www.ebi.ac.uk . Consultado el 5 de mayo de 2022 .
^ Sikic, K.; Carugo, O. (2010). "Reducción de redundancia de secuencias de proteínas: comparación de varios métodos". Bioinformación . 5 (6): 234–9. doi :10.6026/97320630005234. PMC 3055704 . PMID 21364823.
^ Iliopoulos, I.; Tsoka, S.; Andrade, MA.; Enright, AJ.; Carroll, M.; Poullet, P.; Promponas, V.; Liakopoulos, T.; et al. (abril de 2003). "Evaluación de estrategias de anotación utilizando una secuencia completa del genoma". Bioinformática . 19 (6): 717–26. doi : 10.1093/bioinformatics/btg077 . PMID 12691983.
^ Altschul, Stephen; Boguski, Mark; Gish, Warren; Wootton, John (1994). "Problemas en la búsqueda de bases de datos de secuencias moleculares" (PDF) . Nature Genetics . 6 (2). Nature Publishing Group: 119–129. doi :10.1038/ng0294-119. PMID 8162065. S2CID 270160.
^ Altschul, Stephen; Boguski, Mark; Gish, Warren; Wootton, John (1994). "Problemas en la búsqueda de bases de datos de secuencias moleculares" (PDF) . Nature Genetics . 6 (2). Nature Publishing Group: 119–129. doi :10.1038/ng0294-119. PMID 8162065. S2CID 270160.

Enlaces externos

Bases de datos del Instituto Europeo de Bioinformática
Genomas completamente secuenciados por el NCBI
Base de datos del genoma de Saccharomyces de Stanford
Proteína, la base de datos de proteínas del NIH , una colección de secuencias de varias fuentes, incluidas traducciones de regiones codificantes anotadas en GenBank , RefSeq y TPA, así como registros de SwissProt , PIR , PRF y PDB