En el campo de la bioinformática , una base de datos de secuencias es un tipo de base de datos biológica que se compone de una gran colección de secuencias de ácidos nucleicos , secuencias de proteínas u otras secuencias de polímeros informatizadas (" digitales ") almacenadas en una computadora. La base de datos UniProt es un ejemplo de una base de datos de secuencias de proteínas . En 2013 contenía más de 40 millones de secuencias y está creciendo a un ritmo exponencial. [1] Históricamente, las secuencias se publicaban en formato papel, pero a medida que crecía el número de secuencias, este método de almacenamiento se volvió insostenible.
La búsqueda en una base de datos de secuencias implica buscar similitudes entre una secuencia genómica o proteica y una cadena de consulta y encontrar la secuencia en la base de datos que "mejor" coincida con la secuencia de destino (según criterios que varían según el método de búsqueda). La cantidad de coincidencias/resultados se utiliza para formular una puntuación que determina la similitud entre la consulta de secuencia y las secuencias en la base de datos de secuencias. [2] El objetivo principal es tener un buen equilibrio entre los dos criterios.
La necesidad de bases de datos de secuencias surgió en 1950, cuando Frederick Sanger informó sobre la estructura primaria de la insulina. Ganó su segundo Premio Nobel por crear métodos para secuenciar ácidos nucleicos, y su enfoque comparativo fue lo que impulsó a otros bioquímicos de proteínas a comenzar a recopilar secuencias de aminoácidos, marcando así el comienzo de las bases de datos moleculares. [3]
En 1965, Margaret Dayhoff y su equipo de la Fundación Nacional de Investigación Biomédica (NBRF) publicaron "El Atlas de la Secuencia y Estructura de las Proteínas". En el Atlas pusieron todas las secuencias de proteínas conocidas , incluso material inédito. Esto puede considerarse como el primer intento de crear una base de datos molecular. Hicieron uso del recién computarizado (1964) Sistema de Análisis y Recuperación de Literatura Médica (MEDLARS) de los Institutos Nacionales de Salud (NIH). El equipo utilizó computadoras para almacenar los datos, pero tuvo que escribir y corregir manualmente cada secuencia, lo que tuvo un alto costo en tiempo y dinero. [3]
En 1966, el equipo publicó la segunda edición del Atlas, que duplicaba el tamaño de la primera. Contenía alrededor de 1000 secuencias y esta vez se consideró una explosión de información. La National Biomedical Research Foundation (NBRF) estaba a la vanguardia de la utilización de computadoras para la medicina y la biología en ese momento. Dayhoff y su equipo utilizaron sus instalaciones para determinar las secuencias de aminoácidos de las moléculas de proteínas en computadoras centrales. El número de secuencias descubiertas continuó creciendo, lo que permitió un análisis comparativo de proteínas más profundo que nunca antes. Esto condujo a muchos desarrollos, como modelos probabilísticos de sustituciones de aminoácidos, alineación de secuencias y árboles filogenéticos de relaciones evolutivas de proteínas. [3]
Todo el proceso de secuenciación quedó totalmente automatizado. [3]
Se creó la primera base de datos de secuencias de nucleótidos, conocida anteriormente como Biblioteca de datos de secuencias de nucleótidos del Laboratorio Europeo de Biología Molecular (EMBL) (ahora conocida como Archivo Europeo de Nucleótidos). El Proyecto Genoma Humano comenzó en 1988. El objetivo del proyecto era secuenciar y mapear todos los genes de un ser humano, lo que requería la capacidad de crear y utilizar una gran base de datos de secuencias. [4]
Actualmente contamos con numerosas bases de datos de secuencias, herramientas para utilizarlas y un fácil acceso a ellas. Una de las más importantes es GenBank , que contiene más de 2 mil millones de secuencias. [3]
Los registros en las bases de datos de secuencias proceden de una amplia gama de fuentes, desde investigadores individuales hasta grandes centros de secuenciación genómica. Como resultado, las secuencias en sí mismas, y especialmente las anotaciones biológicas adjuntas a estas secuencias, pueden variar en calidad. Existe mucha redundancia, ya que varios laboratorios pueden enviar numerosas secuencias que son idénticas, o casi idénticas, a otras en las bases de datos. [5]
Muchas anotaciones de secuencias no se basan en experimentos de laboratorio, sino en los resultados de búsquedas de similitud de secuencias para secuencias anotadas previamente. Una vez que una secuencia ha sido anotada en función de su similitud con otras, y depositada en la base de datos, también puede convertirse en la base para futuras anotaciones. Esto puede conducir a un problema de anotación transitiva porque puede haber varias transferencias de anotaciones de este tipo por similitud de secuencia entre un registro de base de datos particular y la información experimental real de laboratorio . [6] Por lo tanto, se debe tener cuidado al interpretar los datos de anotación de las bases de datos de secuencias.
La mayoría de los algoritmos de búsqueda de bases de datos actuales clasifican la alineación mediante una puntuación, que suele ser un sistema de puntuación particular. [7] La solución para resolver este problema se encuentra poniendo a disposición una variedad de sistemas de puntuación que se adapten al problema específico.
Cuando utilizamos un algoritmo de búsqueda, a menudo producimos una lista ordenada que muchas veces puede carecer de significado biológico. [8]