Las bases de datos biológicas son bibliotecas de ciencias biológicas, recopiladas a partir de experimentos científicos, literatura publicada, tecnología experimental de alto rendimiento y análisis computacional. [ cita necesaria ] Contienen información de áreas de investigación que incluyen genómica , proteómica , metabolómica , expresión genética de microarrays y filogenética . [2] La información contenida en las bases de datos biológicas incluye la función, estructura, localización (tanto celular como cromosómica) de los genes, efectos clínicos de las mutaciones y similitudes de secuencias y estructuras biológicas.
Las bases de datos biológicas se pueden clasificar según el tipo de datos que recopilan (ver más abajo). En términos generales, existen bases de datos moleculares (para secuencias, moléculas, etc.), bases de datos funcionales (para fisiología, actividades enzimáticas, fenotipos, ecología, etc.), bases de datos taxonómicas (para especies y otros rangos taxonómicos), imágenes y otros medios, o especímenes ( para colecciones de museos, etc.)
Las bases de datos son herramientas importantes para ayudar a los científicos a analizar y explicar una serie de fenómenos biológicos, desde la estructura de las biomoléculas y su interacción, hasta todo el metabolismo de los organismos y la comprensión de la evolución de las especies . Este conocimiento ayuda a facilitar la lucha contra las enfermedades, colabora en el desarrollo de medicamentos , en la predicción de determinadas enfermedades genéticas y en el descubrimiento de relaciones básicas entre especies en la historia de la vida .
Los conceptos de bases de datos relacionales de la informática y los conceptos de recuperación de información de las bibliotecas digitales son importantes para comprender las bases de datos biológicas. El diseño, el desarrollo y la gestión a largo plazo de bases de datos biológicas es un área central de la disciplina de la bioinformática . [3] El contenido de los datos incluye secuencias de genes, descripciones textuales, atributos y clasificaciones ontológicas , citas y datos tabulares. A menudo se describen como datos semiestructurados y se pueden representar como tablas, registros delimitados por claves y estructuras XML . [ cita necesaria ]
La mayoría de las bases de datos biológicas están disponibles a través de sitios web que organizan los datos de manera que los usuarios puedan explorarlos en línea. Además, los datos subyacentes suelen estar disponibles para descargar en una variedad de formatos. Los datos biológicos vienen en muchos formatos. Estos formatos incluyen texto, datos de secuencia, estructura de proteínas y enlaces. Cada uno de estos se puede encontrar en determinadas fuentes, por ejemplo: [ cita necesaria ]
El conocimiento biológico se distribuye en innumerables bases de datos. Esto a veces dificulta garantizar la coherencia de la información, por ejemplo, cuando se utilizan nombres diferentes para la misma especie o formatos de datos diferentes. En consecuencia, la interoperabilidad es un desafío constante para el intercambio de información. Por ejemplo, si una base de datos de secuencias de ADN almacena la secuencia de ADN junto con el nombre de una especie, un cambio de nombre de esa especie puede romper los vínculos con otras bases de datos que pueden usar un nombre diferente. La bioinformática integradora es un campo que intenta abordar este problema proporcionando acceso unificado. Una solución es cómo las bases de datos biológicas hacen referencias cruzadas con otras bases de datos con números de acceso para vincular sus conocimientos relacionados (por ejemplo, de modo que el número de acceso permanezca igual incluso si cambia el nombre de una especie). La redundancia es otro problema, ya que muchas bases de datos deben almacenar la misma información; por ejemplo, las bases de datos de estructuras de proteínas también contienen la secuencia de las proteínas que cubren, su secuencia y su información bibliográfica.
Se encuentran disponibles bases de datos específicas para algunas especies, principalmente aquellas que se utilizan a menudo en la investigación ( organismos modelo ). Por ejemplo, EcoCyc es una base de datos de E. coli . Otras bases de datos de organismos modelo populares incluyen Mouse Genome Informatics para el ratón de laboratorio , Mus musculus , Rat Genome Database para Rattus , ZFIN para Danio Rerio (pez cebra), PomBase [4] para la levadura de fisión Schizosaccharomyces pombe , FlyBase para Drosophila , WormBase para los nematodos Caenorhabditis elegans y Caenorhabditis briggsae , y Xenbase para las ranas Xenopus tropicalis y Xenopus laevis .
Numerosas bases de datos intentan documentar la diversidad de la vida en la Tierra. Un ejemplo destacado es el Catálogo de la Vida , creado por primera vez en 2001 por Species 2000 y el Sistema Integrado de Información Taxonómica. [6] El Catálogo de la Vida [1] es un proyecto colaborativo que tiene como objetivo documentar la categorización taxonómica de todas las especies actualmente aceptadas en el mundo. [7] El Catálogo de la Vida proporciona una base de datos consolidada y consistente para que los investigadores y los responsables de la formulación de políticas puedan consultarla. El Catalog of Life selecciona conjuntos de datos actualizados de otras fuentes, como Conifer Database, ICTV MSL (para virus) y LepIndex (para mariposas y polillas). En total, el Catálogo de la Vida se basa en 165 bases de datos a partir de mayo de 2022. [8] Los costos operativos del Catálogo de la Vida son pagados por el Fondo de Información sobre Biodiversidad Global , el Encuesta de Historia Natural de Illinois , el Centro de Biodiversidad Naturalis y el Smithsonian. Institución . [9]
Algunas bases de datos biológicas también documentan la distribución geográfica de diferentes especies. Shuang Dai et al. creó una nueva base de datos de múltiples fuentes para documentar la distribución espacial/geográfica de 1.371 especies de aves en China, ya que las bases de datos existentes carecían gravemente de datos de distribución espacial para muchas especies. [10] Las fuentes de esta nueva base de datos incluyeron libros, literatura, seguimiento por GPS y datos de páginas web en línea. La nueva base de datos mostraba taxonomía, distribución, información sobre especies y fuentes de datos para cada especie. Después de completar la base de datos de distribución espacial de aves, se descubrió que el 61% de las especies conocidas en China estaban distribuidas en regiones más allá de donde se conocían anteriormente. [11]
Las bases de datos médicas son un caso especial de recursos de datos biomédicos y pueden abarcar desde bibliografías, como PubMed , hasta bases de datos de imágenes para el desarrollo de software de diagnóstico basado en IA. Por ejemplo, se desarrolló una base de datos de imágenes con el objetivo de ayudar en el desarrollo de algoritmos de seguimiento de heridas. [13] Se seleccionaron más de 188 conjuntos de imágenes multimodales a partir de 79 visitas de pacientes, que constan de fotografías, imágenes térmicas y mapas de profundidad de malla en 3D. Los contornos de las heridas se dibujaron manualmente y se agregaron a los conjuntos de datos fotográficos. [14] La base de datos se puso a disposición del público en forma de un programa llamado WoundsDB, que se puede descargar desde el sitio web de Chronic Wound Database. [2]
Un recurso importante para encontrar bases de datos biológicas es una edición anual especial de la revista Nucleic Acids Research (NAR). La edición de la base de datos de NAR está disponible gratuitamente y clasifica muchas de las bases de datos biológicas públicas. Una base de datos complementaria a la edición llamada Colección de bases de datos de biología molecular en línea enumera 1.380 bases de datos en línea. [15] Existen otras colecciones de bases de datos, como MetaBase y Bioinformatics Links Collection. [16] [17]