Base de datos biológica

Las bases de datos biológicas son bibliotecas de ciencias biológicas, recopiladas a partir de experimentos científicos, literatura publicada, tecnología experimental de alto rendimiento y análisis computacional. ^{[ cita necesaria ]} Contienen información de áreas de investigación que incluyen genómica , proteómica , metabolómica , expresión genética de microarrays y filogenética . ^[2] La información contenida en las bases de datos biológicas incluye la función, estructura, localización (tanto celular como cromosómica) de los genes, efectos clínicos de las mutaciones y similitudes de secuencias y estructuras biológicas.

Las bases de datos biológicas se pueden clasificar según el tipo de datos que recopilan (ver más abajo). En términos generales, existen bases de datos moleculares (para secuencias, moléculas, etc.), bases de datos funcionales (para fisiología, actividades enzimáticas, fenotipos, ecología, etc.), bases de datos taxonómicas (para especies y otros rangos taxonómicos), imágenes y otros medios, o especímenes ( para colecciones de museos, etc.)

Las bases de datos son herramientas importantes para ayudar a los científicos a analizar y explicar una serie de fenómenos biológicos, desde la estructura de las biomoléculas y su interacción, hasta todo el metabolismo de los organismos y la comprensión de la evolución de las especies . Este conocimiento ayuda a facilitar la lucha contra las enfermedades, colabora en el desarrollo de medicamentos , en la predicción de determinadas enfermedades genéticas y en el descubrimiento de relaciones básicas entre especies en la historia de la vida .

Bases técnicas y conceptos teóricos.

Los conceptos de bases de datos relacionales de la informática y los conceptos de recuperación de información de las bibliotecas digitales son importantes para comprender las bases de datos biológicas. El diseño, el desarrollo y la gestión a largo plazo de bases de datos biológicas es un área central de la disciplina de la bioinformática . ^[3] El contenido de los datos incluye secuencias de genes, descripciones textuales, atributos y clasificaciones ontológicas , citas y datos tabulares. A menudo se describen como datos semiestructurados y se pueden representar como tablas, registros delimitados por claves y estructuras XML . ^{[ cita necesaria ]}

Acceso

La mayoría de las bases de datos biológicas están disponibles a través de sitios web que organizan los datos de manera que los usuarios puedan explorarlos en línea. Además, los datos subyacentes suelen estar disponibles para descargar en una variedad de formatos. Los datos biológicos vienen en muchos formatos. Estos formatos incluyen texto, datos de secuencia, estructura de proteínas y enlaces. Cada uno de estos se puede encontrar en determinadas fuentes, por ejemplo: ^{[ cita necesaria ]}

Los formatos de texto los proporcionan PubMed y OMIM .
Los datos de secuencia los proporciona GenBank , en términos de ADN, y UniProt , en términos de proteínas.
Las estructuras de las proteínas las proporcionan PDB , SCOP y CATH .

Problemas y desafíos

El conocimiento biológico se distribuye en innumerables bases de datos. Esto a veces dificulta garantizar la coherencia de la información, por ejemplo, cuando se utilizan nombres diferentes para la misma especie o formatos de datos diferentes. En consecuencia, la interoperabilidad es un desafío constante para el intercambio de información. Por ejemplo, si una base de datos de secuencias de ADN almacena la secuencia de ADN junto con el nombre de una especie, un cambio de nombre de esa especie puede romper los vínculos con otras bases de datos que pueden usar un nombre diferente. La bioinformática integradora es un campo que intenta abordar este problema proporcionando acceso unificado. Una solución es cómo las bases de datos biológicas hacen referencias cruzadas con otras bases de datos con números de acceso para vincular sus conocimientos relacionados (por ejemplo, de modo que el número de acceso permanezca igual incluso si cambia el nombre de una especie). La redundancia es otro problema, ya que muchas bases de datos deben almacenar la misma información; por ejemplo, las bases de datos de estructuras de proteínas también contienen la secuencia de las proteínas que cubren, su secuencia y su información bibliográfica.

Bases de datos de organismos modelo

Se encuentran disponibles bases de datos específicas para algunas especies, principalmente aquellas que se utilizan a menudo en la investigación ( organismos modelo ). Por ejemplo, EcoCyc es una base de datos de E. coli . Otras bases de datos de organismos modelo populares incluyen Mouse Genome Informatics para el ratón de laboratorio , Mus musculus , Rat Genome Database para Rattus , ZFIN para Danio Rerio (pez cebra), PomBase ^[4] para la levadura de fisión Schizosaccharomyces pombe , FlyBase para Drosophila , WormBase para los nematodos Caenorhabditis elegans y Caenorhabditis briggsae , y Xenbase para las ranas Xenopus tropicalis y Xenopus laevis .

Bases de datos sobre biodiversidad y especies.

Numerosas bases de datos intentan documentar la diversidad de la vida en la Tierra. Un ejemplo destacado es el Catálogo de la Vida , creado por primera vez en 2001 por Species 2000 y el Sistema Integrado de Información Taxonómica. ^[6] El Catálogo de la Vida [1] es un proyecto colaborativo que tiene como objetivo documentar la categorización taxonómica de todas las especies actualmente aceptadas en el mundo. ^[7] El Catálogo de la Vida proporciona una base de datos consolidada y consistente para que los investigadores y los responsables de la formulación de políticas puedan consultarla. El Catalog of Life selecciona conjuntos de datos actualizados de otras fuentes, como Conifer Database, ICTV MSL (para virus) y LepIndex (para mariposas y polillas). En total, el Catálogo de la Vida se basa en 165 bases de datos a partir de mayo de 2022. ^[8] Los costos operativos del Catálogo de la Vida son pagados por el Fondo de Información sobre Biodiversidad Global , el Encuesta de Historia Natural de Illinois , el Centro de Biodiversidad Naturalis y el Smithsonian. Institución . ^[9]

Algunas bases de datos biológicas también documentan la distribución geográfica de diferentes especies. Shuang Dai et al. creó una nueva base de datos de múltiples fuentes para documentar la distribución espacial/geográfica de 1.371 especies de aves en China, ya que las bases de datos existentes carecían gravemente de datos de distribución espacial para muchas especies. ^[10] Las fuentes de esta nueva base de datos incluyeron libros, literatura, seguimiento por GPS y datos de páginas web en línea. La nueva base de datos mostraba taxonomía, distribución, información sobre especies y fuentes de datos para cada especie. Después de completar la base de datos de distribución espacial de aves, se descubrió que el 61% de las especies conocidas en China estaban distribuidas en regiones más allá de donde se conocían anteriormente. ^[11]

Bases de datos médicas

Las bases de datos médicas son un caso especial de recursos de datos biomédicos y pueden abarcar desde bibliografías, como PubMed , hasta bases de datos de imágenes para el desarrollo de software de diagnóstico basado en IA. Por ejemplo, se desarrolló una base de datos de imágenes con el objetivo de ayudar en el desarrollo de algoritmos de seguimiento de heridas. ^[13] Se seleccionaron más de 188 conjuntos de imágenes multimodales a partir de 79 visitas de pacientes, que constan de fotografías, imágenes térmicas y mapas de profundidad de malla en 3D. Los contornos de las heridas se dibujaron manualmente y se agregaron a los conjuntos de datos fotográficos. ^[14] La base de datos se puso a disposición del público en forma de un programa llamado WoundsDB, que se puede descargar desde el sitio web de Chronic Wound Database. [2]

Problema de la base de datos de investigación de ácidos nucleicos

Un recurso importante para encontrar bases de datos biológicas es una edición anual especial de la revista Nucleic Acids Research (NAR). La edición de la base de datos de NAR está disponible gratuitamente y clasifica muchas de las bases de datos biológicas públicas. Una base de datos complementaria a la edición llamada Colección de bases de datos de biología molecular en línea enumera 1.380 bases de datos en línea. ^[15] Existen otras colecciones de bases de datos, como MetaBase y Bioinformatics Links Collection. ^[16]^[17]

Ver también

Biobanco
datos biológicos
Base de datos química
Base de datos del dominio de la muerte
Instituto Europeo de Bioinformática
Base de datos de enfermedades genéticas
Bioinformática integrativa
Lista de bases de datos biológicas
Bases de datos de organismos modelo
NCBI
PubMed (una base de datos de literatura biomédica)

Referencias

^ Szklarczyk D; Franceschini A; Kuhn M; et al. (Enero de 2011). "La base de datos STRING en 2011: redes de interacción funcional de proteínas, integradas y puntuadas globalmente". Ácidos nucleicos Res . 39 (Problema de la base de datos): D561–8. doi : 10.1093/nar/gkq973. PMC 3013807 . PMID 21045058.
^ Altman RB (marzo de 2004). "Construcción de bases de datos biológicas exitosas". Breve. Bioinformática . 5 (1): 4–5. doi : 10.1093/bib/5.1.4 . PMID 15153301.
^ Bourne P (agosto de 2005). "¿Será diferente una base de datos biológica de una revista biológica?". Computación más. Biol . 1 (3): 179–81. Código Bib : 2005PLSCB...1...34B. doi : 10.1371/journal.pcbi.0010034 . PMC 1193993 . PMID 16158097.
^ Bloquear, A; Rutherford, K; Harris, MA; Hayles, J; Oliver, SG; Bähler, J; Wood, V (13 de octubre de 2018). "PomBase 2018: la reimplementación impulsada por el usuario de la base de datos de levaduras de fisión proporciona un acceso rápido e intuitivo a información diversa e interconectada". Investigación de ácidos nucleicos . 47 (D1): D821–D827. doi : 10.1093/nar/gky961. PMC 6324063 . PMID 30321395.
^ Catálogo de la vida (2001). "Página principal". Buscar . Especie 2000 . Consultado el 5 de mayo de 2022 .
^ Jones, Andrew C. (2011). "Identificar y relacionar conceptos biológicos en el catálogo de la vida". Revista de Semántica Biomédica . 2 (1): 7. doi : 10.1186/2041-1480-2-7 . PMC 3245425 . PMID 22004596.
^ Catálogo de la vida (2001). "¿Qué es el Catálogo de la Vida?". Nuestra misión . Especie 2000 . Consultado el 5 de mayo de 2022 .
^ Catálogo de la vida (2001). "Conjuntos de datos de origen". Especie 2000 . Consultado el 5 de mayo de 2022 .
^ Catálogo de la vida (2001). "Fondos". Especie 2000 . Consultado el 5 de mayo de 2022 .
^ Dai, Shuang (2019). "Una base de datos digital espacializada para todas las especies de aves en China". Ciencias Ciencias de la vida de China . 62 (5): 661–667. doi :10.1007/s11427-018-9419-2. PMID 30900164. S2CID 84845653 . Consultado el 5 de mayo de 2022 .
^ Dai, Shuang (2019). "Una base de datos digital espacializada para todas las especies de aves en China". Ciencias Ciencias de la vida de China . 62 (5): 661–667. doi :10.1007/s11427-018-9419-2. PMID 30900164. S2CID 84845653 . Consultado el 5 de mayo de 2022 .
^ "Base de datos de heridas crónicas". HeridasDB . Universidad Tecnológica de Silesia. 2020 . Consultado el 5 de mayo de 2022 .
^ Kręcichwost, Michał (2021). "Base de datos de imágenes multimodales de heridas crónicas". Imágenes y gráficos médicos computarizados . 88 : 101844. doi : 10.1016/j.compmedimag.2020.101844. PMID 33477091. S2CID 231676950 . Consultado el 5 de mayo de 2022 .
^ "Base de datos de heridas crónicas". HeridasDB . Universidad Tecnológica de Silesia. 2020 . Consultado el 5 de mayo de 2022 .
^ Galperin MI; Fernández-Suárez XM (enero 2012). "La edición de la base de datos de investigación de ácidos nucleicos de 2012 y la colección de bases de datos de biología molecular en línea". Ácidos nucleicos Res . 40 (Problema de la base de datos): D1–8. doi : 10.1093/nar/gkr1196. PMC 3245068 . PMID 22144685.
^ Bolser DM; Chibón PY; Palopoli N; et al. (Enero de 2012). "MetaBase: la base de datos wiki de bases de datos biológicas". Ácidos nucleicos Res . 40 (Problema de la base de datos): D1250–4. doi : 10.1093/nar/gkr1099. PMC 3245051 . PMID 22139927.
^ Brazas MD; Yim DS; Yamada JT; Ouellette BF (julio de 2011). "Actualización del Directorio de enlaces de bioinformática de 2011: más recursos, herramientas, bases de datos y funciones para empoderar a la comunidad de bioinformática". Ácidos nucleicos Res . 39 (problema del servidor web): W3–7. doi : 10.1093/nar/gkr514. PMC 3125814 . PMID 21715385.

enlaces externos

Lista interactiva de bases de datos biológicas, clasificadas por categorías, de Nucleic Acids Research , 2010
DBD: Base de datos de bases de datos biológicas
Biosharing (una base de datos de bases de datos biológicas)
Base de datos de heridas crónicas WoundsDB
Catálogo de Vida Catálogo de Vida