Las bases de datos biológicas son almacenes de información biológica. [1] La revista Nucleic Acids Research publica periódicamente números especiales sobre bases de datos biológicas y tiene una lista de dichas bases de datos. El número de 2018 tiene una lista de alrededor de 180 bases de datos de este tipo y actualizaciones de las bases de datos descritas anteriormente. [2] Omics Discovery Index se puede utilizar para explorar y buscar en varias bases de datos biológicas. Además, el Portal de descubrimiento de ecosistemas de datos del NIAID desarrollado por el Instituto Nacional de Alergias y Enfermedades Infecciosas (NIAID) permite realizar búsquedas en bases de datos.
Bases de datos meta
Las metabases de datos son bases de datos de bases de datos que recopilan datos sobre datos para generar nuevos datos. Son capaces de fusionar información de diferentes fuentes y ponerla a disposición en un formato nuevo y más conveniente, o con énfasis en una enfermedad u organismo en particular. Originalmente, los metadatos eran solo un término común que se refería simplemente a datos sobre datos , como etiquetas, palabras clave y encabezados de marcado.
Bases de datos de organismos modelo
Las bases de datos de organismos modelo proporcionan datos biológicos detallados sobre organismos estudiados intensivamente.
Bases de datos de ácidos nucleicos
Bases de datos de ADN
Las bases de datos principales conforman la Base de datos internacional de secuencias de nucleótidos (INSD). Estas incluyen:
DDBJ (Japón), GenBank (EE. UU.) y European Nucleotide Archive (Europa) son repositorios de datos de secuencias de nucleótidos de todos los organismos . Los tres aceptan envíos de secuencias de nucleótidos y luego intercambian datos nuevos y actualizados a diario para lograr una sincronización óptima entre ellos. Estas tres bases de datos son bases de datos primarias, ya que albergan datos de secuencias originales. Colaboran con Sequence Read Archive (SRA), que archiva lecturas sin procesar de instrumentos de secuenciación de alto rendimiento.
Las bases de datos secundarias son: [ aclaración necesaria ]
- Base de datos de 23andMe
- Mapa Hap
- OMIM (Herencia mendeliana en línea en el hombre): enfermedades hereditarias
- Secuencia de referencia
- Proyecto 1000 Genomas : iniciado en enero de 2008, se analizaron y pusieron a disposición del público los genomas de más de mil participantes anónimos de distintos grupos étnicos.
- Base de datos EggNOG: un recurso de ortología anotado funcional y filogenéticamente y jerárquico basado en 5090 organismos y 2502 virus. Proporciona múltiples alineaciones de secuencias y árboles de máxima verosimilitud, así como una amplia anotación funcional. [6] [7]
Otras bases de datos
Bases de datos de expresión genética
Bases de datos genéricas de expresión genética
Bases de datos de expresión génica de microarrays
Bases de datos del genoma
Estas bases de datos recopilan secuencias genómicas , las anotan y analizan, y ofrecen acceso público. Algunas incorporan la conservación de literatura experimental para mejorar las anotaciones computacionales. Estas bases de datos pueden contener genomas de muchas especies o el genoma de un solo organismo modelo .
Bases de datos de fenotipos
ARNbases de datos
Bases de datos de aminoácidos y proteínas
(Ver también: Lista de proteínas del cuerpo humano)
Se han desarrollado varios repositorios y recursos de datos disponibles públicamente para respaldar y gestionar la información relacionada con las proteínas , el descubrimiento de conocimientos biológicos y la generación de hipótesis basadas en datos. [15] Las bases de datos de la siguiente tabla se seleccionaron de las bases de datos enumeradas en los números y la colección de bases de datos de Nucleic Acids Research (NAR) y las bases de datos referenciadas de forma cruzada en la base de conocimientos UniProt . La mayoría de estas bases de datos tienen referencias cruzadas con UniProt / UniProt KB para que los identificadores se puedan mapear entre sí. [15]
Proteínas en humanos:
Hay alrededor de 20.000 genes codificadores de proteínas en el genoma humano estándar (alrededor de 1200 ya tienen artículos en Wikipedia -la Wiki de genes- sobre ellos). Si incluimos las variantes de empalme, podría haber hasta 500.000 proteínas humanas únicas [16].
Diferentes tipos de bases de datos de proteínas
Bases de datos de vías de transducción de señales
Bases de datos de vías metabólicas y funciones proteicas
Bases de datos taxonómicas
Numerosas bases de datos recopilan información sobre especies y otras categorías taxonómicas . El Catálogo de la Vida es un caso especial, ya que es una metabase de datos de unas 150 "bases de datos globales de especies" (GSD, por sus siglas en inglés) especializadas que han recopilado los nombres y otra información sobre (casi) todas las especies descritas y, por lo tanto, "conocidas".
- BacDive : base de metadatos bacteriana que proporciona información vinculada a cepas sobre la biodiversidad bacteriana y arqueal, incluida información taxonómica
- Catálogo de la Vida : una metabase de datos de todas las especies de la Tierra
- EzTaxon-e : base de datos para la identificación de procariotas basada en secuencias de genes de ARN ribosómico 16S
- Taxonomía del NCBI: una base de datos taxonómica operada por el NCBI y que se concentra en todos los taxones para los que hay secuencias de ADN disponibles (esas secuencias se almacenan en GenBank , otra base de datos operada por el NCBI).
Bases de datos de imágenes
Las imágenes desempeñan un papel fundamental en la biomedicina, desde imágenes de especímenes antropológicos hasta la zoología . Sin embargo, existen relativamente pocas bases de datos dedicadas a la recopilación de imágenes, aunque algunos proyectos como iNaturalist recopilan fotografías como parte principal de sus datos. Un caso especial de "imágenes" son las imágenes tridimensionales, como las estructuras de proteínas o las reconstrucciones tridimensionales de estructuras anatómicas. Las bases de datos de imágenes incluyen, entre otras: [22]
- Atlas cerebral de Allen
- Banco de cerebros digital [23]
- Archivo público de imágenes de microscopía electrónica (EMPIAR) [24]
- Recursos de datos de imágenes [22]
- Morfobanco
- Morfofuente
Bases de datos radiológicas
Bases de datos adicionales
Bases de datos de exosomas
- Carta expositiva
- Atlas de ARN extracelular: un repositorio de pequeños perfiles de exARN derivados de qPCR y secuenciación de ARN de biofluidos humanos y de ratón
Bases de datos de modelos matemáticos
Bases de datos sobreresistencia antimicrobianaTasas y consumo de antibióticos
Bases de datos sobreresistencia antimicrobianamecanismos
Bases de datos de estilo wiki
Bases de datos especializadas
- Barcode of Life Data Systems : base de datos de códigos de barras de ADN
- Base de datos de proteínas pesticidas bacterianas [25] [26]
- Atlas del Genoma del Cáncer (TCGA): proporciona datos de cientos de muestras de cáncer obtenidas mediante técnicas de alto rendimiento, como perfiles de expresión genética, perfiles de variación del número de copias, genotipado de SNP, perfiles de metilación del ADN de todo el genoma, perfiles de microARN y secuenciación de exones de al menos 1200 genes.
- Cellosaurus : una fuente de conocimiento sobre líneas celulares
- CTD ( Base de datos de toxicogenómica comparativa ): describe las interacciones entre sustancias químicas, genes y enfermedades.
- DiProDB : una base de datos para recopilar y analizar propiedades termodinámicas, estructurales y de otros tipos de dinucleótidos
- Atlas de transcripción de referencia y mantenimiento (HRT Atlas) [27], herramienta basada en la web para buscar genes/transcripciones de referencia candidatos específicos de células adecuados para la normalización de experimentos de qPCR. HRT Atlas también describe una lista completa de genes y transcripciones de mantenimiento humanos y de ratón.
- Dryad : repositorio de datos que sustentan publicaciones científicas en las biociencias básicas y aplicadas
- Atlas del ratón de Edimburgo
- Base de datos de promotores eucariotas EPD
- FINDbase (la base de datos de frecuencia de trastornos hereditarios)
- GigaDB : repositorio de conjuntos de datos a gran escala que sustentan publicaciones científicas en la investigación biológica y biomédica
- HGNC (Comité de Nomenclatura Genética HUGO): un recurso para la nomenclatura genética humana aprobada
- Consorcio Internacional del Epigenoma Humano : [28] integra datos de referencia epigenómicos de iniciativas nacionales reconocidas, como el CEEHRC canadiense, [29] el European Blueprint, [30] el European Genome-phenome Archive (EGA [31] ), el ENCODE y el NIH Roadmap de EE. UU. , el DEEP de Alemania, [32] el CREST de Japón, [33] el KNIH de Corea, el GIS de Singapur y el EpiHK de China [34]
- MethBase : base de datos de metilación del ADN visualizada en el navegador Genome Browser de la UCSC
- Minimotif Miner : base de datos de motivos peptídicos funcionales contiguos y cortos
- Bases de datos oncogenómicas : una recopilación de bases de datos que sirven para la investigación del cáncer
- PubMed : referencias y resúmenes sobre ciencias biológicas y temas biomédicos
- Base de datos integrada de mamíferos RIKEN
- TDR Targets : una base de datos quimiogenómica centrada en el descubrimiento de fármacos para enfermedades tropicales
- TRANSFAC : una base de datos sobre factores de transcripción eucariotas, sus sitios de unión genómicos y perfiles de unión al ADN
- JASPAR : una base de datos de perfiles de unión de factores de transcripción no redundantes y seleccionados manualmente.
- MetOSite: una base de datos sobre los sitios de sulfoxidación de metionina y sus funciones en las proteínas [35]
- El Proyecto de Costos y Utilización de la Atención Médica (HCUP, por sus siglas en inglés) es la recopilación de datos de atención hospitalaria más grande de los Estados Unidos. Incluye cientos de millones de registros de pacientes hospitalizados, ambulatorios y de emergencia.
- LEXAS selecciona descripciones de experimentos biológicos de artículos de PMC.
- La base de datos del metaboloma bovino es una base de datos web gratuita que enumera los metabolitos bovinos conocidos.
Referencias
- ^ Wren JD, Bateman A (octubre de 2008). "Bases de datos, tumbas de datos y polvo en el viento". Bioinformática . 24 (19): 2127–8. doi : 10.1093/bioinformatics/btn464 . PMID 18819940.
- ^ "Volumen 46, número D1 | Investigación de ácidos nucleicos | Oxford Academic". academic.oup.com . Consultado el 4 de septiembre de 2018 .
- ^ Lock A, Rutherford K, Harris MA, Hayles J, Oliver SG, Bähler J, Wood V (enero de 2019). "PomBase 2018: la reimplementación impulsada por el usuario de la base de datos de levadura de fisión proporciona un acceso rápido e intuitivo a información diversa e interconectada". Investigación de ácidos nucleicos . 47 (D1): D821–D827. doi :10.1093/nar/gky961. PMC 6324063 . PMID 30321395.
- ^ Zhu B, Stülke J (enero de 2018). "SubtiWiki en 2018: de genes y proteínas a la anotación de redes funcionales del organismo modelo Bacillus subtilis". Investigación de ácidos nucleicos . 46 (D1): D743–D748. doi :10.1093/nar/gkx908. PMC 5753275 . PMID 29788229.
- ^ Margarita García-Hernández; Tanya Berardini; Guanghong Chen; Debbie Crist; Aisling Doyle; Eva Huala; Emma rodilla; Marcos Lambrecht; Neil Molinero; Lucas A. Müller; Suparna Mundodi; Leonore Reiser; Seung Y. Rhee; Randy Scholl; Julie Tacklind; Dan C. Weems; Yihe Wu; Iris Xu; Daniel Yoo; Jungwon Yoon; Peifen Zhang (noviembre de 2002). "TAIR: un recurso para datos integrados de Arabidopsis". Genómica funcional e integradora . 2 (6): 239–253. doi :10.1007/s10142-002-0077-z. PMID 12444417. S2CID 7827488.
- ^ Powell S, Forslund K, Szklarczyk D, Trachana K, Roth A, Huerta-Cepas J, et al. (enero de 2014). "eggNOG v4.0: inferencia de ortología anidada en 3686 organismos". Nucleic Acids Research . 42 (número de la base de datos): D231-9. doi : 10.1093/nar/gkt1253 . PMC 3964997 . PMID 24297252.
- ^ Huerta-Cepas J, Szklarczyk D, Heller D, Hernández-Plaza A, Forslund SK, Cook H, et al. (enero de 2019). "eggNOG 5.0: un recurso de ortología anotado jerárquicamente, funcional y filogenéticamente basado en 5090 organismos y 2502 virus". Nucleic Acids Research . 47 (D1): D309–D314. doi : 10.1093/nar/gky1085 . PMC 6324079 . PMID 30418610.
- ^ ArrayExpress
- ^ GEO
- ^ "El Atlas de las Proteínas Humanas". www.proteinatlas.org . Consultado el 27 de mayo de 2019 .
- ^ Dash S, Campbell JD, Cannon EK, Cleary AM, Huang W, Kalberer SR, et al. (enero de 2016). "Sistema de información de leguminosas (LegumeInfo.org): un componente clave de un conjunto de recursos de datos federados para la familia de las leguminosas". Nucleic Acids Research . 44 (D1): D1181-8. doi :10.1093/nar/gkv1159. PMC 4702835 . PMID 26546515.
- ^ "Base de datos del genoma de Saccharomyces | SGD". www.yeastgenome.org . Consultado el 4 de septiembre de 2018 .
- ^ Grant D, Nelson RT, Cannon SB, Shoemaker RC (enero de 2010). "SoyBase, la base de datos de genética y genómica de la soja del USDA-ARS". Nucleic Acids Research . 38 (número de la base de datos): D843-6. doi :10.1093/nar/gkp798. PMC 2808871 . PMID 20008513.
- ^ "Base de datos IRES".
- ^ ab Chen C, Huang H, Wu CH (2017). "Bases de datos y recursos de bioinformática de proteínas". En Wu CH, Arighi CN, Ross KE (eds.). Bioinformática de proteínas . Métodos en biología molecular. Vol. 1558. Nueva York, NY: Springer New York. págs. 3–39. doi :10.1007/978-1-4939-6783-4_1. ISBN 978-1-4939-6781-0. PMC 5506686 . PMID 28150231.
- ^ Karnkowska, Anna; Treitli, Sebastián C.; Brzoň, Ondřej; Novák, Lukáš; Vacek, Vojtěch; Soukal, Petr; Barlow, Lael D.; Herman, Emily K.; Pipaliya, Shweta V.; Panek, Tomaš; Žihala, David; Petrželková, Romana; Butenko, Anzhelika; Eme, Laura; Escaleras, Courtney W.; Roger, Andrés J.; Eliaš, Marek; Dacks, Joel B.; Hampl, Vladimir (2019). "El genoma de Oxymonad muestra complejidad eucariótica canónica en ausencia de una mitocondria". Biología Molecular y Evolución . 36 (10): 2292–2312. doi :10.1093/molbev/msz147. PMC 6759080. PMID 31387118 .
- ^ Keshava Prasad, TS; Goel, R.; Kandasamy, K.; Keerthikumar, S.; Kumar, S.; Mathivanan, S.; Telikicherla, D.; Raju, R.; Shafreen, B.; Venugopal, A.; Balakrishnan, L.; Marimuthu, A.; Banerjee, S.; Somanathan, DS; Sebastián, A.; Rani, S.; Rayo, S.; Harrys Kishore, CJ; Kanth, S.; Ahmed, M.; Kashyap, MK; Mohmood, R.; Ramachandra, YL; Krishna, V.; Rahiman, Licenciatura en Letras; Mohán, S.; Ranganathan, P.; Ramabadrán, S.; Chaerkady, R.; Pandey, A. (2008). "Base de datos de referencia de proteínas humanas: actualización de 2009". Investigación de ácidos nucleicos . 37 (Número de base de datos): D767–D772. doi :10.1093/nar/gkn892. PMC 2686490 . PMID 18988627.
- ^ Mir S, Alhroub Y, Anyango S, Armstrong DR, Berrisford JM, Clark AR, et al. (enero de 2018). "PDBe: hacia una infraestructura de entrega de datos reutilizable en el banco de datos de proteínas en Europa". Investigación de ácidos nucleicos . 46 (D1): D486–D492. doi :10.1093/nar/gkx1070. PMC 5753225 . PMID 29126160.
- ^ Kinjo AR, Bekker GJ, Suzuki H, Tsuchiya Y, Kawabata T, Ikegawa Y, Nakamura H (enero de 2017). "Protein Data Bank Japan (PDBj): interfaces de usuario actualizadas, marco de descripción de recursos, herramientas de análisis para estructuras grandes". Nucleic Acids Research . 45 (D1): D282–D288. doi :10.1093/nar/gkw962. PMC 5210648 . PMID 27789697.
- ^ Rose PW, Prlić A, Altunkaya A, Bi C, Bradley AR, Christie CH, et al. (enero de 2017). "El banco de datos de proteínas RCSB: visión integradora de la información estructural 3D, genética y de proteínas". Nucleic Acids Research . 45 (D1): D271–D281. doi :10.1093/nar/gkw1000. PMC 5210513 . PMID 27794042.
- ^ Hermjakob H, Montecchi-Palazzi L, Lewington C, Mudali S, Kerrien S, Orchard S, et al. (Enero de 2004). "IntAct: una base de datos de interacciones moleculares de código abierto". Investigación de ácidos nucleicos . 32 (Problema de base de datos): D452-5. doi : 10.1093/nar/gkh052. PMC 308786 . PMID 14681455.
- ^ ab Ellenberg J, Swedlow JR, Barlow M, Cook CE, Sarkans U, Patwardhan A, et al. (noviembre de 2018). "Una convocatoria para archivos públicos de datos de imágenes biológicas". Nature Methods . 15 (11): 849–854. doi :10.1038/s41592-018-0195-8. PMC 6884425 . PMID 30377375.
- ^ Tendler BC, Hanayik T, Ansorge O, Bangerter-Christensen S, Berns GS, Bertelsen MF, et al. (marzo de 2022). "El banco digital de cerebros, una plataforma de acceso abierto para conjuntos de datos de imágenes post mortem". eLife . 11 : e73153. doi : 10.7554/eLife.73153 . PMC 9042233 . PMID 35297760.
- ^ Iudin A, Korir PK, Salavert-Torres J, Kleywegt GJ, Patwardhan A (mayo de 2016). "EMPIAR: un archivo público para datos de imágenes de microscopía electrónica sin procesar". Nature Methods . 13 (5): 387–388. doi :10.1038/nmeth.3806. PMID 27067018. S2CID 38996040.
- ^ Crickmore, N.; Berry, C.; Panneerselvam, S.; Mishra, R.; Connor, TR; Bonning, BC (noviembre de 2021). "Una nomenclatura basada en la estructura para Bacillus thuringiensis y otras proteínas pesticidas derivadas de bacterias". Journal of Invertebrate Pathology . 186 (D1): 107438. doi : 10.1016/j.jip.2020.107438 . PMID 32652083.
- ^ Panneerselvam S; Mishra R; Berry C; Crickmore N; Bonning BC (2022). "Base de datos BPPRC: una herramienta basada en la web para acceder y analizar proteínas bacterianas pesticidas". Base de datos (Oxford) . 186 (D1): 107438. doi : 10.1093/database/baac022 . PMC 9216523. PMID 35396594 .
- ^ Hounkpe BW, Chenou F, de Lima F, De Paula EV (enero de 2021). "Base de datos HRT Atlas v1.0: redefinición de genes de mantenimiento humanos y de ratón y transcripciones de referencia candidatas mediante la extracción de conjuntos de datos masivos de ARN-seq". Investigación de ácidos nucleicos . 49 (D1): D947–D955. doi : 10.1093/nar/gkaa609 . PMC 7778946 . PMID 32663312.
- ^ Portal de datos (IHEC)
- ^ Centro de Investigación y Estudios Económicos de Europa (CEEHRC)
- ^ Plano
- ^ EGA
- ^ PROFUNDO
- ^ CRESTA
- ^ "Compartiendo epigenomas globalmente". Nature Methods . 15 (3): 151. 2018. doi : 10.1038/nmeth.4630 . ISSN 1548-7105.
- ^ Valverde H, Cantón FR, Aledo JC (noviembre de 2019). "MetOSite: un recurso integrado para el estudio de la sulfoxidación de residuos de metionina". Bioinformática . 35 (22): 4849–4850. doi :10.1093/bioinformatics/btz462. PMC 6853639 . PMID 31197322.
Enlaces externos
- Colección de bases de datos de biología molecular sobre investigación de ácidos nucleicos: más de 1600 bases de datos
- Lista de categorías de artículos de resumen de la base de datos de investigación de ácidos nucleicos (NAR)