stringtranslate.com

BARRIL

KEGG ( Enciclopedia de Kioto de Genes y Genomas ) es una colección de bases de datos que tratan sobre genomas , vías biológicas , enfermedades , fármacos y sustancias químicas . KEGG se utiliza para la investigación y la educación en bioinformática , incluido el análisis de datos en genómica , metagenómica , metabolómica y otros estudios ómicos , modelado y simulación en biología de sistemas e investigación traslacional en el desarrollo de fármacos .

El proyecto de base de datos KEGG fue iniciado en 1995 por Minoru Kanehisa , profesor del Instituto de Investigación Química de la Universidad de Kioto , en el marco del entonces vigente Programa Genoma Humano Japonés . [1] [2] Previendo la necesidad de un recurso informático que pueda utilizarse para la interpretación biológica de los datos de secuencias del genoma , comenzó a desarrollar la base de datos KEGG PATHWAY. Es una colección de mapas de vías KEGG dibujados manualmente que representan el conocimiento experimental sobre el metabolismo y varias otras funciones de la célula y el organismo . Cada mapa de vías contiene una red de interacciones y reacciones moleculares y está diseñado para vincular los genes del genoma con los productos génicos (principalmente proteínas ) en la vía. Esto ha permitido el análisis denominado mapeo de vías KEGG, mediante el cual el contenido genético del genoma se compara con la base de datos KEGG PATHWAY para examinar qué vías y funciones asociadas es probable que estén codificadas en el genoma.

Según los desarrolladores, KEGG es una "representación informática" del sistema biológico . [3] Integra bloques de construcción y diagramas de cableado del sistema, más específicamente, bloques de construcción genéticos de genes y proteínas, bloques de construcción químicos de pequeñas moléculas y reacciones, y diagramas de cableado de redes de interacción y reacción molecular. Este concepto se materializa en las siguientes bases de datos de KEGG, que se clasifican en información de sistemas, genómica, química y de salud. [4]

Bases de datos

Información de sistemas

La base de datos KEGG PATHWAY, la base de datos de diagramas de cableado, es el núcleo del recurso KEGG. Es una colección de mapas de vías que integran muchas entidades, entre ellas genes, proteínas, ARN, compuestos químicos, glicanos y reacciones químicas, así como genes de enfermedades y dianas farmacológicas, que se almacenan como entradas individuales en las demás bases de datos de KEGG. Los mapas de vías se clasifican en las siguientes secciones:

La sección de metabolismo contiene mapas globales dibujados estéticamente que muestran una imagen general del metabolismo, además de mapas de vías metabólicas regulares. Los mapas globales de baja resolución se pueden utilizar, por ejemplo, para comparar las capacidades metabólicas de diferentes organismos en estudios genómicos y diferentes muestras ambientales en estudios metagenómicos. Por el contrario, los módulos KEGG en la base de datos KEGG MODULE son diagramas de cableado localizados de mayor resolución que representan unidades funcionales más precisas dentro de un mapa de vías, como subvías conservadas entre grupos de organismos específicos y complejos moleculares. Los módulos KEGG se definen como conjuntos de genes característicos que se pueden vincular a capacidades metabólicas específicas y otras características fenotípicas , de modo que se puedan utilizar para la interpretación automática de datos del genoma y metagenoma.

Otra base de datos que complementa a KEGG PATHWAY es la base de datos KEGG BRITE. Se trata de una base de datos ontológica que contiene clasificaciones jerárquicas de diversas entidades, entre ellas genes, proteínas, organismos, enfermedades, fármacos y compuestos químicos. Mientras que KEGG PATHWAY se limita a las interacciones y reacciones moleculares de estas entidades, KEGG BRITE incorpora muchos tipos diferentes de relaciones.

Información genómica

Varios meses después de que se iniciara el proyecto KEGG en 1995, se publicó el primer informe del genoma bacteriano completamente secuenciado. [5] Desde entonces, todos los genomas completos publicados se acumulan en KEGG tanto para eucariotas como para procariotas . La base de datos KEGG GENES contiene información a nivel de genes/proteínas y la base de datos KEGG GENOME contiene información a nivel de organismo para estos genomas. La base de datos KEGG GENES consta de conjuntos de genes para los genomas completos, y los genes en cada conjunto reciben anotaciones en forma de establecer correspondencias con los diagramas de cableado de los mapas de vías KEGG, los módulos KEGG y las jerarquías BRITE.

Estas correspondencias se realizan utilizando el concepto de ortólogos . Los mapas de la vía KEGG se dibujan en base a evidencia experimental en organismos específicos, pero están diseñados para ser aplicables también a otros organismos, porque diferentes organismos, como el ser humano y el ratón, a menudo comparten vías idénticas que consisten en genes funcionalmente idénticos, llamados genes ortólogos u ortólogos. Todos los genes en la base de datos KEGG GENES se están agrupando en dichos ortólogos en la base de datos KEGG ORTHOLOGY (KO). Debido a que los nodos (productos genéticos) de los mapas de la vía KEGG, así como los módulos KEGG y las jerarquías BRITE, reciben identificadores KO, las correspondencias se establecen una vez que los genes en el genoma se anotan con identificadores KO mediante el procedimiento de anotación del genoma en KEGG. [4]

Información química

Los mapas de las vías metabólicas de KEGG se dibujan para representar los aspectos duales de la red metabólica: la red genómica de cómo las enzimas codificadas en el genoma están conectadas para catalizar reacciones consecutivas y la red química de cómo las estructuras químicas de los sustratos y productos son transformadas por estas reacciones. [6] Un conjunto de genes enzimáticos en el genoma identificará redes de relación enzimática cuando se superpongan en los mapas de las vías de KEGG, que a su vez caracterizan las redes de transformación de la estructura química que permiten la interpretación de los potenciales biosintéticos y de biodegradación del organismo. Alternativamente, un conjunto de metabolitos identificados en el metaboloma conducirá a la comprensión de las vías enzimáticas y los genes enzimáticos involucrados.

Las bases de datos de la categoría de información química, que se denominan colectivamente KEGG LIGAND, se organizan capturando el conocimiento de la red química. Al comienzo del proyecto KEGG, KEGG LIGAND constaba de tres bases de datos: KEGG COMPOUND para compuestos químicos, KEGG REACTION para reacciones químicas y KEGG ENZYME para reacciones en la nomenclatura de enzimas. [7] Actualmente, existen bases de datos adicionales: KEGG GLYCAN para glicanos [8] y dos bases de datos de reacciones auxiliares llamadas RPAIR (alineaciones de pares de reactivos) y RCLASS (clase de reacción). [9] KEGG COMPOUND también se ha ampliado para contener varios compuestos como xenobióticos , además de metabolitos.

Información de salud

En KEGG, las enfermedades se consideran estados perturbados del sistema biológico causados ​​por perturbadores de factores genéticos y ambientales, y los medicamentos se consideran diferentes tipos de perturbadores. [10] La base de datos KEGG PATHWAY incluye no solo los estados normales sino también los estados perturbados de los sistemas biológicos. Sin embargo, no se pueden dibujar mapas de las vías de las enfermedades para la mayoría de las enfermedades porque no se comprenden bien los mecanismos moleculares. Se adopta un enfoque alternativo en la base de datos KEGG DISEASE, que simplemente cataloga los factores genéticos y ambientales conocidos de las enfermedades. Estos catálogos pueden eventualmente conducir a diagramas de cableado más completos de las enfermedades.

La base de datos KEGG DRUG contiene los principios activos de los medicamentos aprobados en Japón, Estados Unidos y Europa. Se distinguen por sus estructuras químicas y/o componentes químicos y se asocian con moléculas diana , enzimas metabolizadoras y otra información de la red de interacción molecular en los mapas de vías KEGG y las jerarquías BRITE. Esto permite un análisis integrado de las interacciones de los medicamentos con la información genómica. Los medicamentos en bruto y otras sustancias relacionadas con la salud, que están fuera de la categoría de medicamentos aprobados, se almacenan en la base de datos KEGG ENVIRON. Las bases de datos de la categoría de información sanitaria se denominan colectivamente KEGG MEDICUS, que también incluye los prospectos de todos los medicamentos comercializados en Japón.

Modelo de suscripción

En julio de 2011, KEGG introdujo un modelo de suscripción para la descarga FTP debido a un recorte significativo de la financiación gubernamental. KEGG sigue estando disponible de forma gratuita a través de su sitio web, pero el modelo de suscripción ha suscitado debates sobre la sostenibilidad de las bases de datos bioinformáticas. [11] [12]

Véase también

Referencias

  1. ^ Kanehisa M, Goto S (2000). "KEGG: Enciclopedia de Kioto de genes y genomas". Nucleic Acids Res . 28 (1): 27–30. doi :10.1093/nar/28.1.27. PMC 102409 . PMID  10592173. 
  2. ^ Kanehisa M (1997). "Una base de datos para el análisis post-genómico". Trends Genet . 13 (9): 375–6. doi :10.1016/S0168-9525(97)01223-7. PMID  9287494.
  3. ^ Kanehisa M, Goto S, Hattori M, Aoki-Kinoshita KF, Itoh M, Kawashima S, Katayama T, Araki M, Hirakawa M (2006). "De la genómica a la genómica química: nuevos desarrollos en KEGG". Nucleic Acids Res . 34 (número de la base de datos): D354–7. doi :10.1093/nar/gkj102. PMC 1347464 . PMID  16381885. 
  4. ^ ab Kanehisa M, Goto S, Sato Y, Kawashima M, Furumichi M, Tanabe M (2014). "Datos, información, conocimiento y principio: volvamos al metabolismo en KEGG". Nucleic Acids Res . 42 (número de la base de datos): D199–205. doi :10.1093/nar/gkt1076. PMC 3965122 . PMID  24214961. 
  5. ^ Fleischmann RD, Adams MD, White O, Clayton RA, Kirkness EF, Kerlavage AR, Bult CJ, Tomb JF, Dougherty BA, Merrick JM, et al. (1995). "Secuenciación aleatoria de todo el genoma y ensamblaje de Haemophilus influenzae Rd". Science . 269 (5223): 496–512. Bibcode :1995Sci...269..496F. doi :10.1126/science.7542800. PMID  7542800. S2CID  10423613.
  6. ^ Kanehisa M (2013). "Evolución química y genómica de redes de reacciones catalizadas por enzimas". FEBS Lett . 587 (17): 2731–7. doi :10.1016/j.febslet.2013.06.026. hdl : 2433/178762 . PMID  23816707. S2CID  40074657.
  7. ^ Goto S, Nishioka T, Kanehisa M (1999). "Base de datos LIGAND para enzimas, compuestos y reacciones". Nucleic Acids Res . 27 (1): 377–9. doi :10.1093/nar/27.1.377. PMC 148189 . PMID  9847234. 
  8. ^ Hashimoto K, Goto S, Kawano S, Aoki-Kinoshita KF, Ueda N, Hamajima M, Kawasaki T, Kanehisa M (2006). "KEGG como un recurso informático para glicomas". Glicobiología . 16 (5): 63R–70R. doi : 10.1093/glycob/cwj010 . PMID  16014746.
  9. ^ Muto A, Kotera M, Tokimatsu T, Nakagawa Z, Goto S, Kanehisa M (2013). "Arquitectura modular de vías metabólicas revelada por secuencias conservadas de reacciones". J Chem Inf Model . 53 (3): 613–22. doi :10.1021/ci3005379. PMC 3632090 . PMID  23384306. 
  10. ^ Kanehisa M, Goto S, Furumichi M, Tanabe M, Hirakawa M (2010). "KEGG para la representación y análisis de redes moleculares que involucran enfermedades y fármacos". Nucleic Acids Res . 38 (número de base de datos): D355–60. doi :10.1093/nar/gkp896. PMC 2808910 . PMID  19880382. 
  11. ^ Galperin MY, Fernández-Suárez XM (2012). "El número de 2012 de la base de datos de investigación de ácidos nucleicos y la colección de bases de datos de biología molecular en línea". Nucleic Acids Res . 40 (número de la base de datos): D1–8. doi :10.1093/nar/gkr1196. PMC 3245068 . PMID  22144685. 
  12. ^ Hayden, EC (2013). "Base de datos de plantas populares preparada para cobrar a los usuarios". Nature . doi :10.1038/nature.2013.13642. S2CID  211729309.

Enlaces externos