KEGG

KEGG ( Enciclopedia de genes y genomas de Kyoto ) es una colección de bases de datos que tratan sobre genomas , vías biológicas , enfermedades , fármacos y sustancias químicas . KEGG se utiliza para la investigación y la educación en bioinformática , incluido el análisis de datos en genómica , metagenómica , metabolómica y otros estudios ómicos , modelado y simulación en biología de sistemas e investigación traslacional en el desarrollo de fármacos .

El proyecto de base de datos KEGG fue iniciado en 1995 por Minoru Kanehisa , profesor del Instituto de Investigación Química de la Universidad de Kyoto , en el marco del entonces Programa Japonés del Genoma Humano . ^[1]^[2] Previendo la necesidad de un recurso computarizado que pueda usarse para la interpretación biológica de los datos de la secuencia del genoma , comenzó a desarrollar la base de datos KEGG PATHWAY. Es una colección de mapas de rutas KEGG dibujados manualmente que representan conocimientos experimentales sobre el metabolismo y otras funciones de la célula y el organismo . Cada mapa de ruta contiene una red de interacciones y reacciones moleculares y está diseñado para vincular genes en el genoma con productos genéticos (principalmente proteínas ) en la ruta. Esto ha permitido el análisis llamado mapeo de vías KEGG, mediante el cual el contenido genético en el genoma se compara con la base de datos KEGG PATHWAY para examinar qué vías y funciones asociadas es probable que estén codificadas en el genoma.

Según los desarrolladores, KEGG es una "representación informática" del sistema biológico . ^[3] Integra bloques de construcción y diagramas de cableado del sistema; más específicamente, bloques de construcción genéticos de genes y proteínas, bloques de construcción químicos de moléculas pequeñas y reacciones, y diagramas de cableado de interacciones moleculares y redes de reacción. Este concepto se realiza en las siguientes bases de datos de KEGG, que se clasifican en información de sistemas, genómica, química y de salud. ^[4]

Información de sistemas
- VÍA: mapas de vías para funciones celulares y del organismo.
- MÓDULO: módulos o unidades funcionales de genes
- BRITE: clasificaciones jerárquicas de entidades biológicas
Información genómica
- GENOMA: genomas completos
- GENES: genes y proteínas en los genomas completos.
- ORTOLOGÍA: grupos ortólogos de genes en los genomas completos.
Información química
- COMPUESTO GLICANO: compuestos químicos y glicanos.
- REACCIÓN, RPAIR, RCLASS: reacciones químicas
- ENZIMA: nomenclatura de enzimas
Información de salud
- ENFERMEDAD: enfermedades humanas
- MEDICAMENTO: medicamentos aprobados
- MEDIO AMBIENTE: drogas crudas y sustancias relacionadas con la salud

Bases de datos

Información de sistemas

La base de datos KEGG PATHWAY, la base de datos de diagramas de cableado, es el núcleo del recurso KEGG. Es una colección de mapas de vías que integran muchas entidades, incluidos genes, proteínas, ARN, compuestos químicos, glicanos y reacciones químicas, así como genes de enfermedades y objetivos de fármacos, que se almacenan como entradas individuales en otras bases de datos de KEGG. Los mapas de ruta se clasifican en las siguientes secciones:

Metabolismo
Procesamiento de información genética ( transcripción , traducción , replicación y reparación , etc.)
Procesamiento de información ambiental ( transporte de membrana , transducción de señales , etc.)
Procesos celulares ( crecimiento celular , muerte celular , funciones de la membrana celular , etc.)
Sistemas orgánicos ( sistema inmunológico , sistema endocrino , sistema nervioso , etc.)
Enfermedades humanas
Desarrollo de fármacos

La sección de metabolismo contiene mapas globales dibujados estéticamente que muestran una imagen general del metabolismo, además de mapas regulares de vías metabólicas. Los mapas globales de baja resolución se pueden utilizar, por ejemplo, para comparar las capacidades metabólicas de diferentes organismos en estudios genómicos y diferentes muestras ambientales en estudios metagenómicos. Por el contrario, los módulos KEGG en la base de datos KEGG MODULE son diagramas de cableado localizados de mayor resolución, que representan unidades funcionales más estrictas dentro de un mapa de vías, como subvías conservadas entre grupos de organismos y complejos moleculares específicos. Los módulos KEGG se definen como conjuntos de genes característicos que pueden vincularse a capacidades metabólicas específicas y otras características fenotípicas , de modo que puedan usarse para la interpretación automática de los datos del genoma y el metagenoma.

Otra base de datos que complementa a KEGG PATHWAY es la base de datos KEGG BRITE. Es una base de datos de ontología que contiene clasificaciones jerárquicas de diversas entidades, incluidos genes, proteínas, organismos, enfermedades, fármacos y compuestos químicos. Si bien KEGG PATHWAY se limita a interacciones moleculares y reacciones de estas entidades, KEGG BRITE incorpora muchos tipos diferentes de relaciones.

Información genómica

Varios meses después de que se iniciara el proyecto KEGG en 1995, se publicó el primer informe del genoma bacteriano completamente secuenciado. ^[5] Desde entonces, todos los genomas completos publicados se acumulan en KEGG tanto para eucariotas como para procariotas . La base de datos KEGG GENES contiene información a nivel de genes/proteínas y la base de datos KEGG GENOME contiene información a nivel de organismo para estos genomas. La base de datos KEGG GENES consta de conjuntos de genes para los genomas completos, y los genes de cada conjunto reciben anotaciones en forma de establecimiento de correspondencias con los diagramas de cableado de los mapas de vías KEGG, los módulos KEGG y las jerarquías BRITE.

Estas correspondencias se realizan utilizando el concepto de ortólogos . Los mapas de vías KEGG se dibujan basándose en evidencia experimental en organismos específicos, pero están diseñados para ser aplicables también a otros organismos, porque diferentes organismos, como los humanos y los ratones, a menudo comparten vías idénticas que consisten en genes funcionalmente idénticos, llamados genes ortólogos o ortólogos. Todos los genes de la base de datos KEGG GENES se agrupan en dichos ortólogos en la base de datos KEGG ORTHOLOGY (KO). Debido a que los nodos (productos genéticos) de los mapas de rutas de KEGG, así como los módulos de KEGG y las jerarquías BRITE, reciben identificadores KO, las correspondencias se establecen una vez que los genes en el genoma se anotan con identificadores KO mediante el procedimiento de anotación del genoma en KEGG. ^[4]

Información química

Los mapas de la ruta metabólica de KEGG se dibujan para representar los aspectos duales de la red metabólica: la red genómica de cómo las enzimas codificadas por el genoma se conectan para catalizar reacciones consecutivas y la red química de cómo estas reacciones transforman las estructuras químicas de los sustratos y productos . ^[6] Un conjunto de genes enzimáticos en el genoma identificará redes de relación enzimática cuando se superpongan a los mapas de la vía KEGG, que a su vez caracterizan las redes de transformación de estructuras químicas, lo que permite la interpretación de los potenciales biosintéticos y de biodegradación del organismo. Alternativamente, un conjunto de metabolitos identificados en el metaboloma conducirá a la comprensión de las vías enzimáticas y los genes enzimáticos implicados.

Las bases de datos de la categoría de información química, que colectivamente se denominan KEGG LIGAND, se organizan capturando conocimiento de la red química. Al comienzo del proyecto KEGG, KEGG LIGAND constaba de tres bases de datos: KEGG COMPOUND para compuestos químicos, KEGG REACTION para reacciones químicas y KEGG ENZYME para reacciones en la nomenclatura enzimática. ^[7] Actualmente, existen bases de datos adicionales: KEGG GLYCAN para glicanos ^[8] y dos bases de datos de reacciones auxiliares llamadas RPAIR (alineaciones de pares de reactivos) y RCLASS (clase de reacción). ^[9] KEGG COMPOUND también se ha ampliado para contener varios compuestos como xenobióticos , además de metabolitos.

Información de salud

En KEGG, las enfermedades se consideran estados perturbados del sistema biológico causados por perturbaciones de factores genéticos y ambientales, y las drogas se consideran diferentes tipos de perturbaciones. ^[10] La base de datos KEGG PATHWAY incluye no sólo los estados normales sino también los estados perturbados de los sistemas biológicos. Sin embargo, no se pueden trazar mapas de las vías de la enfermedad para la mayoría de las enfermedades porque no se comprenden bien los mecanismos moleculares. Se adopta un enfoque alternativo en la base de datos KEGG DISEASE, que simplemente cataloga los factores genéticos conocidos y los factores ambientales de las enfermedades. Estos catálogos pueden eventualmente conducir a diagramas de cableado de enfermedades más completos.

La base de datos de KEGG DRUG contiene ingredientes activos de medicamentos aprobados en Japón, EE. UU. y Europa. Se distinguen por estructuras químicas y/o componentes químicos y se asocian con moléculas diana , enzimas metabolizadoras y otra información de la red de interacción molecular en los mapas de vías KEGG y las jerarquías BRITE. Esto permite un análisis integrado de las interacciones farmacológicas con la información genómica. Los medicamentos crudos y otras sustancias relacionadas con la salud que no pertenecen a la categoría de medicamentos aprobados se almacenan en la base de datos de KEGG ENVIRON. Las bases de datos de la categoría de información de salud se denominan colectivamente KEGG MEDICUS, que también incluye prospectos de todos los medicamentos comercializados en Japón.

Modelo de suscripción

En julio de 2011, KEGG introdujo un modelo de suscripción para descargas FTP debido a un importante recorte de la financiación gubernamental. KEGG sigue estando disponible gratuitamente a través de su sitio web, pero el modelo de suscripción ha generado debates sobre la sostenibilidad de las bases de datos bioinformáticas. ^[11]^[12]

Ver también

Base de datos comparativa de toxicogenómica : CTD integra las vías KEGG con datos toxicogenómicos y de enfermedades
ConsensusPathDB , una base de datos de interacciones funcionales moleculares que integra información de KEGG
Ontología genética (GO)
PubMed
Uniprot
Base de datos de enfermedades genéticas

Referencias

^ Kanehisa M, Goto S (2000). "KEGG: Enciclopedia de genes y genomas de Kioto". Ácidos nucleicos Res . 28 (1): 27–30. doi :10.1093/nar/28.1.27. PMC 102409 . PMID 10592173.
^ Kanehisa M (1997). "Una base de datos para el análisis posgenoma". Tendencias Genet . 13 (9): 375–6. doi :10.1016/S0168-9525(97)01223-7. PMID 9287494.
^ Kanehisa M, Goto S, Hattori M, Aoki-Kinoshita KF, Itoh M, Kawashima S, Katayama T, Araki M, Hirakawa M (2006). "De la genómica a la genómica química: nuevos desarrollos en KEGG". Ácidos nucleicos Res . 34 (Problema de la base de datos): D354–7. doi :10.1093/nar/gkj102. PMC 1347464 . PMID 16381885.
^ ab Kanehisa M, Goto S, Sato Y, Kawashima M, Furumichi M, Tanabe M (2014). "Datos, información, conocimiento y principio: regreso al metabolismo en KEGG". Ácidos nucleicos Res . 42 (Problema de la base de datos): D199–205. doi : 10.1093/nar/gkt1076. PMC 3965122 . PMID 24214961.
^ Fleischmann RD, Adams MD, White O, Clayton RA, Kirkness EF, Kerlavage AR, Bult CJ, Tomb JF, Dougherty BA, Merrick JM, et al. (1995). "Secuenciación aleatoria y ensamblaje del genoma completo de Haemophilus influenzae Rd". Ciencia . 269 (5223): 496–512. Código Bib : 1995 Ciencia... 269.. 496F. doi : 10.1126/ciencia.7542800. PMID 7542800. S2CID 10423613.
^ Kanehisa M (2013). "Evolución química y genómica de redes de reacción catalizadas por enzimas". FEBS Lett . 587 (17): 2731–7. doi :10.1016/j.febslet.2013.06.026. hdl : 2433/178762 . PMID 23816707. S2CID 40074657.
^ Goto S, Nishioka T, Kanehisa M (1999). "Base de datos LIGAND para enzimas, compuestos y reacciones". Ácidos nucleicos Res . 27 (1): 377–9. doi :10.1093/nar/27.1.377. PMC 148189 . PMID 9847234.
^ Hashimoto K, Goto S, Kawano S, Aoki-Kinoshita KF, Ueda N, Hamajima M, Kawasaki T, Kanehisa M (2006). "KEGG como recurso informático de glicocome". Glicobiología . 16 (5): 63R–70R. doi : 10.1093/glicob/cwj010 . PMID 16014746.
^ Muto A, Kotera M, Tokimatsu T, Nakagawa Z, Goto S, Kanehisa M (2013). "Arquitectura modular de vías metabólicas revelada por secuencias de reacciones conservadas". Modelo J Chem Inf . 53 (3): 613–22. doi :10.1021/ci3005379. PMC 3632090 . PMID 23384306.
^ Kanehisa M, Goto S, Furumichi M, Tanabe M, Hirakawa M (2010). "KEGG para la representación y análisis de redes moleculares que involucran enfermedades y fármacos". Ácidos nucleicos Res . 38 (Problema de la base de datos): D355–60. doi : 10.1093/nar/gkp896. PMC 2808910 . PMID 19880382.
^ Galperin MY, Fernández-Suárez XM (2012). "La edición de la base de datos de investigación de ácidos nucleicos de 2012 y la colección de bases de datos de biología molecular en línea". Ácidos nucleicos Res . 40 (Problema de la base de datos): D1–8. doi : 10.1093/nar/gkr1196. PMC 3245068 . PMID 22144685.
^ Hayden, CE (2013). "Base de datos de plantas popular configurada para cobrar a los usuarios". Naturaleza . doi :10.1038/naturaleza.2013.13642. S2CID 211729309.

enlaces externos

Wikidata tiene la propiedad:

KEGG ID (P665) (ver usos )

sitio web de KEGG
Sitio espejo de GenomeNet
La entrada para KEGG en MetaBase