KEGG ( Enciclopedia de genes y genomas de Kyoto ) es una colección de bases de datos que tratan sobre genomas , vías biológicas , enfermedades , fármacos y sustancias químicas . KEGG se utiliza para la investigación y la educación en bioinformática , incluido el análisis de datos en genómica , metagenómica , metabolómica y otros estudios ómicos , modelado y simulación en biología de sistemas e investigación traslacional en el desarrollo de fármacos .
El proyecto de base de datos KEGG fue iniciado en 1995 por Minoru Kanehisa , profesor del Instituto de Investigación Química de la Universidad de Kyoto , en el marco del entonces Programa Japonés del Genoma Humano . [1] [2] Previendo la necesidad de un recurso computarizado que pueda usarse para la interpretación biológica de los datos de la secuencia del genoma , comenzó a desarrollar la base de datos KEGG PATHWAY. Es una colección de mapas de rutas KEGG dibujados manualmente que representan conocimientos experimentales sobre el metabolismo y otras funciones de la célula y el organismo . Cada mapa de ruta contiene una red de interacciones y reacciones moleculares y está diseñado para vincular genes en el genoma con productos genéticos (principalmente proteínas ) en la ruta. Esto ha permitido el análisis llamado mapeo de vías KEGG, mediante el cual el contenido genético en el genoma se compara con la base de datos KEGG PATHWAY para examinar qué vías y funciones asociadas es probable que estén codificadas en el genoma.
Según los desarrolladores, KEGG es una "representación informática" del sistema biológico . [3] Integra bloques de construcción y diagramas de cableado del sistema; más específicamente, bloques de construcción genéticos de genes y proteínas, bloques de construcción químicos de moléculas pequeñas y reacciones, y diagramas de cableado de interacciones moleculares y redes de reacción. Este concepto se realiza en las siguientes bases de datos de KEGG, que se clasifican en información de sistemas, genómica, química y de salud. [4]
La base de datos KEGG PATHWAY, la base de datos de diagramas de cableado, es el núcleo del recurso KEGG. Es una colección de mapas de vías que integran muchas entidades, incluidos genes, proteínas, ARN, compuestos químicos, glicanos y reacciones químicas, así como genes de enfermedades y objetivos de fármacos, que se almacenan como entradas individuales en otras bases de datos de KEGG. Los mapas de ruta se clasifican en las siguientes secciones:
La sección de metabolismo contiene mapas globales dibujados estéticamente que muestran una imagen general del metabolismo, además de mapas regulares de vías metabólicas. Los mapas globales de baja resolución se pueden utilizar, por ejemplo, para comparar las capacidades metabólicas de diferentes organismos en estudios genómicos y diferentes muestras ambientales en estudios metagenómicos. Por el contrario, los módulos KEGG en la base de datos KEGG MODULE son diagramas de cableado localizados de mayor resolución, que representan unidades funcionales más estrictas dentro de un mapa de vías, como subvías conservadas entre grupos de organismos y complejos moleculares específicos. Los módulos KEGG se definen como conjuntos de genes característicos que pueden vincularse a capacidades metabólicas específicas y otras características fenotípicas , de modo que puedan usarse para la interpretación automática de los datos del genoma y el metagenoma.
Otra base de datos que complementa a KEGG PATHWAY es la base de datos KEGG BRITE. Es una base de datos de ontología que contiene clasificaciones jerárquicas de diversas entidades, incluidos genes, proteínas, organismos, enfermedades, fármacos y compuestos químicos. Si bien KEGG PATHWAY se limita a interacciones moleculares y reacciones de estas entidades, KEGG BRITE incorpora muchos tipos diferentes de relaciones.
Varios meses después de que se iniciara el proyecto KEGG en 1995, se publicó el primer informe del genoma bacteriano completamente secuenciado. [5] Desde entonces, todos los genomas completos publicados se acumulan en KEGG tanto para eucariotas como para procariotas . La base de datos KEGG GENES contiene información a nivel de genes/proteínas y la base de datos KEGG GENOME contiene información a nivel de organismo para estos genomas. La base de datos KEGG GENES consta de conjuntos de genes para los genomas completos, y los genes de cada conjunto reciben anotaciones en forma de establecimiento de correspondencias con los diagramas de cableado de los mapas de vías KEGG, los módulos KEGG y las jerarquías BRITE.
Estas correspondencias se realizan utilizando el concepto de ortólogos . Los mapas de vías KEGG se dibujan basándose en evidencia experimental en organismos específicos, pero están diseñados para ser aplicables también a otros organismos, porque diferentes organismos, como los humanos y los ratones, a menudo comparten vías idénticas que consisten en genes funcionalmente idénticos, llamados genes ortólogos o ortólogos. Todos los genes de la base de datos KEGG GENES se agrupan en dichos ortólogos en la base de datos KEGG ORTHOLOGY (KO). Debido a que los nodos (productos genéticos) de los mapas de rutas de KEGG, así como los módulos de KEGG y las jerarquías BRITE, reciben identificadores KO, las correspondencias se establecen una vez que los genes en el genoma se anotan con identificadores KO mediante el procedimiento de anotación del genoma en KEGG. [4]
Los mapas de la ruta metabólica de KEGG se dibujan para representar los aspectos duales de la red metabólica: la red genómica de cómo las enzimas codificadas por el genoma se conectan para catalizar reacciones consecutivas y la red química de cómo estas reacciones transforman las estructuras químicas de los sustratos y productos . [6] Un conjunto de genes enzimáticos en el genoma identificará redes de relación enzimática cuando se superpongan a los mapas de la vía KEGG, que a su vez caracterizan las redes de transformación de estructuras químicas, lo que permite la interpretación de los potenciales biosintéticos y de biodegradación del organismo. Alternativamente, un conjunto de metabolitos identificados en el metaboloma conducirá a la comprensión de las vías enzimáticas y los genes enzimáticos implicados.
Las bases de datos de la categoría de información química, que colectivamente se denominan KEGG LIGAND, se organizan capturando conocimiento de la red química. Al comienzo del proyecto KEGG, KEGG LIGAND constaba de tres bases de datos: KEGG COMPOUND para compuestos químicos, KEGG REACTION para reacciones químicas y KEGG ENZYME para reacciones en la nomenclatura enzimática. [7] Actualmente, existen bases de datos adicionales: KEGG GLYCAN para glicanos [8] y dos bases de datos de reacciones auxiliares llamadas RPAIR (alineaciones de pares de reactivos) y RCLASS (clase de reacción). [9] KEGG COMPOUND también se ha ampliado para contener varios compuestos como xenobióticos , además de metabolitos.
En KEGG, las enfermedades se consideran estados perturbados del sistema biológico causados por perturbaciones de factores genéticos y ambientales, y las drogas se consideran diferentes tipos de perturbaciones. [10] La base de datos KEGG PATHWAY incluye no sólo los estados normales sino también los estados perturbados de los sistemas biológicos. Sin embargo, no se pueden trazar mapas de las vías de la enfermedad para la mayoría de las enfermedades porque no se comprenden bien los mecanismos moleculares. Se adopta un enfoque alternativo en la base de datos KEGG DISEASE, que simplemente cataloga los factores genéticos conocidos y los factores ambientales de las enfermedades. Estos catálogos pueden eventualmente conducir a diagramas de cableado de enfermedades más completos.
La base de datos de KEGG DRUG contiene ingredientes activos de medicamentos aprobados en Japón, EE. UU. y Europa. Se distinguen por estructuras químicas y/o componentes químicos y se asocian con moléculas diana , enzimas metabolizadoras y otra información de la red de interacción molecular en los mapas de vías KEGG y las jerarquías BRITE. Esto permite un análisis integrado de las interacciones farmacológicas con la información genómica. Los medicamentos crudos y otras sustancias relacionadas con la salud que no pertenecen a la categoría de medicamentos aprobados se almacenan en la base de datos de KEGG ENVIRON. Las bases de datos de la categoría de información de salud se denominan colectivamente KEGG MEDICUS, que también incluye prospectos de todos los medicamentos comercializados en Japón.
En julio de 2011, KEGG introdujo un modelo de suscripción para descargas FTP debido a un importante recorte de la financiación gubernamental. KEGG sigue estando disponible gratuitamente a través de su sitio web, pero el modelo de suscripción ha generado debates sobre la sostenibilidad de las bases de datos bioinformáticas. [11] [12]