Base de datos química

Una base de datos química es una base de datos diseñada específicamente para almacenar información química . Esta información se refiere a estructuras químicas y cristalinas , espectros, reacciones y síntesis, y datos termofísicos.

Tipos de bases de datos químicas

Base de datos de bioactividad

Las bases de datos de bioactividad correlacionan estructuras u otra información química con resultados de bioactividad tomados de bioensayos en literatura, patentes y programas de detección.

Estructuras químicas

Las estructuras químicas se representan tradicionalmente utilizando líneas que indican enlaces químicos entre átomos y se dibujan en papel ( fórmulas estructurales 2D ). Si bien estas son representaciones visuales ideales para el químico , no son adecuadas para el uso computacional y especialmente para la búsqueda y el almacenamiento . Las moléculas pequeñas (también llamadas ligandos en aplicaciones de diseño de fármacos) generalmente se representan utilizando listas de átomos y sus conexiones. Sin embargo, las moléculas grandes, como las proteínas, se representan de manera más compacta utilizando las secuencias de sus bloques de construcción de aminoácidos. También se representan los isótopos radiactivos, lo que es un atributo importante para algunas aplicaciones. Se espera que las grandes bases de datos químicas para estructuras manejen el almacenamiento y la búsqueda de información sobre millones de moléculas que ocupan terabytes de memoria física. ^[6]^[7]

Base de datos de literatura

Las bases de datos de literatura química relacionan estructuras u otra información química con referencias relevantes, como artículos académicos o patentes. Este tipo de base de datos incluye STN , Scifinder y Reaxys . Muchas bases de datos que se centran en la caracterización química también incluyen enlaces a la literatura.

Base de datos cristalográfica

Las bases de datos cristalográficas almacenan datos de estructura cristalina obtenidos mediante rayos X. Algunos ejemplos comunes son Protein Data Bank y Cambridge Structural Database .

Base de datos de espectros de RMN

Las bases de datos de espectros de RMN correlacionan la estructura química con los datos de RMN. Estas bases de datos a menudo incluyen otros datos de caracterización, como FTIR y espectrometría de masas .

Base de datos de reacciones

La mayoría de las bases de datos químicas almacenan información sobre moléculas estables , pero en las bases de datos de reacciones también se almacenan intermediarios y moléculas inestables creadas temporalmente. Las bases de datos de reacciones contienen información sobre productos, eductos y mecanismos de reacción .

Un ejemplo popular que enumera datos de reacciones químicas , entre otros, sería la base de datos Beilstein .

Base de datos termofísica

Los datos termofísicos son información sobre

equilibrios de fases que incluyen equilibrio vapor-líquido , solubilidad de gases en líquidos, líquidos en sólidos (SLE), calores de mezcla, vaporización y fusión .
datos calóricos como capacidad calorífica , calor de formación y combustión ,
Propiedades de transporte como viscosidad y conductividad térmica.

Representación de la estructura química

Existen dos técnicas principales para representar estructuras químicas en bases de datos digitales

Como tablas de conexión/ matrices de adyacencia /listas con información adicional sobre enlaces (aristas) y atributos de los átomos (nodos), como:
Archivo MDL Mol , PDB , CML
Como una notación de cadena lineal basada en un recorrido en profundidad o en amplitud , como por ejemplo:
SONRISAS /INTELIGENCIA, SLN , WLN , InChI

Estos métodos se han perfeccionado para permitir la representación de diferencias y cargas estereoquímicas , así como de tipos especiales de enlaces, como los que se observan en compuestos organometálicos . La principal ventaja de una representación por ordenador es la posibilidad de aumentar el almacenamiento y realizar búsquedas rápidas y flexibles.

Buscar

Infraestructura

Los químicos pueden buscar en bases de datos utilizando partes de estructuras, partes de sus nombres IUPAC y basándose en restricciones sobre propiedades. Las bases de datos químicas se diferencian de otras bases de datos de uso general en que admiten la búsqueda de subestructuras, un método para recuperar sustancias químicas que coinciden con un patrón de átomos y enlaces que especifica un usuario. Este tipo de búsqueda se logra buscando isomorfismos de subgrafos (a veces también llamados monomorfismos ) y es una aplicación ampliamente estudiada de la teoría de grafos . ^[8]^[9]^[10]

Las estructuras de consulta pueden contener patrones de enlaces como "sencillo/aromático" o "cualquiera" para brindar flexibilidad. De manera similar, los vértices que en un compuesto real serían un átomo específico pueden reemplazarse con una lista de átomos en la consulta. La isomería cis - trans en los enlaces dobles se atiende al brindar la opción de recuperar solo la forma E , la forma Z o ambas. ^[8]^[11]

Conformación

La búsqueda por conformación tridimensional de moléculas o por especificación de restricciones espaciales es otra característica que resulta particularmente útil en el diseño de fármacos . Las búsquedas de este tipo pueden ser computacionalmente muy costosas. Se han propuesto muchos métodos aproximados, por ejemplo, BCUTS, ^[12]^[13]^[14] representaciones de funciones especiales, momentos de inercia , histogramas de trazado de rayos , histogramas de distancia máxima, multipolos de forma, por nombrar algunos. ^[15]^[16]^[17]^[18]^[19]

Ejemplos

Las bases de datos de gran tamaño, como PubChem ^[11]^[20] y ChemSpider ^[21] , tienen interfaces gráficas para realizar búsquedas. El Chemical Abstracts Service proporciona herramientas para realizar búsquedas en la literatura química y Reaxys , de Elsevier, cubre tanto la información sobre productos químicos como sobre reacciones, incluida la que originalmente se encontraba en la base de datos Beilstein [ ²² ] . PATENTSCOPE permite acceder a las patentes químicas por subestructura ^[23] y los artículos de Wikipedia que describen productos químicos individuales también se pueden buscar de esa manera ^{[24] .}

Los proveedores de productos químicos como intermediarios de síntesis o para cribado de alto rendimiento proporcionan habitualmente interfaces de búsqueda. Actualmente, la base de datos más grande que el público puede consultar libremente es la base de datos ZINC , que se afirma que contiene más de 37 mil millones de moléculas disponibles comercialmente. ^[25]^[26]

Descriptores

Todas las propiedades de las moléculas más allá de su estructura se pueden dividir en atributos fisicoquímicos o farmacológicos también llamados descriptores. Además de eso, existen varios sistemas de nombres artificiales y más o menos estandarizados para las moléculas que proporcionan nombres y sinónimos más o menos ambiguos . El nombre IUPAC suele ser una buena opción para representar la estructura de una molécula en una cadena única y legible para humanos, aunque se vuelve difícil de manejar para moléculas más grandes. Los nombres triviales , por otro lado, abundan con homónimos y sinónimos y, por lo tanto, son una mala opción como clave de base de datos definitoria . Si bien los descriptores fisicoquímicos como el peso molecular , la carga ( parcial ), la solubilidad , etc. se pueden calcular en su mayoría directamente en función de la estructura de la molécula, los descriptores farmacológicos solo se pueden derivar indirectamente utilizando estadísticas multivariadas involucradas o resultados experimentales ( cribado , bioensayo ). Todos esos descriptores pueden, por razones de esfuerzo computacional, almacenarse junto con la representación de la molécula y generalmente lo son.

Semejanza

No existe una única definición de similitud molecular, sin embargo, el concepto puede definirse según la aplicación y a menudo se describe como una inversa de una medida de distancia en el espacio de descriptores. Dos moléculas pueden considerarse más similares, por ejemplo, si su diferencia en pesos moleculares es menor que cuando se comparan con otras. Se podría combinar una variedad de otras medidas para producir una medida de distancia multivariable. Las medidas de distancia a menudo se clasifican en medidas euclidianas y medidas no euclidianas según se cumpla o no la desigualdad triangular . La búsqueda de subestructura basada en el Máximo Subgrafo Común ( MCS ) ^[27] (medida de similitud o distancia) también es muy común. El MCS también se utiliza para detectar compuestos similares a fármacos al encontrar moléculas que comparten un subgrafo (subestructura) común. ^[28]

Los productos químicos de las bases de datos se pueden agrupar en grupos de moléculas "similares" en función de sus similitudes. Se pueden aplicar enfoques de agrupamiento tanto jerárquicos como no jerárquicos a entidades químicas con múltiples atributos. Estos atributos o propiedades moleculares se pueden determinar empíricamente o mediante descriptores derivados computacionalmente . Uno de los enfoques de agrupamiento más populares es el algoritmo de Jarvis-Patrick. ^[29]

En los repositorios químicos orientados farmacológicamente , la similitud generalmente se define en términos de los efectos biológicos de los compuestos ( ADME /tox) que a su vez pueden inferirse de forma semiautomática a partir de combinaciones similares de descriptores fisicoquímicos utilizando métodos QSAR .

Sistemas de registro

Los sistemas de bases de datos que mantienen registros únicos de compuestos químicos se denominan sistemas de registro. Suelen emplearse para la indexación de productos químicos, los sistemas de patentes y las bases de datos industriales.

Los sistemas de registro generalmente refuerzan la unicidad de la sustancia química representada en la base de datos mediante el uso de representaciones únicas. Al aplicar reglas de precedencia para la generación de notaciones en cadenas, se pueden obtener representaciones de cadenas únicas o " canónicas ", como " SMILES canónico ". Algunos sistemas de registro, como el sistema CAS, utilizan algoritmos para generar códigos hash únicos para lograr el mismo objetivo.

Una diferencia clave entre un sistema de registro y una base de datos química simple es la capacidad de representar con precisión lo que se conoce, lo que se desconoce y lo que se conoce parcialmente. Por ejemplo, una base de datos química puede almacenar una molécula con estereoquímica no especificada, mientras que un sistema de registro químico requiere que el registrador especifique si la estereoconfiguración es desconocida, una mezcla específica (conocida) o racémica . Cada uno de estos se consideraría un registro diferente en un sistema de registro químico.

Los sistemas de registro también preprocesan las moléculas para evitar considerar diferencias triviales, como las diferencias en los iones halógenos en los productos químicos.

Un ejemplo es el sistema de registro del Chemical Abstracts Service (CAS). Véase también número de registro CAS .

Lista de cartuchos químicos

Acuerdo
Directo ^[30]
Química Jurídica ^[31]
CambridgeSoft ^[32]
Bingo ^[33]
Localizar con precisión ^[34]

Lista de sistemas de registro de sustancias químicas

QuímicaReg ^[35]
Registrarse ^[36]
Molécula de regadío ^[37]
Registro de compuestos ^[38]
Conjunto ^[39]

Basado en la web

Herramientas

Las representaciones computacionales suelen hacerse transparentes para los químicos mediante la visualización gráfica de los datos. La entrada de datos también se simplifica mediante el uso de editores de estructura química. Estos editores convierten internamente los datos gráficos en representaciones computacionales.

También existen numerosos algoritmos para la interconversión de varios formatos de representación. Una utilidad de código abierto para la conversión es OpenBabel . Estos algoritmos de búsqueda y conversión se implementan ya sea dentro del propio sistema de base de datos o, como es la tendencia actual, se implementan como componentes externos que se adaptan a los sistemas de bases de datos relacionales estándar. Tanto los sistemas basados en Oracle como en PostgreSQL utilizan tecnología de cartuchos que permite tipos de datos definidos por el usuario. Estos permiten al usuario realizar consultas SQL con condiciones de búsqueda química (por ejemplo, una consulta para buscar registros que tengan un anillo de fenilo en su estructura representado como una cadena SMILES en una columna SMILESCOL podría ser

 SELECCIONAR * DE CHEMTABLE DONDE SMILESCOL . CONTIENE ( 'c1ccccc1' )

Los algoritmos para la conversión de nombres IUPAC en representaciones de estructuras y viceversa también se utilizan para extraer información estructural del texto . Sin embargo, existen dificultades debido a la existencia de múltiples dialectos de la IUPAC. Se está trabajando para establecer un estándar IUPAC único (consulte InChI ).

Véase también

Base de datos biológica : base de datos de información biológica
BindingDB : base de datos para interacciones entre proteínas y moléculas pequeñas
ChEBI – Base de datos química y ontología de entidades moleculares
ChEMBL – Base de datos química de moléculas bioactivas que también tienen propiedades similares a las de los fármacos
Similitud química – Término químico
Base de datos estructural Chemisches Zentralblatt - revista científica
Collaborative Drug Discovery : empresa de Burlingame, Estados Unidos
Fuente de referencia de colocalización
Base de datos de toxicogenómica comparativa : herramienta de investigación en línea que describe las interacciones entre sustancias químicas, genes y enfermedades
Lista de química computacional
DrugBank – Base de datos en línea que contiene información sobre medicamentos y objetivos farmacológicos
Lista de bases de datos químicas
Lista de software para modelado de mecánica molecular
Base de datos LOLI : base de datos internacional sobre normativas químicas
Base de datos de espectros de RMN : recopilación de espectros de RMN para una gran cantidad de compuestos
Búsqueda por similitud : búsqueda de elementos similares en un conjunto de datos
Base de datos SPRESI

Referencias

^ "Página de inicio - ScrubChem". scrubchem.org . Archivado desde el original el 26 de mayo de 2017.
^ Harris, JB (2019). "Posprocesamiento de grandes datos de bioactividad". Bioinformática y descubrimiento de fármacos . Métodos Mol Biol. Vol. 1939. págs. 37–47. doi :10.1007/978-1-4939-9089-4_3. ISBN 978-1-4939-9088-7. Número de identificación personal 30848455. Número de identificación personal 73493315.
^ "PubChem". pubchem.ncbi.nlm.nih.gov .
^ Wang, Y; Bryant, SH; Cheng, T; Wang, J; Gindulyte, A; Shoemaker, BA; Thiessen, PA; He, S; Zhang, J (2017). "PubChem BioAssay: actualización de 2017". Nucleic Acids Res . 45 (D1): D955–D963. doi :10.1093/nar/gkw1118. PMC 5210581 . PMID 27899599.
^ "Base de datos ChEMBL".
^ Hoffmann, Torsten; Gastreich, Marcus (2019). "El siguiente nivel en la navegación espacial química: ir mucho más allá de las bibliotecas de compuestos enumerables". Drug Discovery Today . 24 (5): 1148–1156. doi : 10.1016/j.drudis.2019.02.013 .
^ Sadybekov, Anastasiia V.; Katritch, Vsevolod (2023). "Enfoques computacionales que agilizan el descubrimiento de fármacos". Nature . 616 (7958): 673–685. Bibcode :2023Natur.616..673S. doi : 10.1038/s41586-023-05905-z . PMID 37100941.
^ ab Currano, Judith N. (2014). "Capítulo 5. Búsqueda por estructura y subestructura". Información química para químicos . págs. 109–145. doi :10.1039/9781782620655-00109. ISBN 978-1-84973-551-3.
^ Ullmann, JR (1976). "Un algoritmo para el isomorfismo de subgrafos". Revista de la ACM . 23 : 31–42. doi : 10.1145/321921.321925 .
^ Warr, Wendy A. (2011). "Representación de estructuras químicas". Wires Computational Molecular Science . 1 (4): 557–579. doi :10.1002/wcms.36.
^ ab "Búsqueda de estructuras en PubChem". pubchem.ncbi.nlm.nih.gov . Consultado el 1 de agosto de 2024 .
^ Pearlman, RS; Smith, KM (1999). "Validación métrica y el concepto de subespacio relevante para el receptor". J. Chem. Inf. Comput. Sci . 39 : 28–35. doi :10.1021/ci980137x.
^ "BCUTDescriptor (API de CDK 2.5)". CDK - Kit de desarrollo de química . 2021-05-05 . Consultado el 2024-06-04 .
^ Burden, Frank R. (1 de agosto de 1989). "Número de identificación molecular para búsquedas de subestructuras". Revista de información química y ciencias de la computación . 29 (3): 225–227. doi :10.1021/ci00063a011.
^ Pearlman, RS; Smith, KM (1999). "Validación métrica y el concepto de subespacio relevante para el receptor". J. Chem. Inf. Comput. Sci . 39 : 28–35. doi :10.1021/ci980137x.
^ Lin, Jr., Hung; Clark, Timothy (2005). "Una descripción analítica, de resolución variable y completa de moléculas estáticas y sus propiedades de enlace intermolecular". Journal of Chemical Information and Modeling . 45 (4): 1010–1016. doi :10.1021/ci050059v. PMID 16045295.
^ Meek, PJ; Liu, Z.; Tian, L.; Wang, C. J; Welsh, W. J; Zauhar, R. J (2006). "Firmas de forma: acelerando el descubrimiento de fármacos asistido por ordenador". DDT 2006 . 19–20 (19–20): 895–904. doi :10.1016/j.drudis.2006.08.014. PMID 16997139.
^ Grant, J. A; Gallardo, MA; Pickup, BT (1996). "Un método rápido de comparación de formas moleculares: una aplicación simple de una descripción gaussiana de la forma molecular". Journal of Computational Chemistry . 17 (14): 1653–1666. doi :10.1002/(sici)1096-987x(19961115)17:14<1653::aid-jcc7>3.0.co;2-k. S2CID 96794688.
^ Ballester, PJ; Richards, WG (2007). "Reconocimiento de formas ultrarrápido para búsqueda de similitudes en bases de datos moleculares". Actas de la Royal Society A . 463 (2081): 1307–1321. Bibcode :2007RSPSA.463.1307B. doi :10.1098/rspa.2007.1823. S2CID 12540483.
^ Kim, Sunghwan (2021). "Explorando información química en PubChem". Protocolos actuales . 1 (8): e217. doi :10.1002/cpz1.217. PMC 8363119 . PMID 34370395.
^ Williams, Antony J. (2010). "ChemSpider: Integración de recursos basados en la estructura distribuidos a través de Internet". Mejorar el aprendizaje con recursos en línea, redes sociales y bibliotecas digitales . Serie de simposios de la ACS. Vol. 1060. págs. 23–39. doi :10.1021/bk-2010-1060.ch002. ISBN 978-0-8412-2600-5.
^ Jarabak, Charlotte; Mutton, Troy; Ridley, Damon D. (2020). "Información de propiedades en registros de sustancias en las principales herramientas de recuperación de datos e información química basadas en la web: comprensión del contenido, oportunidades de búsqueda y aplicación a la enseñanza". Revista de educación química . 97 (5): 1345–1359. Código Bibliográfico :2020JChEd..97.1345J. doi :10.1021/acs.jchemed.9b00966.
^ "La búsqueda de subestructuras ya está disponible en PATENTSCOPE". www.wipo.int . 2019-02-11 . Consultado el 2024-08-04 .
^ Ertl, Peter; Patiny, Luc; Sander, Thomas; et al. (2015). "Explorador de estructura química de Wikipedia: búsqueda de subestructura y similitud de moléculas de Wikipedia". Journal of Cheminformatics . 7 : 10. doi : 10.1186/s13321-015-0061-y . PMC 4374119 . PMID 25815062.
^ Tingle, Benjamin I.; Tang, Khanh G.; Castanon, Mar; Gutierrez, John J.; Khurelbaatar, Munkhzul; Dandarchuluun, Chinzorig; Moroz, Yurii S.; Irwin, John J. (2023). "ZINC-22─Una base de datos multimillonaria y gratuita de compuestos tangibles para el descubrimiento de ligandos". Revista de información y modelado químico . 63 (4): 1166–1176. doi : 10.1021/acs.jcim.2c01253 . PMC 9976280 . PMID 36790087.
^ Warr, Wendy A.; Nicklaus, Marc C.; Nicolaou, Christos A.; Rarey, Matthias (2022). "Exploración de colecciones de compuestos ultragrandes para el descubrimiento de fármacos". Revista de información y modelado químico . 62 (9): 2021–2034. doi :10.1021/acs.jcim.2c00224. PMID 35421301.
^ Rahman, SA; Bashton, M.; Holliday, GL; Schrader, R.; Thornton, JM (2000). "Kit de herramientas para el detector de subgrafos de moléculas pequeñas (SMSD)". Journal of Cheminformatics . 1 (1): 12. doi : 10.1186/1758-2946-1-12 . PMC 2820491 . PMID 20298518.
^ Rahman, S. Asad; Bashton, M.; Holliday, GL; Schrader, R.; Thornton, JM (2009). "Kit de herramientas para detectores de subgrafos de moléculas pequeñas (SMSD)". Journal of Cheminformatics . 1 (1): 12. doi : 10.1186/1758-2946-1-12 . PMC 2820491 . PMID 20298518.
^ Butina, Darko (1999). "Agrupamiento de bases de datos no supervisado basado en la huella dactilar de Daylight y la similitud de Tanimoto: una forma rápida y automatizada de agrupar conjuntos de datos pequeños y grandes". Chem. Inf. Comput. Sci . 39 (4): 747–750. doi :10.1021/ci9803381.
^ "BIOVIA Direct - BIOVIA - Dassault Systèmes®". 8 de septiembre de 2023.
^ "Motores JChem | ChemAxon".
^ "Química – Cartucho Oracle | Inside Informatics".
^ Pavlov, D.; Rybalkin, M.; Karulin, B. (2010). "Bingo de SciTouch LLC: Cartucho de química para la base de datos Oracle". Journal of Cheminformatics . 2 (Supl 1): F1. doi : 10.1186/1758-2946-2-S1-F1 . PMC 2867114 .
^ "Software de descubrimiento de fármacos a partir de moléculas pequeñas". Software de descubrimiento de fármacos a partir de moléculas pequeñas .
^ "Registro de productos químicos BIOVIA - BIOVIA - Dassault Systèmes®". www.3ds.com . 7 de septiembre de 2023.
^ "Registrarse". Archivado desde el original el 10 de diciembre de 2021. Consultado el 13 de marzo de 2021 .
^ "Scilligencia RegMol | Scilligencia". 6 de junio de 2016.^{[ enlace muerto permanente ]}
^ "Registro de compuestos". chemaxon.com .
^ "Cuaderno de señales - PerkinElmer Informatics". perkinelmerinformatics.com .
^ "Actualización de CDD Vault: CDD Vault ahora es un ELN". 16 de febrero de 2018.
^ "Cuaderno Electrónico de Laboratorio CDD (ELN)". 14 de agosto de 2019.
^ "Cuadernos electrónicos de laboratorio: qué son (y por qué necesitas uno)". 4 de agosto de 2019.
^ "Revisión de SDF Pro de Adroit DI. Junio de 2023 – Macs in Chemistry". 2023-11-05 . Consultado el 2024-03-11 .
^ "Página principal de Adroit DI". adroitdi.com . Consultado el 10 de marzo de 2024 .
^ "SDF Pro de Adroit DI: la solución rápida y asequible para almacenar, clasificar y manipular 10 millones de moléculas en segundos". www.businesswire.com . 2023-05-16 . Consultado el 2024-03-10 .
^ "Registro de la mejor entidad de las mejores". 20Visioneers15 . Consultado el 10 de marzo de 2024 .

Enlaces externos

Explorador de estructuras químicas de Wikipedia para buscar artículos de química en Wikipedia por subestructura