Base de datos química

Una base de datos química es una base de datos diseñada específicamente para almacenar información química . Esta información trata sobre estructuras químicas y cristalinas , espectros, reacciones y síntesis, y datos termofísicos.

Tipos de bases de datos químicas

Base de datos de bioactividad

Las bases de datos de bioactividad correlacionan estructuras u otra información química con los resultados de bioactividad obtenidos de bioensayos en la literatura, patentes y programas de detección.

Estructuras químicas

Las estructuras químicas se representan tradicionalmente mediante líneas que indican enlaces químicos entre átomos y se dibujan en papel ( fórmulas estructurales 2D ). Si bien estas son representaciones visuales ideales para el químico , no son adecuadas para uso computacional y especialmente para búsqueda y almacenamiento . Las moléculas pequeñas (también llamadas ligandos en aplicaciones de diseño de fármacos) suelen representarse mediante listas de átomos y sus conexiones. Sin embargo, las moléculas grandes, como las proteínas, se representan de forma más compacta utilizando las secuencias de sus componentes básicos de aminoácidos. También están representados los isótopos radiactivos, lo cual es un atributo importante para algunas aplicaciones. Se espera que las grandes bases de datos químicos para estructuras se encarguen del almacenamiento y la búsqueda de información sobre millones de moléculas que ocupan terabytes de memoria física.

Base de datos de literatura

Las bases de datos de literatura química correlacionan estructuras u otra información química con referencias relevantes, como artículos académicos o patentes. Este tipo de base de datos incluye STN , Scifinder y Reaxys . También se incluyen enlaces a literatura en muchas bases de datos que se centran en la caracterización química.

Base de datos cristalográfica

Las bases de datos cristalográficas almacenan datos de la estructura cristalina de rayos X. Los ejemplos comunes incluyen Protein Data Bank y Cambridge Structural Database .

Base de datos de espectros de RMN

Las bases de datos de espectros de RMN correlacionan la estructura química con los datos de RMN. Estas bases de datos suelen incluir otros datos de caracterización, como FTIR y espectrometría de masas .

Base de datos de reacciones

La mayoría de las bases de datos químicas almacenan información sobre moléculas estables , pero en las bases de datos de reacciones también se almacenan intermediarios y moléculas inestables creadas temporalmente. Las bases de datos de reacciones contienen información sobre productos, eductos y mecanismos de reacción .

Base de datos termofísica

Los datos termofísicos son información sobre

Equilibrios de fases , incluido el equilibrio vapor-líquido , solubilidad de gases en líquidos, líquidos en sólidos (SLE), calores de mezcla, vaporización y fusión .
datos calóricos como capacidad calorífica , calor de formación y combustión ,
Propiedades de transporte como viscosidad y conductividad térmica.

Representación de la estructura química.

Existen dos técnicas principales para representar estructuras químicas en bases de datos digitales.

Como tablas de conexión/ matrices de adyacencia /listas con información adicional sobre enlaces (bordes) y atributos de átomos (nodos), como por ejemplo:
MDL Molfile , PDB , CML
Como notación de cadena lineal basada en el recorrido primero en profundidad o primero en ancho , como por ejemplo:
SONRISAS / INTELIGENTES, SLN , WLN , InChI

Estos enfoques se han perfeccionado para permitir la representación de diferencias y cargas estereoquímicas , así como tipos especiales de enlaces como los que se observan en compuestos organometálicos . La principal ventaja de una representación por computadora es la posibilidad de un mayor almacenamiento y una búsqueda rápida y flexible.

Buscar

Infraestructura

Los químicos pueden buscar bases de datos utilizando partes de estructuras, partes de sus nombres IUPAC y también en función de restricciones de propiedades. Las bases de datos químicas se diferencian particularmente de otras bases de datos de propósito general en su soporte para la búsqueda de subestructuras. Este tipo de búsqueda se logra buscando isomorfismo de subgrafos (a veces también llamado monomorfismo ) y es una aplicación ampliamente estudiada de la teoría de grafos . Los algoritmos de búsqueda son computacionalmente intensivos, a menudo de complejidad temporal O ( n ³ ) u O ( n ⁴ ) (donde n es el número de átomos involucrados). El componente intensivo de la búsqueda se llama búsqueda átomo por átomo (ABAS), en el que se busca un mapeo de los átomos de la subestructura de búsqueda y los enlaces con la molécula objetivo. La búsqueda ABAS normalmente utiliza el algoritmo de Ullman ^[6] o variaciones del mismo ( es decir, SMSD ^[7] ). Las aceleraciones se logran mediante la amortización del tiempo, es decir, parte del tiempo en las tareas de búsqueda se ahorra utilizando información precalculada. Este cálculo previo normalmente implica la creación de cadenas de bits que representan la presencia o ausencia de fragmentos moleculares. Al observar los fragmentos presentes en una estructura de búsqueda, es posible eliminar la necesidad de realizar una comparación ABAS con moléculas objetivo que no poseen los fragmentos que están presentes en la estructura de búsqueda. Esta eliminación se llama detección (que no debe confundirse con los procedimientos de detección utilizados en el descubrimiento de fármacos). Las cadenas de bits utilizadas para estas aplicaciones también se denominan claves estructurales. El rendimiento de dichas claves depende de la elección de los fragmentos utilizados para construir las claves y de la probabilidad de su presencia en las moléculas de la base de datos. Otro tipo de clave utiliza códigos hash basados en fragmentos derivados computacionalmente. Se denominan "huellas dactilares", aunque el término a veces se utiliza como sinónimo de claves estructurales. La cantidad de memoria necesaria para almacenar estas claves estructurales y huellas dactilares se puede reducir mediante el "plegado", que se logra combinando partes de la clave mediante operaciones bit a bit y reduciendo así la longitud total. ^[8]

Conformación

La búsqueda haciendo coincidir la conformación tridimensional de moléculas o especificando restricciones espaciales es otra característica que es particularmente útil en el diseño de fármacos . Las búsquedas de este tipo pueden resultar muy costosas desde el punto de vista computacional. Se han propuesto muchos métodos aproximados, por ejemplo BCUTS, representaciones de funciones especiales, momentos de inercia, histogramas de trazado de rayos, histogramas de distancia máxima y multipolos de formas, por nombrar algunos. ^[9]^[10]^[11]^[12]^[13]

Gigabúsqueda

Las bases de datos de sustancias químicas sintetizables y virtuales aumentan cada año, por lo que la capacidad de extraerlas de manera eficiente es fundamental para los proyectos de descubrimiento de fármacos. MolCart Giga Search de MolSoft (http://www.molsoft.com/giga-search.html) es el primer método diseñado para la búsqueda de subestructuras de miles de millones de productos químicos.

Descriptores

Todas las propiedades de las moléculas más allá de su estructura se pueden dividir en atributos fisicoquímicos o farmacológicos , también llamados descriptores. Además, existen diversos sistemas de denominación artificiales y más o menos estandarizados para moléculas que proporcionan nombres y sinónimos más o menos ambiguos . El nombre IUPAC suele ser una buena opción para representar la estructura de una molécula en una cadena única y legible por humanos , aunque resulta difícil de manejar para moléculas más grandes. Por otra parte, los nombres triviales abundan en homónimos y sinónimos y, por lo tanto, son una mala elección como clave definitoria de una base de datos . Mientras que los descriptores físico-químicos como el peso molecular , la carga ( parcial ), la solubilidad , etc. se pueden calcular en su mayoría directamente en función de la estructura de la molécula, los descriptores farmacológicos se pueden derivar sólo indirectamente utilizando estadísticas multivariadas involucradas o resultados experimentales ( detección , bioensayo ). Todos esos descriptores pueden, por razones de esfuerzo computacional, almacenarse junto con la representación de la molécula y normalmente lo son.

Semejanza

No existe una definición única de similitud molecular; sin embargo, el concepto puede definirse según la aplicación y, a menudo, se describe como una inversa de una medida de distancia en el espacio de descriptores. Dos moléculas podrían considerarse más similares, por ejemplo, si su diferencia en pesos moleculares es menor que la de otras. Se podrían combinar una variedad de otras medidas para producir una medida de distancia multivariada. Las medidas de distancia a menudo se clasifican en medidas euclidianas y medidas no euclidianas dependiendo de si se cumple la desigualdad del triángulo . La búsqueda de subestructura basada en el subgrafo común máximo ( MCS ) ^[7] (medida de similitud o distancia) también es muy común. MCS también se utiliza para detectar compuestos similares a fármacos golpeando moléculas que comparten un subgrafo (subestructura) común. ^[14]

Los productos químicos en las bases de datos pueden agruparse en grupos de moléculas "similares" según sus similitudes. Se pueden aplicar enfoques de agrupamiento jerárquico y no jerárquico a entidades químicas con múltiples atributos. Estos atributos o propiedades moleculares pueden determinarse empíricamente o mediante descriptores derivados computacionalmente . Uno de los enfoques de agrupación en clústeres más populares es el algoritmo Jarvis-Patrick. ^[15]

En los repositorios químicos orientados farmacológicamente , la similitud generalmente se define en términos de los efectos biológicos de los compuestos ( ADME /tox) que a su vez pueden inferirse semiautomáticamente a partir de combinaciones similares de descriptores fisicoquímicos utilizando métodos QSAR .

Sistemas de registro

Los sistemas de bases de datos para mantener registros únicos de compuestos químicos se denominan sistemas de registro. Se utilizan a menudo para indexación química, sistemas de patentes y bases de datos industriales.

Los sistemas de registro generalmente imponen la unicidad de la sustancia química representada en la base de datos mediante el uso de representaciones únicas. Al aplicar reglas de precedencia para la generación de notaciones en cadena, se pueden obtener representaciones de cadena únicas/' canónicas ' como ' SONRISAS canónicas '. Algunos sistemas de registro, como el sistema CAS, utilizan algoritmos para generar códigos hash únicos para lograr el mismo objetivo.

Una diferencia clave entre un sistema de registro y una base de datos química simple es la capacidad de representar con precisión lo que se sabe, lo que se desconoce y lo que se sabe parcialmente. Por ejemplo, una base de datos química podría almacenar una molécula con una estereoquímica no especificada, mientras que un sistema de registro químico requiere que el registrador especifique si la configuración estéreo es desconocida, una mezcla específica (conocida) o racémica . Cada uno de estos se consideraría un registro diferente en un sistema de registro químico.

Los sistemas de registro también procesan previamente las moléculas para evitar considerar diferencias triviales, como las diferencias en los iones halógenos en los productos químicos.

Un ejemplo es el sistema de registro del Chemical Abstracts Service (CAS). Véase también número de registro CAS .

Lista de cartuchos químicos

Acuerdo
Directo ^[16]
J química ^[17]
CambridgeSoft ^[18]
Bingo ^[19]
Señalar ^[20]

Lista de sistemas de registro de sustancias químicas

Registro químico ^[21]
Registrarse ^[22]
RegMol ^[23]
Registro compuesto ^[24]
Conjunto ^[25]

Basado en web

Herramientas

Las representaciones computacionales suelen hacerse transparentes para los químicos mediante la visualización gráfica de los datos. La entrada de datos también se simplifica mediante el uso de editores de estructuras químicas. Estos editores convierten internamente los datos gráficos en representaciones computacionales.

También existen numerosos algoritmos para la interconversión de varios formatos de representación. Una utilidad de código abierto para la conversión es OpenBabel . Estos algoritmos de búsqueda y conversión se implementan dentro del propio sistema de base de datos o, como es la tendencia actual, se implementan como componentes externos que encajan en los sistemas de bases de datos relacionales estándar. Tanto los sistemas basados en Oracle como PostgreSQL utilizan tecnología de cartucho que permite tipos de datos definidos por el usuario. Estos permiten al usuario realizar consultas SQL con condiciones de búsqueda química (por ejemplo, una consulta para buscar registros que tengan un anillo de fenilo en su estructura representado como una cadena SMILES en una columna SMILESCOL podría ser

 SELECCIONE * DE CHEMTABLE DONDE SMILESCOL . CONTIENE ( 'c1ccccc1' )

Los algoritmos para la conversión de nombres IUPAC en representaciones estructurales y viceversa también se utilizan para extraer información estructural del texto . Sin embargo, existen dificultades debido a la existencia de múltiples dialectos de la IUPAC. Se está trabajando para establecer un estándar IUPAC único (ver InChI ).

Ver también

Referencias

^ http://www.scrubchem.org
^ Harris, JB (2019). "Postprocesamiento de grandes datos de bioactividad". Bioinformática y descubrimiento de fármacos . Métodos Mol Biol. vol. 1939, págs. 37–47. doi :10.1007/978-1-4939-9089-4_3. ISBN 978-1-4939-9088-7. PMID 30848455. S2CID 73493315.
^ "PubChem". pubchem.ncbi.nlm.nih.gov .
^ Wang, Y; Bryant, SH; Cheng, T; Wang, J; Gindulyte, A; Zapatero, Licenciatura en Licenciatura; Thiessen, Pensilvania; Él es; Zhang, J (2017). "PubChem BioAssay: actualización de 2017". Ácidos nucleicos Res . 45 (D1): D955–D963. doi : 10.1093/nar/gkw1118. PMC 5210581 . PMID 27899599.
^ "Base de datos ChEMBL".
^ Ullmann, Julian R. (1976), "Un algoritmo para el isomorfismo de subgrafos", Journal of the ACM , 23 (1): 31–42, CiteSeerX 10.1.1.361.7741 , doi :10.1145/321921.321925, S2CID 17268751
^ ab Rahman, SA; Bashton, M.; Vacaciones, GL; Schrader, R.; Thornton, JM (2000). "Kit de herramientas del detector de subgrafos de moléculas pequeñas (SMSD)". Revista de quimioinformática . 1 (1): 12. doi : 10.1186/1758-2946-1-12 . PMC 2820491 . PMID 20298518.
^ Cummings, Maxwell D.; Maxwell, Alan C.; DesJarlais, Renée L. (2007). "Procesamiento de bases de datos de moléculas pequeñas para acoplamiento automatizado". Química medicinal . 3 (1): 107–113. doi :10.2174/157340607779317481. PMID 17266630.
^ Pearlman, RS; Smith, KM (1999). "Validación de métricas y el concepto de subespacio relevante para el receptor". J. química. inf. Computadora. Ciencia . 39 : 28–35. doi :10.1021/ci980137x.
^ Lin, Jr., colgado; Clark, Timoteo (2005). "Una descripción analítica, de resolución variable y completa de moléculas estáticas y sus propiedades de unión intermolecular". Revista de información y modelado químico . 45 (4): 1010–1016. doi :10.1021/ci050059v. PMID 16045295.
^ Manso, PJ; Liu, Z.; Tian, L.; Wang, CJ; Galés, WJ; Zauhar, RJ (2006). "Shape Signatures: acelerar el descubrimiento de fármacos asistido por computadora". DDT 2006 . 19–20 (19–20): 895–904. doi :10.1016/j.drudis.2006.08.014. PMID 16997139.
^ Grant, JA; Gallardo, MA; Camioneta, BT (1996). "Un método rápido de comparación de formas moleculares: una aplicación simple de una descripción gaussiana de la forma molecular". Revista de Química Computacional . 17 (14): 1653–1666. doi :10.1002/(sici)1096-987x(19961115)17:14<1653::aid-jcc7>3.0.co;2-k. S2CID 96794688.
^ Ballester, PJ; Richards, GT (2007). "Reconocimiento de formas ultrarrápido para búsqueda de similitudes en bases de datos moleculares". Actas de la Royal Society A. 463 (2081): 1307-1321. Código Bib : 2007RSPSA.463.1307B. doi :10.1098/rspa.2007.1823. S2CID 12540483.
^ Rahman, S. Asad; Bashton, M.; Vacaciones, GL; Schrader, R.; Thornton, JM (2009). "Kit de herramientas del detector de subgrafos de moléculas pequeñas (SMSD)". Revista de quimioinformática . 1 (1): 12. doi : 10.1186/1758-2946-1-12 . PMC 2820491 . PMID 20298518.
^ Butina, Darko (1999). "Agrupación de bases de datos no supervisadas basada en la huella digital de Daylight y la similitud de Tanimoto: una forma rápida y automatizada de agrupar conjuntos de datos grandes y pequeños". Química. inf. Computadora. Ciencia . 39 (4): 747–750. doi :10.1021/ci9803381.
^ "BIOVIA Direct - BIOVIA - Dassault Systèmes®".
^ "Motores JChem | ChemAxon".
^ "Química - Cartucho de Oracle | Informática interna".
^ Pávlov, D.; Rybalkin, M.; Karulin, B. (2010). "Bingo de SciTouch LLC: cartucho químico para base de datos Oracle". Revista de quimioinformática . 2 (Suplemento 1): F1. doi : 10.1186/1758-2946-2-S1-F1 . PMC 2867114 .
^ "Software de descubrimiento de fármacos de moléculas pequeñas". Software de descubrimiento de fármacos de moléculas pequeñas .
^ "Registro de productos químicos BIOVIA - BIOVIA - Dassault Systèmes®". www.3ds.com .
^ "Registrarse". Archivado desde el original el 10 de diciembre de 2021 . Consultado el 13 de marzo de 2021 .
^ "Scilligencia RegMol | Scilligencia". 6 de junio de 2016.^{[ enlace muerto permanente ]}
^ "Registro compuesto". chemaxon.com .
^ "Cuaderno de señales - PerkinElmer Informatics". perkinelmerinformatics.com .
^ "Actualización de CDD Vault: CDD Vault ahora es un ELN". 16 de febrero de 2018.
^ "Cuaderno de laboratorio electrónico CDD (ELN)". 14 de agosto de 2019.
^ "Cuadernos de laboratorio electrónicos: qué son (y por qué necesita uno)". 4 de agosto de 2019.
^ "Revisión de SDF Pro de Adroit DI. Junio de 2023: Mac en química". 2023-11-05 . Consultado el 11 de marzo de 2024 .
^ "Página principal de Hábil DI". adroitdi.com . Consultado el 10 de marzo de 2024 .
^ "SDF Pro de Adroit DI: la solución rápida y asequible para almacenar, clasificar y manipular 10 millones de moléculas en segundos". www.businesswire.com . 2023-05-16 . Consultado el 10 de marzo de 2024 .
^ "Registro de entidad lo mejor de lo mejor". 20Visioneros15 . Consultado el 10 de marzo de 2024 .