Una base de datos química es una base de datos diseñada específicamente para almacenar información química . Esta información se refiere a estructuras químicas y cristalinas , espectros, reacciones y síntesis, y datos termofísicos.
Las bases de datos de bioactividad correlacionan estructuras u otra información química con resultados de bioactividad tomados de bioensayos en literatura, patentes y programas de detección.
Las estructuras químicas se representan tradicionalmente utilizando líneas que indican enlaces químicos entre átomos y se dibujan en papel ( fórmulas estructurales 2D ). Si bien estas son representaciones visuales ideales para el químico , no son adecuadas para el uso computacional y especialmente para la búsqueda y el almacenamiento . Las moléculas pequeñas (también llamadas ligandos en aplicaciones de diseño de fármacos) generalmente se representan utilizando listas de átomos y sus conexiones. Sin embargo, las moléculas grandes, como las proteínas, se representan de manera más compacta utilizando las secuencias de sus bloques de construcción de aminoácidos. También se representan los isótopos radiactivos, lo que es un atributo importante para algunas aplicaciones. Se espera que las grandes bases de datos químicas para estructuras manejen el almacenamiento y la búsqueda de información sobre millones de moléculas que ocupan terabytes de memoria física. [6] [7]
Las bases de datos de literatura química relacionan estructuras u otra información química con referencias relevantes, como artículos académicos o patentes. Este tipo de base de datos incluye STN , Scifinder y Reaxys . Muchas bases de datos que se centran en la caracterización química también incluyen enlaces a la literatura.
Las bases de datos cristalográficas almacenan datos de estructura cristalina obtenidos mediante rayos X. Algunos ejemplos comunes son Protein Data Bank y Cambridge Structural Database .
Las bases de datos de espectros de RMN correlacionan la estructura química con los datos de RMN. Estas bases de datos a menudo incluyen otros datos de caracterización, como FTIR y espectrometría de masas .
La mayoría de las bases de datos químicas almacenan información sobre moléculas estables , pero en las bases de datos de reacciones también se almacenan intermediarios y moléculas inestables creadas temporalmente. Las bases de datos de reacciones contienen información sobre productos, eductos y mecanismos de reacción .
Un ejemplo popular que enumera datos de reacciones químicas , entre otros, sería la base de datos Beilstein .
Los datos termofísicos son información sobre
Existen dos técnicas principales para representar estructuras químicas en bases de datos digitales
Estos métodos se han perfeccionado para permitir la representación de diferencias y cargas estereoquímicas , así como de tipos especiales de enlaces, como los que se observan en compuestos organometálicos . La principal ventaja de una representación por ordenador es la posibilidad de aumentar el almacenamiento y realizar búsquedas rápidas y flexibles.
Los químicos pueden buscar en bases de datos utilizando partes de estructuras, partes de sus nombres IUPAC y basándose en restricciones sobre propiedades. Las bases de datos químicas se diferencian de otras bases de datos de uso general en que admiten la búsqueda de subestructuras, un método para recuperar sustancias químicas que coinciden con un patrón de átomos y enlaces que especifica un usuario. Este tipo de búsqueda se logra buscando isomorfismos de subgrafos (a veces también llamados monomorfismos ) y es una aplicación ampliamente estudiada de la teoría de grafos . [8] [9] [10]
Las estructuras de consulta pueden contener patrones de enlaces como "sencillo/aromático" o "cualquiera" para brindar flexibilidad. De manera similar, los vértices que en un compuesto real serían un átomo específico pueden reemplazarse con una lista de átomos en la consulta. La isomería cis - trans en los enlaces dobles se atiende al brindar la opción de recuperar solo la forma E , la forma Z o ambas. [8] [11]
La búsqueda por conformación tridimensional de moléculas o por especificación de restricciones espaciales es otra característica que resulta particularmente útil en el diseño de fármacos . Las búsquedas de este tipo pueden ser computacionalmente muy costosas. Se han propuesto muchos métodos aproximados, por ejemplo, BCUTS, [12] [13] [14] representaciones de funciones especiales, momentos de inercia , histogramas de trazado de rayos , histogramas de distancia máxima, multipolos de forma, por nombrar algunos. [15] [16] [17] [18] [19]
Las bases de datos de gran tamaño, como PubChem [11] [20] y ChemSpider [21] , tienen interfaces gráficas para realizar búsquedas. El Chemical Abstracts Service proporciona herramientas para realizar búsquedas en la literatura química y Reaxys , de Elsevier, cubre tanto la información sobre productos químicos como sobre reacciones, incluida la que originalmente se encontraba en la base de datos Beilstein [ 22 ] . PATENTSCOPE permite acceder a las patentes químicas por subestructura [23] y los artículos de Wikipedia que describen productos químicos individuales también se pueden buscar de esa manera [24] .
Los proveedores de productos químicos como intermediarios de síntesis o para cribado de alto rendimiento proporcionan habitualmente interfaces de búsqueda. Actualmente, la base de datos más grande que el público puede consultar libremente es la base de datos ZINC , que se afirma que contiene más de 37 mil millones de moléculas disponibles comercialmente. [25] [26]
Todas las propiedades de las moléculas más allá de su estructura se pueden dividir en atributos fisicoquímicos o farmacológicos también llamados descriptores. Además de eso, existen varios sistemas de nombres artificiales y más o menos estandarizados para las moléculas que proporcionan nombres y sinónimos más o menos ambiguos . El nombre IUPAC suele ser una buena opción para representar la estructura de una molécula en una cadena única y legible para humanos, aunque se vuelve difícil de manejar para moléculas más grandes. Los nombres triviales , por otro lado, abundan con homónimos y sinónimos y, por lo tanto, son una mala opción como clave de base de datos definitoria . Si bien los descriptores fisicoquímicos como el peso molecular , la carga ( parcial ), la solubilidad , etc. se pueden calcular en su mayoría directamente en función de la estructura de la molécula, los descriptores farmacológicos solo se pueden derivar indirectamente utilizando estadísticas multivariadas involucradas o resultados experimentales ( cribado , bioensayo ). Todos esos descriptores pueden, por razones de esfuerzo computacional, almacenarse junto con la representación de la molécula y generalmente lo son.
No existe una única definición de similitud molecular, sin embargo, el concepto puede definirse según la aplicación y a menudo se describe como una inversa de una medida de distancia en el espacio de descriptores. Dos moléculas pueden considerarse más similares, por ejemplo, si su diferencia en pesos moleculares es menor que cuando se comparan con otras. Se podría combinar una variedad de otras medidas para producir una medida de distancia multivariable. Las medidas de distancia a menudo se clasifican en medidas euclidianas y medidas no euclidianas según se cumpla o no la desigualdad triangular . La búsqueda de subestructura basada en el Máximo Subgrafo Común ( MCS ) [27] (medida de similitud o distancia) también es muy común. El MCS también se utiliza para detectar compuestos similares a fármacos al encontrar moléculas que comparten un subgrafo (subestructura) común. [28]
Los productos químicos de las bases de datos se pueden agrupar en grupos de moléculas "similares" en función de sus similitudes. Se pueden aplicar enfoques de agrupamiento tanto jerárquicos como no jerárquicos a entidades químicas con múltiples atributos. Estos atributos o propiedades moleculares se pueden determinar empíricamente o mediante descriptores derivados computacionalmente . Uno de los enfoques de agrupamiento más populares es el algoritmo de Jarvis-Patrick. [29]
En los repositorios químicos orientados farmacológicamente , la similitud generalmente se define en términos de los efectos biológicos de los compuestos ( ADME /tox) que a su vez pueden inferirse de forma semiautomática a partir de combinaciones similares de descriptores fisicoquímicos utilizando métodos QSAR .
Los sistemas de bases de datos que mantienen registros únicos de compuestos químicos se denominan sistemas de registro. Suelen emplearse para la indexación de productos químicos, los sistemas de patentes y las bases de datos industriales.
Los sistemas de registro generalmente refuerzan la unicidad de la sustancia química representada en la base de datos mediante el uso de representaciones únicas. Al aplicar reglas de precedencia para la generación de notaciones en cadenas, se pueden obtener representaciones de cadenas únicas o " canónicas ", como " SMILES canónico ". Algunos sistemas de registro, como el sistema CAS, utilizan algoritmos para generar códigos hash únicos para lograr el mismo objetivo.
Una diferencia clave entre un sistema de registro y una base de datos química simple es la capacidad de representar con precisión lo que se conoce, lo que se desconoce y lo que se conoce parcialmente. Por ejemplo, una base de datos química puede almacenar una molécula con estereoquímica no especificada, mientras que un sistema de registro químico requiere que el registrador especifique si la estereoconfiguración es desconocida, una mezcla específica (conocida) o racémica . Cada uno de estos se consideraría un registro diferente en un sistema de registro químico.
Los sistemas de registro también preprocesan las moléculas para evitar considerar diferencias triviales, como las diferencias en los iones halógenos en los productos químicos.
Un ejemplo es el sistema de registro del Chemical Abstracts Service (CAS). Véase también número de registro CAS .
Las representaciones computacionales suelen hacerse transparentes para los químicos mediante la visualización gráfica de los datos. La entrada de datos también se simplifica mediante el uso de editores de estructura química. Estos editores convierten internamente los datos gráficos en representaciones computacionales.
También existen numerosos algoritmos para la interconversión de varios formatos de representación. Una utilidad de código abierto para la conversión es OpenBabel . Estos algoritmos de búsqueda y conversión se implementan ya sea dentro del propio sistema de base de datos o, como es la tendencia actual, se implementan como componentes externos que se adaptan a los sistemas de bases de datos relacionales estándar. Tanto los sistemas basados en Oracle como en PostgreSQL utilizan tecnología de cartuchos que permite tipos de datos definidos por el usuario. Estos permiten al usuario realizar consultas SQL con condiciones de búsqueda química (por ejemplo, una consulta para buscar registros que tengan un anillo de fenilo en su estructura representado como una cadena SMILES en una columna SMILESCOL podría ser
SELECCIONAR * DE CHEMTABLE DONDE SMILESCOL . CONTIENE ( 'c1ccccc1' )
Los algoritmos para la conversión de nombres IUPAC en representaciones de estructuras y viceversa también se utilizan para extraer información estructural del texto . Sin embargo, existen dificultades debido a la existencia de múltiples dialectos de la IUPAC. Se está trabajando para establecer un estándar IUPAC único (consulte InChI ).