Una base de datos química es una base de datos diseñada específicamente para almacenar información química . Esta información trata sobre estructuras químicas y cristalinas , espectros, reacciones y síntesis, y datos termofísicos.
Las bases de datos de bioactividad correlacionan estructuras u otra información química con los resultados de bioactividad obtenidos de bioensayos en la literatura, patentes y programas de detección.
Las estructuras químicas se representan tradicionalmente mediante líneas que indican enlaces químicos entre átomos y se dibujan en papel ( fórmulas estructurales 2D ). Si bien estas son representaciones visuales ideales para el químico , no son adecuadas para uso computacional y especialmente para búsqueda y almacenamiento . Las moléculas pequeñas (también llamadas ligandos en aplicaciones de diseño de fármacos) suelen representarse mediante listas de átomos y sus conexiones. Sin embargo, las moléculas grandes, como las proteínas, se representan de forma más compacta utilizando las secuencias de sus componentes básicos de aminoácidos. También están representados los isótopos radiactivos, lo cual es un atributo importante para algunas aplicaciones. Se espera que las grandes bases de datos químicos para estructuras se encarguen del almacenamiento y la búsqueda de información sobre millones de moléculas que ocupan terabytes de memoria física.
Las bases de datos de literatura química correlacionan estructuras u otra información química con referencias relevantes, como artículos académicos o patentes. Este tipo de base de datos incluye STN , Scifinder y Reaxys . También se incluyen enlaces a literatura en muchas bases de datos que se centran en la caracterización química.
Las bases de datos cristalográficas almacenan datos de la estructura cristalina de rayos X. Los ejemplos comunes incluyen Protein Data Bank y Cambridge Structural Database .
Las bases de datos de espectros de RMN correlacionan la estructura química con los datos de RMN. Estas bases de datos suelen incluir otros datos de caracterización, como FTIR y espectrometría de masas .
La mayoría de las bases de datos químicas almacenan información sobre moléculas estables , pero en las bases de datos de reacciones también se almacenan intermediarios y moléculas inestables creadas temporalmente. Las bases de datos de reacciones contienen información sobre productos, eductos y mecanismos de reacción .
Los datos termofísicos son información sobre
Existen dos técnicas principales para representar estructuras químicas en bases de datos digitales.
Estos enfoques se han perfeccionado para permitir la representación de diferencias y cargas estereoquímicas , así como tipos especiales de enlaces como los que se observan en compuestos organometálicos . La principal ventaja de una representación por computadora es la posibilidad de un mayor almacenamiento y una búsqueda rápida y flexible.
Los químicos pueden buscar bases de datos utilizando partes de estructuras, partes de sus nombres IUPAC y también en función de restricciones de propiedades. Las bases de datos químicas se diferencian particularmente de otras bases de datos de propósito general en su soporte para la búsqueda de subestructuras. Este tipo de búsqueda se logra buscando isomorfismo de subgrafos (a veces también llamado monomorfismo ) y es una aplicación ampliamente estudiada de la teoría de grafos . Los algoritmos de búsqueda son computacionalmente intensivos, a menudo de complejidad temporal O ( n 3 ) u O ( n 4 ) (donde n es el número de átomos involucrados). El componente intensivo de la búsqueda se llama búsqueda átomo por átomo (ABAS), en el que se busca un mapeo de los átomos de la subestructura de búsqueda y los enlaces con la molécula objetivo. La búsqueda ABAS normalmente utiliza el algoritmo de Ullman [6] o variaciones del mismo ( es decir, SMSD [7] ). Las aceleraciones se logran mediante la amortización del tiempo, es decir, parte del tiempo en las tareas de búsqueda se ahorra utilizando información precalculada. Este cálculo previo normalmente implica la creación de cadenas de bits que representan la presencia o ausencia de fragmentos moleculares. Al observar los fragmentos presentes en una estructura de búsqueda, es posible eliminar la necesidad de realizar una comparación ABAS con moléculas objetivo que no poseen los fragmentos que están presentes en la estructura de búsqueda. Esta eliminación se llama detección (que no debe confundirse con los procedimientos de detección utilizados en el descubrimiento de fármacos). Las cadenas de bits utilizadas para estas aplicaciones también se denominan claves estructurales. El rendimiento de dichas claves depende de la elección de los fragmentos utilizados para construir las claves y de la probabilidad de su presencia en las moléculas de la base de datos. Otro tipo de clave utiliza códigos hash basados en fragmentos derivados computacionalmente. Se denominan "huellas dactilares", aunque el término a veces se utiliza como sinónimo de claves estructurales. La cantidad de memoria necesaria para almacenar estas claves estructurales y huellas dactilares se puede reducir mediante el "plegado", que se logra combinando partes de la clave mediante operaciones bit a bit y reduciendo así la longitud total. [8]
La búsqueda haciendo coincidir la conformación tridimensional de moléculas o especificando restricciones espaciales es otra característica que es particularmente útil en el diseño de fármacos . Las búsquedas de este tipo pueden resultar muy costosas desde el punto de vista computacional. Se han propuesto muchos métodos aproximados, por ejemplo BCUTS, representaciones de funciones especiales, momentos de inercia, histogramas de trazado de rayos, histogramas de distancia máxima y multipolos de formas, por nombrar algunos. [9] [10] [11] [12] [13]
Las bases de datos de sustancias químicas sintetizables y virtuales aumentan cada año, por lo que la capacidad de extraerlas de manera eficiente es fundamental para los proyectos de descubrimiento de fármacos. MolCart Giga Search de MolSoft (http://www.molsoft.com/giga-search.html) es el primer método diseñado para la búsqueda de subestructuras de miles de millones de productos químicos.
Todas las propiedades de las moléculas más allá de su estructura se pueden dividir en atributos fisicoquímicos o farmacológicos , también llamados descriptores. Además, existen diversos sistemas de denominación artificiales y más o menos estandarizados para moléculas que proporcionan nombres y sinónimos más o menos ambiguos . El nombre IUPAC suele ser una buena opción para representar la estructura de una molécula en una cadena única y legible por humanos , aunque resulta difícil de manejar para moléculas más grandes. Por otra parte, los nombres triviales abundan en homónimos y sinónimos y, por lo tanto, son una mala elección como clave definitoria de una base de datos . Mientras que los descriptores físico-químicos como el peso molecular , la carga ( parcial ), la solubilidad , etc. se pueden calcular en su mayoría directamente en función de la estructura de la molécula, los descriptores farmacológicos se pueden derivar sólo indirectamente utilizando estadísticas multivariadas involucradas o resultados experimentales ( detección , bioensayo ). Todos esos descriptores pueden, por razones de esfuerzo computacional, almacenarse junto con la representación de la molécula y normalmente lo son.
No existe una definición única de similitud molecular; sin embargo, el concepto puede definirse según la aplicación y, a menudo, se describe como una inversa de una medida de distancia en el espacio de descriptores. Dos moléculas podrían considerarse más similares, por ejemplo, si su diferencia en pesos moleculares es menor que la de otras. Se podrían combinar una variedad de otras medidas para producir una medida de distancia multivariada. Las medidas de distancia a menudo se clasifican en medidas euclidianas y medidas no euclidianas dependiendo de si se cumple la desigualdad del triángulo . La búsqueda de subestructura basada en el subgrafo común máximo ( MCS ) [7] (medida de similitud o distancia) también es muy común. MCS también se utiliza para detectar compuestos similares a fármacos golpeando moléculas que comparten un subgrafo (subestructura) común. [14]
Los productos químicos en las bases de datos pueden agruparse en grupos de moléculas "similares" según sus similitudes. Se pueden aplicar enfoques de agrupamiento jerárquico y no jerárquico a entidades químicas con múltiples atributos. Estos atributos o propiedades moleculares pueden determinarse empíricamente o mediante descriptores derivados computacionalmente . Uno de los enfoques de agrupación en clústeres más populares es el algoritmo Jarvis-Patrick. [15]
En los repositorios químicos orientados farmacológicamente , la similitud generalmente se define en términos de los efectos biológicos de los compuestos ( ADME /tox) que a su vez pueden inferirse semiautomáticamente a partir de combinaciones similares de descriptores fisicoquímicos utilizando métodos QSAR .
Los sistemas de bases de datos para mantener registros únicos de compuestos químicos se denominan sistemas de registro. Se utilizan a menudo para indexación química, sistemas de patentes y bases de datos industriales.
Los sistemas de registro generalmente imponen la unicidad de la sustancia química representada en la base de datos mediante el uso de representaciones únicas. Al aplicar reglas de precedencia para la generación de notaciones en cadena, se pueden obtener representaciones de cadena únicas/' canónicas ' como ' SONRISAS canónicas '. Algunos sistemas de registro, como el sistema CAS, utilizan algoritmos para generar códigos hash únicos para lograr el mismo objetivo.
Una diferencia clave entre un sistema de registro y una base de datos química simple es la capacidad de representar con precisión lo que se sabe, lo que se desconoce y lo que se sabe parcialmente. Por ejemplo, una base de datos química podría almacenar una molécula con una estereoquímica no especificada, mientras que un sistema de registro químico requiere que el registrador especifique si la configuración estéreo es desconocida, una mezcla específica (conocida) o racémica . Cada uno de estos se consideraría un registro diferente en un sistema de registro químico.
Los sistemas de registro también procesan previamente las moléculas para evitar considerar diferencias triviales, como las diferencias en los iones halógenos en los productos químicos.
Un ejemplo es el sistema de registro del Chemical Abstracts Service (CAS). Véase también número de registro CAS .
Las representaciones computacionales suelen hacerse transparentes para los químicos mediante la visualización gráfica de los datos. La entrada de datos también se simplifica mediante el uso de editores de estructuras químicas. Estos editores convierten internamente los datos gráficos en representaciones computacionales.
También existen numerosos algoritmos para la interconversión de varios formatos de representación. Una utilidad de código abierto para la conversión es OpenBabel . Estos algoritmos de búsqueda y conversión se implementan dentro del propio sistema de base de datos o, como es la tendencia actual, se implementan como componentes externos que encajan en los sistemas de bases de datos relacionales estándar. Tanto los sistemas basados en Oracle como PostgreSQL utilizan tecnología de cartucho que permite tipos de datos definidos por el usuario. Estos permiten al usuario realizar consultas SQL con condiciones de búsqueda química (por ejemplo, una consulta para buscar registros que tengan un anillo de fenilo en su estructura representado como una cadena SMILES en una columna SMILESCOL podría ser
SELECCIONE * DE CHEMTABLE DONDE SMILESCOL . CONTIENE ( 'c1ccccc1' )
Los algoritmos para la conversión de nombres IUPAC en representaciones estructurales y viceversa también se utilizan para extraer información estructural del texto . Sin embargo, existen dificultades debido a la existencia de múltiples dialectos de la IUPAC. Se está trabajando para establecer un estándar IUPAC único (ver InChI ).