Los modelos cuantitativos de relación estructura-actividad ( modelos QSAR ) son modelos de regresión o clasificación que se utilizan en las ciencias químicas y biológicas y en la ingeniería. Al igual que otros modelos de regresión, los modelos de regresión QSAR relacionan un conjunto de variables "predictoras" (X) con la potencia de la variable de respuesta (Y), mientras que los modelos QSAR de clasificación relacionan las variables predictoras con un valor categórico de la variable de respuesta.
En el modelado QSAR, los predictores consisten en propiedades físico-químicas o descriptores moleculares teóricos [1] [2] de sustancias químicas; la variable de respuesta QSAR podría ser una actividad biológica de las sustancias químicas. Los modelos QSAR primero resumen una supuesta relación entre las estructuras químicas y la actividad biológica en un conjunto de datos de sustancias químicas. En segundo lugar, los modelos QSAR predicen las actividades de nuevas sustancias químicas. [3] [4]
Los términos relacionados incluyen relaciones cuantitativas estructura-propiedad ( QSPR ) cuando una propiedad química se modela como la variable de respuesta. [5] [6] "Se han investigado diferentes propiedades o comportamientos de moléculas químicas en el campo de QSPR. Algunos ejemplos son las relaciones cuantitativas estructura-reactividad (QSRR), las relaciones cuantitativas estructura-cromatografía (QSCR) y las relaciones cuantitativas estructura-toxicidad (QSTR), las relaciones cuantitativas estructura-electroquímica (QSER) y las relaciones cuantitativas estructura- biodegradabilidad (QSBR)". [7]
Por ejemplo, la actividad biológica se puede expresar cuantitativamente como la concentración de una sustancia necesaria para dar una determinada respuesta biológica. Además, cuando las propiedades o estructuras fisicoquímicas se expresan mediante números, se puede encontrar una relación matemática, o una relación cuantitativa estructura-actividad, entre ambas. La expresión matemática, si se valida cuidadosamente, [8] [9] [10] [11] se puede utilizar para predecir la respuesta modelada de otras estructuras químicas. [12]
Un QSAR tiene la forma de un modelo matemático :
El error incluye el error del modelo ( sesgo ) y la variabilidad observacional, es decir, la variabilidad de las observaciones incluso en un modelo correcto.
Los pasos principales del QSAR/QSPR incluyen: [7]
El supuesto básico de todas las hipótesis basadas en moléculas es que moléculas similares tienen actividades similares. Este principio también se denomina relación estructura-actividad ( SAR ). El problema subyacente es, por tanto, cómo definir una pequeña diferencia a nivel molecular, ya que cada tipo de actividad, por ejemplo, capacidad de reacción , capacidad de biotransformación , solubilidad , actividad diana, etc., podría depender de otra diferencia. Se dieron ejemplos en las revisiones del bioisosterismo de Patanie/LaVoie [13] y Brown. [14]
En general, uno está más interesado en encontrar tendencias fuertes. Las hipótesis creadas generalmente se basan en un número finito de sustancias químicas, por lo que se debe tener cuidado para evitar el sobreajuste : la generación de hipótesis que se ajustan muy bien a los datos de entrenamiento pero que funcionan mal cuando se aplican a datos nuevos.
La paradoja SAR se refiere al hecho de que no es el caso que todas las moléculas similares tengan actividades similares [ cita requerida ] .
De manera análoga, el " coeficiente de partición " (una medida de la solubilidad diferencial y en sí misma un componente de las predicciones de QSAR) se puede predecir mediante métodos atómicos (conocidos como "XLogP" o "ALogP") o mediante métodos de fragmentos químicos (conocidos como "CLogP" y otras variaciones). Se ha demostrado que el logP de un compuesto se puede determinar mediante la suma de sus fragmentos; los métodos basados en fragmentos se aceptan generalmente como mejores predictores que los métodos basados en átomos. [15] Los valores fragmentarios se han determinado estadísticamente, basándose en datos empíricos para valores de logP conocidos. Este método arroja resultados mixtos y, en general, no se confía en que tenga una precisión de más de ±0,1 unidades. [16]
El QSAR basado en grupos o fragmentos también se conoce como GQSAR. [17] El GQSAR permite la flexibilidad para estudiar varios fragmentos moleculares de interés en relación con la variación en la respuesta biológica. Los fragmentos moleculares podrían ser sustituyentes en varios sitios de sustitución en un conjunto congenérico de moléculas o podrían basarse en reglas químicas predefinidas en el caso de conjuntos no congenéricos. El GQSAR también considera descriptores de fragmentos de términos cruzados, que podrían ser útiles en la identificación de interacciones clave de fragmentos para determinar la variación de la actividad. [17] El descubrimiento de pistas mediante fragnomics es un paradigma emergente. En este contexto, el FB-QSAR demuestra ser una estrategia prometedora para el diseño de bibliotecas de fragmentos y en los esfuerzos de identificación de fragmentos a pistas. [18]
Se ha desarrollado un enfoque avanzado sobre QSAR basado en fragmentos o grupos, basado en el concepto de similitud de farmacóforos. [19] Este método, QSAR basado en similitud de farmacóforos (PS-QSAR), utiliza descriptores farmacofóricos topológicos para desarrollar modelos QSAR. Esta predicción de la actividad puede ayudar a la contribución de ciertas características de los farmacóforos codificadas por los respectivos fragmentos hacia la mejora de la actividad y/o los efectos perjudiciales. [19]
El acrónimo 3D-QSAR o 3-D QSAR se refiere a la aplicación de cálculos de campos de fuerza que requieren estructuras tridimensionales de un conjunto dado de moléculas pequeñas con actividades conocidas (conjunto de entrenamiento). El conjunto de entrenamiento debe superponerse (alinearse) con datos experimentales (por ejemplo, basados en cristalografía de ligando-proteína ) o software de superposición de moléculas . Utiliza potenciales calculados, por ejemplo, el potencial de Lennard-Jones , en lugar de constantes experimentales y se ocupa de la molécula general en lugar de un solo sustituyente. El primer QSAR 3-D fue llamado Análisis comparativo del campo molecular (CoMFA) por Cramer et al. Examinó los campos estéricos (forma de la molécula) y los campos electrostáticos [20] que se correlacionaron por medio de regresión de mínimos cuadrados parciales (PLS).
El espacio de datos creado se reduce luego normalmente mediante una extracción de características posterior (véase también reducción de dimensionalidad ). El siguiente método de aprendizaje puede ser cualquiera de los métodos de aprendizaje automático ya mencionados, por ejemplo, máquinas de vectores de soporte . [21] Un enfoque alternativo utiliza el aprendizaje de múltiples instancias codificando moléculas como conjuntos de instancias de datos, cada una de las cuales representa una posible conformación molecular. Se asigna una etiqueta o respuesta a cada conjunto correspondiente a la actividad de la molécula, que se supone que está determinada por al menos una instancia en el conjunto (es decir, alguna conformación de la molécula). [22]
El 18 de junio de 2011, la patente de Análisis Comparativo de Campo Molecular (CoMFA) eliminó cualquier restricción al uso de las tecnologías GRID y de mínimos cuadrados parciales (PLS). [ cita requerida ]
En este enfoque, se calculan descriptores que cuantifican varias propiedades electrónicas, geométricas o estéricas de una molécula y se utilizan para desarrollar un QSAR. [23] Este enfoque es diferente del enfoque de fragmentos (o contribución de grupo) en que los descriptores se calculan para el sistema en su conjunto en lugar de a partir de las propiedades de fragmentos individuales. Este enfoque es diferente del enfoque 3D-QSAR en que los descriptores se calculan a partir de cantidades escalares (por ejemplo, energías, parámetros geométricos) en lugar de a partir de campos 3D.
Un ejemplo de este enfoque son los QSAR desarrollados para la polimerización de olefinas mediante compuestos de medio sándwich . [24] [25]
Se ha demostrado que la predicción de actividad es posible incluso basándose únicamente en la cadena SMILES . [26] [27] [28]
De manera similar a los métodos basados en cadenas, el gráfico molecular se puede utilizar directamente como entrada para los modelos QSAR, [29] [30] pero generalmente produce un rendimiento inferior en comparación con los modelos QSAR basados en descriptores. [31] [32]
En la literatura se puede encontrar a menudo que los químicos tienen preferencia por los métodos de mínimos cuadrados parciales (PLS), [ cita requerida ] ya que aplica la extracción de características y la inducción en un solo paso.
Los modelos informáticos SAR suelen calcular una cantidad relativamente grande de características. Debido a que carecen de capacidad de interpretación estructural, los pasos de preprocesamiento enfrentan un problema de selección de características (es decir, qué características estructurales deben interpretarse para determinar la relación estructura-actividad). La selección de características se puede lograr mediante inspección visual (selección cualitativa por parte de un humano), mediante minería de datos o mediante minería de moléculas.
Una predicción típica basada en minería de datos utiliza, por ejemplo, máquinas de vectores de soporte , árboles de decisión y redes neuronales artificiales para inducir un modelo de aprendizaje predictivo.
Los métodos de minería de moléculas , un caso especial de métodos de minería de datos estructurados , aplican una predicción basada en una matriz de similitud o un esquema de fragmentación automática en subestructuras moleculares. Además, también existen métodos que utilizan búsquedas de máximos subgrafos comunes o núcleos de grafos . [33] [34]
Por lo general, los modelos QSAR derivados del aprendizaje automático no lineal se consideran una "caja negra" que no sirve de guía a los químicos farmacéuticos. Recientemente, existe un concepto relativamente nuevo de análisis de pares moleculares emparejados [35] o MMPA impulsado por predicción que se combina con el modelo QSAR para identificar los picos de actividad. [36]
El modelado QSAR produce modelos predictivos derivados de la aplicación de herramientas estadísticas que correlacionan la actividad biológica (incluido el efecto terapéutico deseable y los efectos secundarios indeseables) o las propiedades fisicoquímicas en modelos QSPR de sustancias químicas (fármacos/tóxicos/contaminantes ambientales) con descriptores representativos de la estructura o propiedades moleculares . Los QSAR se están aplicando en muchas disciplinas, por ejemplo: evaluación de riesgos , predicción de toxicidad y decisiones regulatorias [37] además del descubrimiento de fármacos y optimización de clientes potenciales . [38] La obtención de un modelo QSAR de buena calidad depende de muchos factores, como la calidad de los datos de entrada, la elección de descriptores y métodos estadísticos para el modelado y la validación. Cualquier modelado QSAR debe conducir en última instancia a modelos estadísticamente robustos y predictivos capaces de hacer predicciones precisas y confiables de la respuesta modelada de nuevos compuestos.
Para la validación de los modelos QSAR, normalmente se adoptan diversas estrategias: [39]
El éxito de cualquier modelo QSAR depende de la precisión de los datos de entrada, la selección de descriptores y herramientas estadísticas adecuados y, lo más importante, la validación del modelo desarrollado. La validación es el proceso mediante el cual se establece la confiabilidad y la relevancia de un procedimiento para un propósito específico; para los modelos QSAR, la validación debe ser principalmente para la robustez, el rendimiento de predicción y el dominio de aplicabilidad (AD) de los modelos. [8] [9] [11] [40] [41]
Algunas metodologías de validación pueden resultar problemáticas. Por ejemplo, la validación cruzada con un único parámetro en la base de datos suele dar lugar a una sobrestimación de la capacidad predictiva. Incluso con la validación externa, resulta difícil determinar si la selección de los conjuntos de entrenamiento y prueba se manipuló para maximizar la capacidad predictiva del modelo que se publica.
Los diferentes aspectos de la validación de los modelos QSAR que requieren atención incluyen los métodos de selección de los compuestos del conjunto de entrenamiento, [42] la configuración del tamaño del conjunto de entrenamiento [43] y el impacto de la selección de variables [44] para los modelos del conjunto de entrenamiento para determinar la calidad de la predicción. El desarrollo de nuevos parámetros de validación para juzgar la calidad de los modelos QSAR también es importante. [11] [45] [46]
Una de las primeras aplicaciones históricas del QSAR fue predecir puntos de ebullición . [47]
Por ejemplo, es bien sabido que dentro de una familia particular de compuestos químicos , especialmente de la química orgánica , existen fuertes correlaciones entre la estructura y las propiedades observadas. Un ejemplo sencillo es la relación entre el número de carbonos en los alcanos y sus puntos de ebullición . Existe una clara tendencia al aumento del punto de ebullición con un aumento en el número de carbonos, y esto sirve como medio para predecir los puntos de ebullición de los alcanos superiores .
Una aplicación todavía muy interesante es la ecuación de Hammett , la ecuación de Taft y los métodos de predicción de pKa . [48]
La actividad biológica de las moléculas se mide habitualmente en ensayos para establecer el nivel de inhibición de determinadas vías metabólicas o de transducción de señales . El descubrimiento de fármacos a menudo implica el uso de QSAR para identificar estructuras químicas que podrían tener buenos efectos inhibidores sobre objetivos específicos y tener una baja toxicidad (actividad no específica). De especial interés es la predicción del coeficiente de partición log P , que es una medida importante utilizada para identificar la " similitud con un fármaco " según la regla de cinco de Lipinski . [ cita requerida ]
Si bien muchos análisis cuantitativos de la relación estructura-actividad involucran las interacciones de una familia de moléculas con una enzima o un sitio de unión a un receptor , la QSAR también se puede utilizar para estudiar las interacciones entre los dominios estructurales de las proteínas. Las interacciones proteína-proteína se pueden analizar cuantitativamente para detectar variaciones estructurales resultantes de la mutagénesis dirigida al sitio . [49]
Es parte del método de aprendizaje automático reducir el riesgo de una paradoja SAR, especialmente teniendo en cuenta que solo hay una cantidad finita de datos disponibles (ver también MVUE ). En general, todos los problemas QSAR se pueden dividir en codificación [50] y aprendizaje . [51]
Los modelos (Q)SAR se han utilizado para la gestión de riesgos . Las autoridades reguladoras sugieren los QSAR; en la Unión Europea , los QSAR se sugieren en el reglamento REACH , donde "REACH" significa "Registro, evaluación, autorización y restricción de sustancias químicas". La aplicación reglamentaria de los métodos QSAR incluye la evaluación toxicológica in silico de impurezas genotóxicas. [52] El software de evaluación QSAR de uso común, como DEREK o CASE Ultra (MultiCASE), se utiliza para la genotoxicidad de impurezas de acuerdo con ICH M7. [53]
El espacio de descriptores químicos cuya envoltura convexa se genera a partir de un conjunto de entrenamiento particular de sustancias químicas se denomina dominio de aplicabilidad del conjunto de entrenamiento . La predicción de propiedades de sustancias químicas nuevas que se encuentran fuera del dominio de aplicabilidad utiliza la extrapolación y, por lo tanto, es menos confiable (en promedio) que la predicción dentro del dominio de aplicabilidad. La evaluación de la confiabilidad de las predicciones de QSAR sigue siendo un tema de investigación. [ cita requerida ]
Las ecuaciones QSAR se pueden utilizar para predecir las actividades biológicas de moléculas más nuevas antes de su síntesis.
Algunos ejemplos de herramientas de aprendizaje automático para el modelado QSAR incluyen: [54]
Un programa de regresión que tiene bases de datos duales de más de 21.000 modelos QSAR.
recurso web completo para los modeladores de QSAR