Dominio de aplicabilidad

El dominio de aplicabilidad (AD) (tanto para la química como para el aprendizaje automático ) de un modelo QSAR es el espacio, conocimiento o información físico-químico, estructural o biológico sobre el que se ha desarrollado el conjunto de entrenamiento del modelo, y para el cual es aplicable para hacer predicciones para nuevos compuestos.

El propósito de AD es indicar si se cumplen los supuestos del modelo y para qué sustancias químicas se puede aplicar el modelo de forma fiable. En general, este es el caso de la interpolación más que de la extrapolación . Hasta ahora no hay un único algoritmo generalmente aceptado para determinar la AD: se puede encontrar un estudio exhaustivo en un Informe y recomendaciones del Taller 52 del ECVAM. ^[1] Existe un enfoque bastante sistemático para definir las regiones de interpolación. ^[2] El proceso implica la eliminación de valores atípicos y un método de distribución de densidad de probabilidad utilizando un muestreo ponderado por kernel. Otro enfoque ampliamente utilizado para la AD estructural de los modelos de regresión QSAR se basa en el apalancamiento calculado a partir de los valores diagonales de la matriz hat de los descriptores moleculares de modelado. ^[3]^[4]^[5] Un reciente estudio comparativo riguroso de varios algoritmos de AD identificó la desviación estándar de las predicciones del modelo como el enfoque más fiable. ^[6] Para investigar la AD de un conjunto de entrenamiento de sustancias químicas, se pueden analizar directamente las propiedades del espacio de descriptores multivariados de los compuestos de entrenamiento o de manera más indirecta a través de métricas de distancia (o similitud). Al utilizar métricas de distancia, se debe tener cuidado de utilizar un espacio vectorial ortogonal y significativo. Esto se puede lograr mediante diferentes medios de selección de características y análisis de componentes principales sucesivos .

Notas

^ Netzeva T, Worth A, Aldenberg T, Benigni R, Cronin M, Gramatica P, Jaworska J, Kahn S, Klopman G, Marchant C, Myatt G, Nikolova-Jeliazkova N, Patlewicz G, Perkins R, Roberts D, Schultz T, Stanton D, van de Sandt J, Tong W, Veith G, Yang C: Estado actual de los métodos para definir el dominio de aplicabilidad de las relaciones (cuantitativas) estructura-actividad. Altern Lab Anim 2005, 33: 1-19
^ Jaworska J, Nikolova-Jeliazkova N, Aldenberg T: Estimación del dominio de aplicabilidad de QSAR mediante la proyección del espacio de descriptores del conjunto de entrenamiento: una revisión. Altern Lab Anim 2005, 33(5):445-459
^ Atkinson AC, Gráficos, transformaciones y regresión, Clarendon Press, Oxford, 1985, pág. 282
^ Tropsha A, Gramatica P, Gombar VK, La importancia de ser serio: la validación es absolutamente esencial para la aplicación e interpretación exitosas de los modelos QSPR. QSAR Comb.Sci. 2003, 22: 69-77
^ Gramatica P, Principios de validación de modelos QSAR: QSAR interno y externo Comb.Sci. 2007, 26(5): 694-701
^ Tetko IV, Sushko I, Pandey AK, Zhu H, Tropsha A, Papa E, Oberg T, Todeschini R, Fourches D, Varnek A. Evaluación crítica de los modelos QSAR de toxicidad ambiental contra Tetrahymena pyriformis: centrándose en el dominio de aplicabilidad y el sobreajuste por selección de variables. J Chem Inf Model. 2008 Sep;48(9):1733-46.