El dominio de aplicabilidad (AD) (tanto para la química como para el aprendizaje automático ) de un modelo QSAR es el espacio, conocimiento o información físico-químico, estructural o biológico sobre el que se ha desarrollado el conjunto de entrenamiento del modelo, y para el cual es aplicable para hacer predicciones para nuevos compuestos.
El propósito de AD es indicar si se cumplen los supuestos del modelo y para qué sustancias químicas se puede aplicar el modelo de forma fiable. En general, este es el caso de la interpolación más que de la extrapolación . Hasta ahora no hay un único algoritmo generalmente aceptado para determinar la AD: se puede encontrar un estudio exhaustivo en un Informe y recomendaciones del Taller 52 del ECVAM. [1] Existe un enfoque bastante sistemático para definir las regiones de interpolación. [2] El proceso implica la eliminación de valores atípicos y un método de distribución de densidad de probabilidad utilizando un muestreo ponderado por kernel. Otro enfoque ampliamente utilizado para la AD estructural de los modelos de regresión QSAR se basa en el apalancamiento calculado a partir de los valores diagonales de la matriz hat de los descriptores moleculares de modelado. [3] [4] [5] Un reciente estudio comparativo riguroso de varios algoritmos de AD identificó la desviación estándar de las predicciones del modelo como el enfoque más fiable. [6] Para investigar la AD de un conjunto de entrenamiento de sustancias químicas, se pueden analizar directamente las propiedades del espacio de descriptores multivariados de los compuestos de entrenamiento o de manera más indirecta a través de métricas de distancia (o similitud). Al utilizar métricas de distancia, se debe tener cuidado de utilizar un espacio vectorial ortogonal y significativo. Esto se puede lograr mediante diferentes medios de selección de características y análisis de componentes principales sucesivos .