La especificación arbitraria de objetivos SMILES (SMARTS) es un lenguaje para especificar patrones subestructurales en moléculas . La notación de línea SMARTS es expresiva y permite una especificación subestructural y una tipificación de átomos extremadamente precisas y transparentes.
SMARTS está relacionado con la notación de línea SMILES que se utiliza para codificar estructuras moleculares y, al igual que SMILES, fue desarrollado originalmente por David Weininger y sus colegas en The Pomona College Medicinal Chemistry Project (MedChem). Se utilizó un motor de búsqueda de software SMARTS llamado GENIE como un filtro de búsqueda adicional especificado por el usuario en la herramienta de búsqueda de bases de datos de MedChem MERLIN. GENIE también se utilizó en el lenguaje interpretado de MedChem GCL (lenguaje de control GENIE), donde la entrada era una lista de estructuras. En GCL, se utilizó una especificación SMARTS como una expresión que se podía utilizar en declaraciones de flujo de control. Por ejemplo, "for (SMARTS) {...}" recorrería cada subestructura (de la estructura examinada actualmente) que coincidiera con una especificación SMARTS. El desarrollo adicional de SMARTS se realizó en Daylight Chemical Information Systems, Inc., que es una empresa privada que se separó del lado del software de MedChem.
Las descripciones más completas del lenguaje SMARTS se pueden encontrar en el manual de teoría SMARTS de Daylight, [1] el tutorial [2] y los ejemplos. [3] OpenEye Scientific Software ha desarrollado su propia versión de SMARTS que difiere de la versión original de Daylight en cómo R
se define el descriptor (ver ciclicidad a continuación).
Los átomos se pueden especificar por símbolo o número atómico. El carbono alifático se corresponde con [C]
, el carbono aromático con [c]
y cualquier carbono con [#6]
o [C,c]
. Los símbolos comodín *
, A
y a
corresponden a cualquier átomo, cualquier átomo alifático y cualquier átomo aromático respectivamente. Los hidrógenos implícitos se consideran una característica de los átomos y el SMARTS para un grupo amino se puede escribir como [NH2]
. La carga se especifica mediante los descriptores +
y -
como se ejemplifica mediante el SMARTS [nH+]
( átomo de nitrógeno aromático protonado ) y [O-]C(=O)c
( ácido carboxílico aromático desprotonado ).
Se pueden especificar varios tipos de enlaces: -
(simple), =
(doble), #
(triple), :
(aromático) y ~
(cualquiera).
Los descriptores X
y D
se utilizan para especificar el número total de enlaces (incluidos los átomos de hidrógeno implícitos) y enlaces a átomos explícitos, respectivamente. Por lo tanto, [CX4]
coincide con átomos de carbono con enlaces a otros cuatro átomos cualesquiera mientras que [CD4]
coincide con carbono cuaternario.
Tal como lo definió originalmente Daylight, el R
descriptor se utiliza para especificar la pertenencia al anillo. En el modelo Daylight para sistemas cíclicos, el conjunto más pequeño de anillos más pequeños (SSSR) [4] se utiliza como base para la pertenencia al anillo. Por ejemplo, el indol se percibe como un anillo de 5 miembros fusionado con un anillo de 6 miembros en lugar de un anillo de 9 miembros. Los dos átomos de carbono que forman la fusión del anillo coincidirían [cR2]
y los otros átomos de carbono coincidirían [cR1]
.
El modelo SSSR ha sido criticado por OpenEye [5] , que, en su implementación de SMARTS, lo utiliza R
para indicar el número de enlaces de anillo de un átomo. Los dos átomos de carbono en la fusión del anillo coinciden [cR3]
y los otros carbonos coinciden [cR2]
en la implementación de SMARTS de OpenEye. Utilizado sin un número, R
especifica un átomo en un anillo en ambas implementaciones, por ejemplo [CR]
(átomo de carbono alifático en el anillo).
Las minúsculas r
especifican el tamaño del anillo más pequeño del que forma parte el átomo. Los átomos de carbono de la fusión del anillo coincidirían [cr5]
. Los enlaces se pueden especificar como cíclicos, por ejemplo, C@C
coinciden directamente con los átomos enlazados en un anillo.
Cuatro operadores lógicos permiten combinar descriptores de átomos y enlaces. El operador 'y' ;
se puede utilizar para definir una amina primaria protonada como [N;H3;+][C;X4]
. El operador 'o' ,
tiene una prioridad más alta, por lo que [c,n;H]
define (carbono aromático o nitrógeno aromático) con hidrógeno implícito. El operador 'y' &
tiene mayor prioridad que ,
por lo que [c,n&H]
define carbono aromático o (nitrógeno aromático con hidrógeno implícito).
El operador 'no' !
se puede utilizar para definir el carbono alifático insaturado como [C;!X4]
y los enlaces acíclicos como *-!@*
.
Los SMARTS recursivos permiten la especificación detallada del entorno de un átomo. Por ejemplo, los átomos de carbono orto y para del fenol, más reactivos (con respecto a la sustitución aromática electrofílica ), se pueden definir como .[$(c1c([OH])cccc1),$(c1ccc([OH])cc1)]
Daylight ha reunido una serie de ejemplos ilustrativos de SMARTS.
Las definiciones de donantes y aceptores de enlaces de hidrógeno que se utilizan para aplicar la regla de cinco de Lipinski [6] se codifican fácilmente en SMARTS. Los donantes se definen como átomos de nitrógeno u oxígeno que tienen al menos un átomo de hidrógeno directamente enlazado:
[N,n,O;!H0]
o [#7,#8;!H0]
(el oxígeno aromático no puede tener un hidrógeno unido)Los aceptores se definen como nitrógeno u oxígeno:
[N,n,O,o]
o[#7,#8]
Una definición simple de aminas alifáticas que es probable que se protonen a pH fisiológico se puede escribir como el siguiente SMARTS recursivo:
[$([NH2][CX4]),$([NH]([CX4])[CX4]),$([NX3]([CX4])([CX4])[CX4])]
En aplicaciones reales, los CX4
átomos deberían definirse con mayor precisión para evitar que coincidan con grupos que extraen electrones, como el CF3 , que harían que la amina fuera insuficientemente básica para protonarse a pH fisiológico .
SMARTS se puede utilizar para codificar elementos farmacóforos como centros aniónicos. En el siguiente ejemplo, se utiliza la notación recursiva SMARTS para combinar el oxígeno del ácido y el nitrógeno del tetrazol en una definición de átomos de oxígeno que probablemente sean aniónicos en condiciones fisiológicas normales.
[$([OH][C,S,P]=O),$([nH]1nnnc1)]
Los SMARTS anteriores solo coincidirían con el hidroxilo del ácido y el tetrazol N−H. Cuando un ácido carboxílico se desprotona, la carga negativa se deslocaliza entre ambos átomos de oxígeno y puede ser conveniente designar a ambos como aniónicos. Esto se puede lograr utilizando los siguientes SMARTS.
[$([OH])C=O),$(O=C[OH])]
La especificación subestructural precisa y transparente que permite SMARTS se ha aprovechado en numerosas aplicaciones.
Los filtros subestructurales definidos en SMARTS se han utilizado [7] para identificar compuestos indeseables al realizar una agrupación estratégica de compuestos para un cribado de alto rendimiento. El procedimiento REOS (eliminación rápida de residuos) [8] utiliza SMARTS para filtrar fracciones reactivas, tóxicas y de otro tipo indeseables de las bases de datos de estructuras químicas.
RECAP [9] (Procedimiento de análisis combinatorio retrosintético) utiliza SMARTS para definir los tipos de enlaces. RECAP es un editor de moléculas que genera fragmentos de estructuras rompiendo enlaces de tipos definidos y los puntos de enlace originales en estos se especifican utilizando etiquetas isotópicas. La búsqueda de fragmentos en bases de datos de compuestos biológicamente activos permite identificar motivos estructurales privilegiados. El Molecular Slicer [10] es similar a RECAP y se ha utilizado para identificar fragmentos que se encuentran comúnmente en medicamentos orales comercializados.
El programa Leatherface [11] es un editor de moléculas de propósito general que permite la modificación automatizada de una serie de características subestructurales de las moléculas en bases de datos, incluyendo el estado de protonación, el recuento de hidrógeno, la carga formal, el peso isotópico y el orden de los enlaces. Las reglas de edición molecular utilizadas por Leatherface están definidas en SMARTS. Leatherface se puede utilizar para estandarizar estados tautoméricos y de ionización y para establecerlos y enumerarlos en la preparación de bases de datos [12] para el cribado virtual . Leatherface se ha utilizado en el análisis de pares moleculares coincidentes , que permite cuantificar los efectos de los cambios estructurales (por ejemplo, la sustitución de hidrógeno con cloro), [13] en un rango de tipos estructurales.
ALADDIN [14] es un programa de comparación de farmacóforos que utiliza SMARTS para definir puntos de reconocimiento (por ejemplo, aceptor de enlaces de hidrógeno neutros ) de los farmacóforos. Un problema clave en la comparación de farmacóforos es que los grupos funcionales que probablemente se ionicen a pH fisiológico suelen estar registrados en sus formas neutras en bases de datos estructurales. El programa de comparación de formas ROCS permite definir los tipos de átomos utilizando SMARTS. [15]
{{cite web}}
: CS1 maint: bot: estado de URL original desconocido ( enlace ), OEChem - Manual de C++, versión 1.5.1, OpenEye Scientific Software, Santa Fe, Nuevo México