stringtranslate.com

Sistema simplificado de entrada de línea de entrada molecular

Algoritmo de generación de SMILES para ciprofloxacina : romper ciclos y luego escribir como ramas de una columna vertebral principal

El sistema simplificado de entrada de líneas de entrada molecular ( SMILES ) es una especificación en forma de notación de líneas para describir la estructura de especies químicas utilizando cadenas ASCII cortas . La mayoría de los editores de moléculas pueden importar cadenas SMILES para convertirlas nuevamente en dibujos bidimensionales o modelos tridimensionales de las moléculas.

La especificación SMILES original se inició en la década de 1980. Desde entonces ha sido modificado y ampliado. En 2007, se desarrolló un estándar abierto llamado OpenSMILES en la comunidad química de código abierto .

Historia

La especificación SMILES original fue iniciada por David Weininger en el Laboratorio de la División de Ecología del Continente Medio de la USEPA en Duluth en la década de 1980. [1] [2] [3] [4] Se reconoció su participación en el desarrollo inicial de "Gilman Veith y Rose Russo (USEPA) y Albert Leo y Corwin Hansch ( Pomona College ) por apoyar el trabajo, y Arthur Weininger (Pomona ; Daylight CIS) y Jeremy Scofield (Cedar River Software, Renton, WA) por su ayuda en la programación del sistema". [5] La Agencia de Protección Ambiental financió el proyecto inicial para desarrollar SMILES. [6] [7]

Desde entonces, ha sido modificado y ampliado por otros, sobre todo por Daylight Chemical Information Systems. En 2007, la comunidad química de código abierto Blue Obelisk desarrolló un estándar abierto llamado "OpenSMILES". Otras notaciones 'lineales' incluyen Wiswesser Line Notation (WLN), ROSDAL y SLN (Tripos Inc).

En julio de 2006, la IUPAC introdujo el InChI como estándar para la representación de fórmulas. Generalmente se considera que SMILES tiene la ventaja de ser más legible para los humanos que InChI; también cuenta con una amplia base de soporte de software con un amplio respaldo teórico (como la teoría de grafos ).

Terminología

El término SMILES se refiere a una notación de línea para codificar estructuras moleculares y instancias específicas deben llamarse estrictamente cadenas SMILES. Sin embargo, el término SMILES también se utiliza comúnmente para referirse tanto a una única cadena de SMILES como a varias cadenas de SMILES; el significado exacto suele ser evidente por el contexto. Los términos "canónico" e "isomérico" pueden generar cierta confusión cuando se aplican a SMILES. Los términos describen diferentes atributos de las cadenas SMILES y no son mutuamente excluyentes.

Normalmente, se pueden escribir varias cadenas SMILES igualmente válidas para una molécula. Por ejemplo, CCOy OCCtodos C(O)Cespecifican la estructura del etanol . Se han desarrollado algoritmos para generar la misma cadena SMILES para una molécula determinada; De las muchas cadenas posibles, estos algoritmos eligen sólo una de ellas. Este SMILES es único para cada estructura, aunque depende del algoritmo de canonicalización utilizado para generarlo, y se denomina SMILES canónicos. Estos algoritmos primero convierten las SONRISAS en una representación interna de la estructura molecular; Luego, un algoritmo examina esa estructura y produce una cadena SMILES única. Se han desarrollado varios algoritmos para generar SONRISAS canónicas e incluyen los de Daylight Chemical Information Systems, OpenEye Scientific Software , MEDIT, Chemical Computing Group , MolSoft LLC y Chemistry Development Kit . Una aplicación común de SMILES canónicos es indexar y garantizar la unicidad de las moléculas en una base de datos .

El artículo original que describía el algoritmo CANGEN [2] pretendía generar cadenas SMILES únicas para gráficos que representan moléculas, pero el algoritmo falla en varios casos simples (por ejemplo, cuneano , 1,2-diciclopropiletano) y no puede considerarse un método correcto para representar un gráfico canónicamente. [8] Actualmente no existe una comparación sistemática entre el software comercial para probar si existen tales fallas en esos paquetes.

La notación SMILES permite especificar la configuración en centros tetraédricos y la geometría de dobles enlaces. Estas son características estructurales que no pueden especificarse únicamente mediante la conectividad y, por lo tanto, las SONRISAS que codifican esta información se denominan SONRISAS isoméricas. Una característica notable de estas reglas es que permiten una especificación parcial rigurosa de la quiralidad. El término SMILES isoméricos también se aplica a SMILES en los que se especifican isómeros .

Definición basada en gráficos

En términos de un procedimiento computacional basado en gráficos, SMILES es una cadena obtenida imprimiendo los nodos de símbolos encontrados en un recorrido de árbol en profundidad de un gráfico químico . Primero se recorta el gráfico químico para eliminar los átomos de hidrógeno y se rompen los ciclos para convertirlo en un árbol de expansión . Cuando se han roto ciclos, se incluyen etiquetas de sufijos numéricos para indicar los nodos conectados. Los paréntesis se utilizan para indicar puntos de ramificación en el árbol.

La forma SMILES resultante depende de las opciones:

Definición de SMILES como cadenas de un lenguaje libre de contexto

Desde el punto de vista de una teoría del lenguaje formal, SONRISAS es una palabra. A SMILES se puede analizar con un analizador libre de contexto. El uso de esta representación ha sido en la predicción de propiedades bioquímicas (incluidas la toxicidad y la biodegradabilidad ) basándose en el principio fundamental de la quimioinformática de que moléculas similares tienen propiedades similares. Los modelos predictivos implementaron un enfoque de reconocimiento de patrones sintácticos (que implicaba definir una distancia molecular) [9], así como un esquema más sólido basado en el reconocimiento de patrones estadísticos. [10]

Descripción

átomos

Los átomos se representan mediante la abreviatura estándar de los elementos químicos , entre corchetes, como [Au]en el caso del oro . Los corchetes podrán omitirse en el caso común de átomos que:

  1. están en el " subconjunto orgánico " de B , C , N , O , P , S , F , Cl , Br o I , y
  2. no tener cargo formal , y
  3. tener el número de hidrógenos unidos que implica el modelo de valencia SMILES (normalmente su valencia normal, pero para N y P es 3 o 5, y para S es 2, 4 o 6), y
  4. son los isótopos normales , y
  5. No son centros quirales .

Todos los demás elementos deben estar entre paréntesis y las cargas y los hidrógenos se muestran explícitamente. Por ejemplo, las SONRISAS del agua pueden escribirse como Oo [OH2]. El hidrógeno también puede escribirse como un átomo separado; El agua también se puede escribir como [H]O[H].

Cuando se utilizan paréntesis, Hse agrega el símbolo si el átomo entre paréntesis está unido a uno o más hidrógeno, seguido del número de átomos de hidrógeno si es mayor que 1, luego del signo +para una carga positiva o -para una carga negativa. Por ejemplo, [NH4+]para el amonio ( NH+
4
). Si hay más de una carga, normalmente se escribe como dígito; sin embargo, también es posible repetir el signo tantas veces como carga tenga el ion: se puede escribir [Ti+4]o [Ti++++]para titanio (IV) Ti 4+ . Así, el anión hidróxido ( OH − ) está representado por , el catión hidronio ( H 3 O + ) y el catión cobalto (III) (Co 3+ ) es o .[OH-][OH3+][Co+3][Co+++]

Cautiverio

Un vínculo se representa mediante uno de los símbolos . - = # $ : / \.

Se supone que los enlaces entre átomos alifáticos son simples a menos que se especifique lo contrario y están implícitos en la adyacencia en la cadena SMILES. Aunque los enlaces simples pueden escribirse como -, normalmente se omite. Por ejemplo, las SONRISAS del etanol pueden escribirse como C-C-O, CC-Oo C-CO, pero normalmente se escriben CCO.

Los enlaces dobles, triples y cuádruples están representados por los símbolos =, #y, $respectivamente, como lo ilustran las SONRISAS O=C=O( dióxido de carbono CO 2 ), C#N( cianuro de hidrógeno HCN) y [Ga+]$[As-]( arseniuro de galio ).

Un tipo adicional de enlace es el "no enlace", indicado con ., para indicar que dos partes no están unidas entre sí. Por ejemplo, se puede escribir cloruro de sodio[Na+].[Cl-] acuoso para mostrar la disociación.

Un enlace aromático de "uno y medio" puede indicarse con :; ver § Aromaticidad a continuación.

Los enlaces simples adyacentes a los dobles enlaces se pueden representar usando /o \para indicar la configuración estereoquímica; ver § Estereoquímica a continuación.

Anillos

Las estructuras de los anillos se escriben rompiendo cada anillo en un punto arbitrario (aunque algunas opciones conducirán a SONRISAS más legibles que otras) para crear una estructura acíclica y agregando etiquetas numéricas de cierre de anillo para mostrar la conectividad entre átomos no adyacentes.

Por ejemplo, ciclohexano y dioxano pueden escribirse como C1CCCCC1y O1CCOCC1respectivamente. Para un segundo anillo, la etiqueta será 2. Por ejemplo, decalina (decahidronaftaleno) se puede escribir como C1CCCC2C1CCCC2.

SMILES no requiere que los números de timbre se utilicen en ningún orden particular y permite el número de timbre cero, aunque rara vez se usa. Además, está permitido reutilizar los números de anillo después de que se haya cerrado el primer anillo, aunque esto suele dificultar la lectura de las fórmulas. Por ejemplo, biciclohexilo generalmente se escribe como C1CCCCC1C2CCCCC2, pero también puede escribirse como C0CCCCC0C0CCCCC0.

Varios dígitos después de un solo átomo indican múltiples enlaces de cierre de anillo. Por ejemplo, una notación SMILES alternativa para decalina es C1CCCC2CCCCC12, donde el carbono final participa en los enlaces de cierre de anillo 1 y 2. Si se requieren números de anillo de dos dígitos, la etiqueta está precedida por %, al igual C%12que un enlace de cierre de anillo único de anillo 12.

Uno o ambos dígitos pueden ir precedidos por un tipo de vínculo para indicar el tipo de vínculo de cierre del anillo. Por ejemplo, ciclopropeno generalmente se escribe C1=CC1, pero si se elige el doble enlace como enlace de cierre del anillo, se puede escribir como C=1CC1, C1CC=1o C=1CC=1. (Se prefiere la primera forma.) C=1CC-1es ilegal, ya que especifica explícitamente tipos conflictivos para el vínculo de cierre del anillo.

Los bonos de cierre de anillo no pueden utilizarse para indicar enlaces múltiples. Por ejemplo, C1C1no es una alternativa válida C=Cpara el etileno . Sin embargo, pueden utilizarse con no bonos; C1.C2.C12es una forma alternativa peculiar pero legal de escribir propano , más comúnmente escrito CCC.

Elegir un punto de ruptura del anillo adyacente a los grupos adjuntos puede llevar a una forma SMILES más simple al evitar las ramas. Por ejemplo, ciclohexano-1,2-diol se escribe más simplemente como OC1CCCCC1O; elegir una ubicación de ruptura de anillo diferente produce una estructura ramificada que requiere paréntesis para escribir.

Aromaticidad

Los anillos aromáticos como el benceno se pueden escribir en una de tres formas:

  1. En forma Kekulé con enlaces simples y dobles alternos, por ejemplo C1=CC=CC=C1,
  2. Usando el símbolo del enlace aromático :, por ejemplo C:1:C:C:C:C:C1, o
  3. Lo más común es escribir los átomos constituyentes B, C, N, O, P y S en minúsculas b,,,, y , respectivamente .cnops

En el último caso, se supone que los enlaces entre dos átomos aromáticos (si no se muestran explícitamente) son enlaces aromáticos. Así, el benceno , la piridina y el furano pueden representarse respectivamente mediante las SMILES c1ccccc1y .n1ccccc1o1cccc1

El nitrógeno aromático unido al hidrógeno, como el que se encuentra en el pirrol, debe representarse como [nH]; por lo tanto, imidazol se escribe en notación SMILES como n1c[nH]cc1.

Cuando los átomos aromáticos están unidos de manera simple entre sí, como en el bifenilo , se debe mostrar explícitamente un enlace simple: c1ccccc1-c2ccccc2. Este es uno de los pocos casos en los que -se requiere el símbolo del enlace simple. (De hecho, la mayoría del software SMILES puede inferir correctamente que el enlace entre los dos anillos no puede ser aromático y, por lo tanto, aceptará la forma no estándar c1ccccc1c2ccccc2).

Los algoritmos Daylight y OpenEye para generar SONRISAS canónicas se diferencian en el tratamiento de la aromaticidad.

Visualización de 3-cianoanisol como COc(c1)cccc1C#N.

Derivación

Las ramas se describen entre paréntesis, como en CCC(=O)Oel caso del ácido propiónico y FC(F)Fdel fluoroformo . El primer átomo dentro del paréntesis y el primer átomo después del grupo entre paréntesis están unidos al mismo átomo de punto de ramificación. El símbolo del bono debe aparecer dentro del paréntesis; afuera (por ejemplo CCC=(O)O:) no es válido.

Los anillos sustituidos se pueden escribir con el punto de ramificación en el anillo como se ilustra con SMILES COc(c1)cccc1C#N(ver imagen) y COc(cc1)ccc1C#N(ver imagen) que codifican los isómeros 3 y 4-cianoanisol. Escribir SMILES para anillos sustituidos de esta manera puede hacerlos más legibles para los humanos.

Las ramas pueden escribirse en cualquier orden. Por ejemplo, bromoclorodifluorometano se puede escribir como FC(Br)(Cl)F, BrC(F)(F)Cl, C(F)(Cl)(F)Bro similares. Generalmente, un formulario SMILES es más fácil de leer si la rama más simple va primero, siendo la parte final, sin paréntesis, la más compleja. Las únicas advertencias a tales reordenamientos son:

La única forma de rama que no requiere paréntesis son los enlaces de cierre de anillo. Elegir adecuadamente los enlaces de cierre de anillo puede reducir la cantidad de paréntesis necesarios. Por ejemplo, el tolueno normalmente se escribe como Cc1ccccc1o c1ccccc1C, evitando los paréntesis necesarios si se escribe como c1cc(C)ccc1o c1cc(ccc1)C.

Estereoquímica

trans -1,2-difluoroetileno

SMILES permite, pero no exige, la especificación de estereoisómeros .

La configuración alrededor de los dobles enlaces se especifica utilizando los caracteres /y \para mostrar enlaces simples direccionales adyacentes a un doble enlace. Por ejemplo, F/C=C/F(ver representación) es una representación de trans - 1,2-difluoroetileno , en el que los átomos de flúor están en lados opuestos del doble enlace (como se muestra en la figura), mientras que F/C=C\F(ver representación) es una posible representación de cis -1,2-difluoroetileno, en el que los flúor están en el mismo lado del doble enlace.

Los símbolos de dirección de los enlaces siempre vienen en grupos de al menos dos, de los cuales el primero es arbitrario. Es decir, F\C=C\Fes lo mismo que F/C=C/F. Cuando hay enlaces dobles simples alternos, los grupos son más grandes que dos, y los símbolos direccionales del medio son adyacentes a dos dobles enlaces. Por ejemplo, la forma común de (2,4)-hexadieno se escribe C/C=C/C=C/C.

Betacaroteno , con los once dobles enlaces resaltados.

Como ejemplo más complejo, el betacaroteno tiene una columna vertebral muy larga de enlaces simples y dobles alternos, que puede escribirse CC1CCC/C(C)=C1/C=C/C(C)=C/C=C/C(C)=C/C=C/C=C(C)/C=C/C=C(C)/C=C/C2=C(C)/CCCC2(C)C.

La configuración en el carbono tetraédrico está especificada por @o @@. Considere los cuatro vínculos en el orden en que aparecen, de izquierda a derecha, en la forma SONRISAS. Mirando hacia el carbono central desde la perspectiva del primer enlace, los otros tres están en el sentido de las agujas del reloj o en el sentido contrario a las agujas del reloj. Estos casos se indican con @@y @, respectivamente (porque el @símbolo en sí es una espiral en sentido antihorario).

L -alanina

Por ejemplo, considere el aminoácido alanina . Una de sus formas SMILES está NC(C)C(=O)Oescrita más completamente como N[CH](C)C(=O)O. L -alanina , el enantiómero más común , se escribe como N[C@@H](C)C(=O)O(ver imagen). Mirando desde el enlace nitrógeno-carbono, los grupos hidrógeno ( H), metilo ( C) y carboxilato ( C(=O)O) aparecen en el sentido de las agujas del reloj. D -Alanina se puede escribir como N[C@H](C)C(=O)O(ver imagen).

Si bien el orden en el que se especifican las ramas en SMILES normalmente no es importante, en este caso sí importa; intercambiar dos grupos cualesquiera requiere invertir el indicador de quiralidad. Si las ramas se invierten de modo que alanina se escriba como NC(C(=O)O)C, entonces la configuración también se invierte; L -alanina se escribe como N[C@H](C(=O)O)C(ver imagen). Otras formas de escribirlo incluyen C[C@H](N)C(=O)Oy OC(=O)[C@@H](N)C.OC(=O)[C@H](C)N

Normalmente, el primero de los cuatro enlaces aparece a la izquierda del átomo de carbono, pero si SMILES se escribe comenzando con el carbono quiral, como C(C)(N)C(=O)O, entonces los cuatro están a la derecha, pero el primero en aparecer (el [CH]enlace en este caso) se utiliza como referencia para ordenar los tres siguientes: L -alanina también puede escribirse [C@@H](C)(N)C(=O)O.

La especificación SMILES incluye elaboraciones sobre el @símbolo para indicar la estereoquímica alrededor de centros quirales más complejos, como la geometría molecular bipiramidal trigonal .

Isótopos

Los isótopos se especifican con un número igual a la masa isotópica entera que precede al símbolo atómico. El benceno en el que un átomo es carbono-14 se escribe como [14c]1ccccc1y el deuterocloroformo es [2H]C(Cl)(Cl)Cl.

Ejemplos

Para ilustrar una molécula con más de 9 anillos, considere la cefalostatina-1, [12] una pirazina esteroide de 13 anillos con la fórmula empírica C 54 H 74 N 2 O 10 aislada del hemicordado Cephalodiscus gilchristi del Océano Índico :

Estructura molecular de la cefalostatina-1.

Comenzando con el grupo metilo más a la izquierda en la figura:

CC(C)(O1)C[C@@H](O)[C@@]1(O2)[C@@H](C)[C@@H]3CC=C4[C@]3(C2)C(=O)C[C@H]5[C@H]4CC[C@@H](C6)[C@]5(C)Cc(n7)c6nc(C[C@@]89(C))c7C[C@@H]8CC[C@@H]%10[C@@H]9C[C@@H](O)[C@@]%11(C)C%10=C[C@H](O%12)[C@]%11(O)[C@H](C)[C@]%12(O%13)[C@H](O)C[C@@]%13(C)CO

%aparece delante del índice de etiquetas de cierre de anillo por encima de 9; ver § Anillos arriba.

Otros ejemplos de SONRISAS

La notación SMILES se describe ampliamente en el manual teórico de SMILES proporcionado por Daylight Chemical Information Systems y se presentan varios ejemplos ilustrativos. La utilidad de representación de Daylight proporciona a los usuarios los medios para comprobar sus propios ejemplos de SMILES y es una valiosa herramienta educativa.

Extensiones

SMARTS es una notación lineal para la especificación de patrones subestructurales en moléculas. Si bien utiliza muchos de los mismos símbolos que SMILES, también permite la especificación de átomos y enlaces comodín , que pueden usarse para definir consultas subestructurales para búsquedas en bases de datos químicas . Un error común es pensar que la búsqueda subestructural basada en SMARTS implica hacer coincidir cadenas SMILES y SMARTS. De hecho, tanto las cadenas SMILES como SMARTS se convierten primero en representaciones gráficas internas en las que se busca isomorfismo de subgrafo .

SMIRKS, un superconjunto de "sonrisas de reacción" y un subconjunto de "inteligentes de reacción", es una notación de línea para especificar transformaciones de reacción. La sintaxis general para las extensiones de reacción es REACTANT>AGENT>PRODUCT(sin espacios), donde cualquiera de los campos puede dejarse en blanco o completarse con múltiples moléculas delineadas con un punto ( .) y otras descripciones que dependen del lenguaje base. Los átomos también se pueden identificar con un número (p. ej. [C:1]) para mapeo, [13] por ejemplo en . [14]

SMILES corresponde a estructuras moleculares discretas. Sin embargo, muchos materiales son macromoléculas, que son demasiado grandes (y a menudo estocásticas) para generar SONRISAS de manera conveniente. BigSMILES es una extensión de SMILES que tiene como objetivo proporcionar un sistema de representación eficiente para macromoléculas. [15]

Conversión

SMILES se puede convertir nuevamente en representaciones bidimensionales utilizando algoritmos de generación de diagramas de estructura (SDG). [16] Esta conversión es a veces ambigua. La conversión a una representación tridimensional se logra mediante enfoques de minimización de energía. Existen muchas utilidades de conversión descargables y basadas en la web.

Ver también

Referencias

  1. ^ Weininger D (febrero de 1988). "SMILES, un lenguaje químico y sistema de información. 1. Introducción a la metodología y reglas de codificación". Revista de Información Química y Ciencias de la Computación . 28 (1): 31–6. doi :10.1021/ci00057a005.
  2. ^ ab Weininger D, Weininger A, Weininger JL (mayo de 1989). "SMILES. 2. Algoritmo de generación de notación SMILES única". Revista de información y modelado químico . 29 (2): 97-101. doi :10.1021/ci00062a008.
  3. ^ Weininger D (agosto de 1990). "SONRISAS. 3. REPRESENTACIÓN. Representación gráfica de estructuras químicas". Revista de información y modelado químico . 30 (3): 237–43. doi :10.1021/ci00067a005.
  4. ^ Swanson RP (2004). "La entrada de la informática a la química combinatoria" (PDF) . En Rayward WB, Bowden ME (eds.). La historia y el patrimonio de los sistemas de información científica y tecnológica: actas de la conferencia de 2002 de la Sociedad Estadounidense de Ciencia y Tecnología de la Información y la Fundación del Patrimonio Químico. Medford, Nueva Jersey: Información hoy . pag. 205.ISBN 978-1-57387-229-4.
  5. ^ Weininger D (1998). "Agradecimientos a la página de sonrisas, etc. del tutorial Daylight" . Consultado el 24 de junio de 2013 .
  6. ^ Anderson E, Veith GD, Weininger D (1987). SONRISAS: Notación lineal e intérprete computarizado para estructuras químicas (PDF) . Duluth, MN: EPA de EE. UU. , Laboratorio de Investigación Ambiental de Duluth. Informe No. EPA/600/M-87/021.
  7. ^ "Tutorial de SONRISAS: ¿Qué es SONRISAS?". EPA de EE . UU . Archivado desde el original el 28 de marzo de 2008 . Consultado el 23 de septiembre de 2012 .
  8. ^ Neglur G, Grossman RL, Liu B (2005). "Asignación de claves únicas a compuestos químicos para la integración de datos: algunos contraejemplos interesantes". En Ludäscher B (ed.). Integración de datos en las ciencias biológicas . Apuntes de conferencias sobre informática. vol. 3615. Berlín: Springer. págs. 145-157. doi :10.1007/11530084_13. ISBN 978-3-540-27967-9. Consultado el 12 de febrero de 2013 .
  9. ^ Sidorova J, Anisimova M (agosto de 2014). "Reconocimiento de patrones estructurales inspirado en la PNL en aplicaciones químicas". Letras de reconocimiento de patrones . 45 : 11-16. Código Bib : 2014PaReL..45...11S. doi :10.1016/j.patrec.2014.02.012.
  10. ^ Sidorova J, García J (noviembre de 2015). "Un puente entre los métodos sintácticos y los estadísticos: clasificación con características segmentadas automáticamente a partir de secuencias". Reconocimiento de patrones . 48 (11): 3749–3756. Código Bib : 2015PatRe..48.3749S. doi :10.1016/j.patcog.2015.05.001. hdl : 10016/33552 .
  11. ^ Byers JA, Birgersson G, Löfqvist J, Appelgren M, Bergström G (marzo de 1990). "Aislamiento de feromonas sinérgicas del escarabajo de la corteza, Pityogenes chalcographus, a partir de olores complejos de insectos y plantas mediante fraccionamiento y bioensayo de combinación sustractiva". Revista de Ecología Química . 16 (3): 861–876. doi :10.1007/BF01016496. PMID  24263601. S2CID  226090.
  12. ^ "CID 183413". PubChem . Consultado el 12 de mayo de 2012 .
  13. ^ "Tutorial SONRÍES". Sistemas de información química diurna, Inc. Consultado el 29 de octubre de 2018 .
  14. ^ "Reacción SONRISAS y SONRÍES". Sistemas de información química diurna, Inc. Consultado el 29 de octubre de 2018 .
  15. ^ Lin TS, Coley CW, Mochigase H, Beech HK, Wang W, Wang Z, et al. (septiembre de 2019). "BigSMILES: una notación lineal basada estructuralmente para describir macromoléculas". Ciencia Central ACS . 5 (9): 1523-1531. doi : 10.1021/acscentsci.9b00476. PMC 6764162 . PMID  31572779. 
  16. ^ Helson HE (1999). "Generación de diagramas de estructura". En Lipkowitz KB, Boyd DB (eds.). Reseñas en Química Computacional . vol. 13. Nueva York: Wiley-VCH. págs. 313–398. doi :10.1002/9780470125908.ch6. ISBN 978-0-470-12590-8.