stringtranslate.com

Identificador químico internacional

El Identificador Químico Internacional ( InChI , pronunciado / ˈ ɪ n / IN -chee ) [3] es un identificador textual para sustancias químicas , diseñado para proporcionar una forma estándar de codificar información molecular y facilitar la búsqueda de dicha información en bases de datos. y en la web. Desarrollado inicialmente por la Unión Internacional de Química Pura y Aplicada (IUPAC) y el Instituto Nacional de Estándares y Tecnología (NIST) de 2000 a 2005, el formato y los algoritmos no son propietarios. Desde mayo de 2009, ha sido desarrollado por InChI Trust, una organización benéfica sin fines de lucro del Reino Unido que trabaja para implementar y promover el uso de InChI. [4]

Los identificadores describen sustancias químicas en términos de capas de información: los átomos y su conectividad de enlaces, información tautomérica , información de isótopos , estereoquímica e información de carga electrónica. [5] No es necesario proporcionar todas las capas; por ejemplo, la capa de tautómero puede omitirse si ese tipo de información no es relevante para la aplicación particular. El algoritmo InChI convierte la información estructural de entrada en un identificador InChI único en un proceso de tres pasos: normalización (para eliminar información redundante), canonicalización (para generar una etiqueta numérica única para cada átomo) y serialización (para proporcionar una cadena de caracteres). .

Los InChI se diferencian de los números de registro CAS ampliamente utilizados en tres aspectos: en primer lugar, son de libre uso y no son propietarios; en segundo lugar, pueden calcularse a partir de información estructural y no tienen que ser asignados por ninguna organización; y en tercer lugar, la mayor parte de la información de un InChI es legible por humanos (con práctica). Por lo tanto, los InChI pueden considerarse similares a una versión general y extremadamente formalizada de los nombres IUPAC . Pueden expresar más información que la notación SMILES más simple y, a diferencia de las cadenas SMILES, cada estructura tiene una cadena InChI única, lo cual es importante en aplicaciones de bases de datos. La información sobre las coordenadas tridimensionales de los átomos no está representada en InChI; para ello se puede utilizar un formato como PDB .

La InChIKey, a veces denominada InChI hash, es una representación digital condensada de longitud fija (27 caracteres) de la InChI que no es comprensible para los humanos. La especificación InChIKey se publicó en septiembre de 2007 para facilitar las búsquedas web de compuestos químicos, ya que estos eran problemáticos con el InChI completo. [6] A diferencia del InChI, el InChIKey no es único: aunque se espera que las colisiones sean extremadamente raras, hay colisiones conocidas. [7]

En enero de 2009 se lanzó la versión 1.02 del software InChI. Esto proporcionó un medio para generar el llamado InChI estándar, que no permite opciones seleccionables por el usuario al tratar con la estereoquímica y las capas tautoméricas de la cadena InChI. La InChIKey estándar es entonces la versión hash de la cadena InChI estándar. El estándar InChI simplificará la comparación de cadenas y claves InChI generadas por diferentes grupos y a las que posteriormente se accede a través de diversas fuentes, como bases de datos y recursos web.

El desarrollo continuo de la norma ha sido apoyado desde 2010 por la organización sin fines de lucro InChI Trust , de la cual la IUPAC es miembro. La versión actual del software es 1.06 y se lanzó en diciembre de 2020. [8] Antes de la 1.04, el software estaba disponible gratuitamente bajo la licencia LGPL de código abierto , [9] pero ahora utiliza una licencia personalizada llamada IUPAC-InChI Trust License. [10]

Generación

Para evitar generar diferentes InChI para estructuras tautoméricas, antes de generar el InChI, se normaliza una estructura química de entrada para reducirla a su denominada estructura principal central. Esto puede implicar cambiar el orden de los bonos, reorganizar las cargas formales y posiblemente agregar y eliminar protones. Diferentes estructuras de entrada pueden dar el mismo resultado; por ejemplo, el ácido acético y el acetato darían ambos la misma estructura principal central, la del ácido acético. Una estructura principal central puede estar desconectada y constar de más de un componente, en cuyo caso las subcapas en el InChI generalmente constan de subcapas para cada componente, separadas por punto y coma (puntos para la subcapa de fórmula química). Una forma en que esto puede suceder es que todos los átomos metálicos se desconecten durante la normalización; así, por ejemplo, el InChI del tetraetilo de plomo tendrá cinco componentes, uno para el plomo y cuatro para los grupos etilo. [5]

La primera capa, principal, del InChI se refiere a esta estructura principal central, dando su fórmula química, conectividad sin hidrógeno sin orden de enlace ( /csubcapa) y conectividad de hidrógeno ( /hsubcapa). La /qporción de la capa de carga proporciona su carga, y la /pLa porción de la capa de carga indica cuántos protones (iones de hidrógeno) se deben agregar o eliminar para regenerar la estructura original. Si está presente, la capa estereoquímica, con subcapas b, /ty , proporciona información estereoquímica, y la capa isotópica (que puede contener subcapas ,, y ) proporciona información isotópica. Estas son las únicas capas que pueden aparecer en un InChI estándar. [5]/m/s/i/h/b/t/m/s

Si el usuario desea especificar un tautómero exacto, /fse puede añadir una capa fija de hidrógeno, que puede contener varias subcapas adicionales; Sin embargo, esto no se puede hacer en InChI estándar, por lo que diferentes tautómeros tendrán el mismo InChI estándar (por ejemplo, la alanina dará el mismo InChI estándar ya sea que se ingrese en forma neutra o zwitteriónica). Finalmente, /rse puede agregar una capa reconectada no estándar, lo que efectivamente proporciona un nuevo InChI generado sin romper los enlaces con los átomos metálicos. Esto puede contener varias subcapas, incluidas /f. [5]

Formato y capas

Cada InChI comienza con la cadena " InChI=" seguida del número de versión actual 1. Si el InChI es estándar, le sigue la letra Sde InChI estándar , que es una versión de InChI totalmente estandarizada que mantiene el mismo nivel de atención a los detalles de la estructura y las mismas convenciones para la percepción del dibujo. La información restante se estructura como una secuencia de capas y subcapas, y cada capa proporciona un tipo específico de información. Las capas y subcapas están separadas por el delimitador " /" y comienzan con una letra de prefijo característica (a excepción de la subcapa de fórmula química de la capa principal). Las seis capas con subcapas importantes son:

  1. Capa principal (siempre presente)
    • Fórmula química (sin prefijo). Esta es la única subcapa que debe ocurrir en cada InChI. Los números utilizados en InChI se dan en el orden de los elementos de la fórmula, excluyendo los átomos de hidrógeno. Por ejemplo, "/C10H16N5O13P3" implica que los átomos numerados del 1 al 10 son carbonos, del 11 al 15 son nitrógenos, del 16 al 28 son oxígenos y del 29 al 31 son fósforo. [11]
    • Conexiones Atom (prefijo: " c"). Los átomos de la fórmula química (excepto los hidrógenos) están numerados en secuencia; esta subcapa describe qué átomos están conectados mediante enlaces a cuáles otros. El tipo de esos enlaces se especifica posteriormente en la capa estereoquímica con el prefijo " b".
    • Átomos de hidrógeno (prefijo: " h"). Describe cuántos átomos de hidrógeno están conectados a cada uno de los otros átomos.
  2. Capa de carga
    • subcapa de carga (prefijo: " q")
    • subcapa de protones (prefijo: " p" para "protones")
  3. capa estereoquímica
    • dobles enlaces y cumulenos (prefijo: " b")
    • Estereoquímica tetraédrica de átomos y alenos (prefijos: " t", " m")
    • tipo de información estereoquímica (prefijo: " s")
  4. Capa isotópica (prefijo: " i"), puede incluir subcapas: [11]
    • subcapa " h" para hidrógeno isotópico
    • subcapas " b", " t", " m", " s" para estereoquímica isotópica
  5. Capa H fija (prefijo: " f") para hidrógenos tautoméricos; contiene algunos o todos los tipos de capas anteriores, excepto las conexiones atómicas; puede terminar con ola subcapa " "; nunca incluido en el estándar InChI [11]
  6. Capa reconectada (prefijo: " r"); contiene todo el InChI de una estructura con átomos metálicos reconectados; nunca incluido en el InChI estándar

El formato de prefijo delimitador tiene la ventaja de que un usuario puede utilizar fácilmente una búsqueda con comodines para encontrar identificadores que coincidan sólo en determinadas capas.

InChiKey

La InChIKey condensada de 27 caracteres es una versión hash de la InChI completa (que utiliza el algoritmo SHA-256 ), diseñada para permitir búsquedas web sencillas de compuestos químicos. [6] El InChIKey estándar es la contraparte hash del InChI estándar . La mayoría de las estructuras químicas en la Web hasta 2007 se han representado como archivos GIF , en los que no se puede buscar contenido químico. El InChI completo resultó ser demasiado largo para facilitar la búsqueda y, por lo tanto, se desarrolló el InChIKey. Existe una posibilidad muy pequeña, pero distinta de cero, de que dos moléculas diferentes tengan la misma InChIKey, pero la probabilidad de duplicación de solo los primeros 14 caracteres se ha estimado en solo una duplicación en 75 bases de datos que contienen cada una mil millones de estructuras únicas. Dado que todas las bases de datos tienen actualmente menos de 50 millones de estructuras, dicha duplicación parece poco probable en la actualidad. Un estudio reciente estudia más extensamente la tasa de colisiones y encuentra que la tasa de colisiones experimental está de acuerdo con las expectativas teóricas. [12]

El InChIKey actualmente consta de tres partes separadas por guiones, de 14, 10 y un carácter, respectivamente, como XXXXXXXXXXXXXX-YYYYYYYYFV-P. Los primeros 14 caracteres resultan de un hash SHA-256 de la información de conectividad (la capa principal y /qsubcapa de la capa de carga) del InChI. La segunda parte consta de 10 caracteres resultantes de un hash de las capas restantes del InChI, un solo carácter que indica el tipo de InChIKey ( Spara estándar y Npara no estándar), y un carácter que indica la versión de InChI utilizada (actualmente Apara la versión 1). . Finalmente, el carácter único al final indica la protonación de la estructura principal central, correspondiente a la /psubcapa de la capa de carga ( Npara no protonación, O, P, ... si se deben agregar protones y M, L, ... si se deben agregar protones eliminado.) [13] [5]

Ejemplo

Estructura de morfina

La morfina tiene la estructura que se muestra a la derecha. El InChI estándar para la morfina es InChI=1S/C17H19NO3/c1-18-7-6-17-10-3-5-13(20)16(17)21-15-12(19)4-2-9(14(15)17)8-11(10)18/h2-5,10-11,13,16,19-20H,6-8H2,1H3/t10-,11+,13-,16-,17-/m0/s1y el InChIKey estándar para la morfina es BQJCRHHNABKAKU-KBQPJGBKSA-N. [14]

Resolvedores InChi

Como el InChI no se puede reconstruir a partir de la InChIKey, siempre es necesario vincular una InChIKey al InChI original para volver a la estructura original. InChI Resolvers actúa como un servicio de búsqueda para realizar estos enlaces, y los servicios prototipo están disponibles en el Instituto Nacional del Cáncer , el servicio UniChem del Instituto Europeo de Bioinformática y PubChem . ChemSpider tuvo un solucionador hasta julio de 2015, cuando fue dado de baja. [15]

Nombre

El formato se llamó originalmente IChI (Identificador químico IUPAC), luego se le cambió el nombre en julio de 2004 a INChI (Identificador químico IUPAC-NIST) y se le cambió nuevamente el nombre en noviembre de 2004 a InChI (Identificador químico internacional IUPAC), una marca registrada de IUPAC.

Desarrollo continuo

La dirección científica del estándar InChI está a cargo del Subcomité de la División VIII de la IUPAC, y la financiación de los subgrupos que investigan y definen la expansión del estándar está a cargo tanto de la IUPAC como del InChI Trust . El InChI Trust financia el desarrollo, las pruebas y la documentación del InChI. Se están definiendo extensiones actuales para manejar polímeros y mezclas , estructuras de Markush , reacciones [16] y organometálicos , y una vez aceptadas por el Subcomité de la División VIII se agregarán al algoritmo.

Software

InChI Trust ha desarrollado un software para generar InChI, InChIKey y otros identificadores. A continuación se muestra el historial de lanzamientos de este software. [17]

Adopción

El InChI ha sido adoptado por muchas bases de datos más grandes y más pequeñas, incluidas ChemSpider , ChEMBL , Golm Metabolome Database , OpenPHACTS y PubChem . [18] Sin embargo, la adopción no es sencilla y muchas bases de datos muestran una discrepancia entre las estructuras químicas y el InChI que contienen, lo que supone un problema para vincular las bases de datos. [19]

Ver también

notas y referencias

  1. ^ "Página del proyecto de identificador químico internacional de la IUPAC". IUPAC . Archivado desde el original el 27 de mayo de 2012 . Consultado el 5 de diciembre de 2012 .
  2. ^ Heller, S.; McNaught, A.; Stein, S.; Tchekhovskoi, D.; Pletnev, I. (2013). "InChI: el estándar mundial de identificación de estructuras químicas". Revista de quimioinformática . 5 (1): 7. doi : 10.1186/1758-2946-5-7 . PMC 3599061 . PMID  23343401. 
  3. ^ "¿Qué diablos es InChI?". IUPAC 100 . Consultado el 10 de mayo de 2024 .
  4. ^ "El InChI Trust y la IUPAC". Confianza InChi . Consultado el 22 de agosto de 2022 .
  5. ^ abcde Heller, SR; McNaught, A.; Pletnev, I.; Stein, S.; Tchekhovskoi, D. (2015). "InChI, el identificador químico internacional de la IUPAC". Revista de quimioinformática . 7 : 23. doi : 10.1186/s13321-015-0068-4 . PMC 4486400 . PMID  26136848. 
  6. ^ ab "El identificador químico internacional de la IUPAC (InChI)". IUPAC . 5 de septiembre de 2007. Archivado desde el original el 30 de octubre de 2007 . Consultado el 18 de septiembre de 2007 .
  7. ^ EL Willighagen (17 de septiembre de 2011). "Colisión InChIKey: copiar y pegar de bricolaje" . Consultado el 6 de noviembre de 2012 .
  8. ^ Buen hombre, Jonathan M.; Pletnev, Igor; Thiessen, Pablo; Bolton, Evan; Heller, Stephen R. (diciembre de 2021). "InChI versión 1.06: ahora más del 99,99% confiable". Revista de quimioinformática . 13 (1): 40. doi : 10.1186/s13321-021-00517-z . PMC 8147039 . PMID  34030732. 
  9. ^ McNaught, Alan (2006). "El identificador químico internacional de la IUPAC: InChl". Química Internacional . vol. 28, núm. 6. IUPAC . Consultado el 18 de septiembre de 2007 .
  10. ^ ab "Licencia IUPAC/InChI-Trust para el software de identificador químico internacional (InChI)" (PDF) . IUPAC/InChI-Trust. 2020 . Consultado el 9 de agosto de 2022 .
  11. ^ abc Heller, Stephen R.; McNaught, Alan; Pletnev, Igor; Stein, Esteban; Tchekhovskoi, Dmitrii (2015). "InChI, el identificador químico internacional de la IUPAC". Revista de quimioinformática . 7. : 23. doi : 10.1186/s13321-015-0068-4 . PMC 4486400 . PMID  26136848. 
  12. ^ Pletnev, yo; Erín, A.; McNaught, A.; Blinov, K.; Tchekhovskoi, D.; Heller, S. (2012). "Resistencia a colisiones InChIKey: una prueba experimental". Revista de quimioinformática . 4 (1): 39. doi : 10.1186/1758-2946-4-39 . PMC 3558395 . PMID  23256896. 
  13. ^ "Preguntas frecuentes técnicas: InChI Trust". inchi-trust.org . Consultado el 8 de enero de 2021 .
  14. ^ "InChI=1/C17H19NO3/c1-18..." Chemspider . Consultado el 18 de septiembre de 2007 .
  15. ^ InChI Resolver, 27 de julio de 2015
  16. ^ ab Grethe, Guenter; Blanke, Gerd; Kraut, Hans; Goodman, Jonathan M. (9 de mayo de 2018). "Identificador químico internacional de reacciones (RInChI)". Revista de quimioinformática . 10 (1): 45. doi : 10.1186/s13321-018-0277-8 . PMC 4015173 . PMID  24152584. 
  17. ^ Descargas del software InChI, consultado el 8 de enero de 2021.
  18. ^ Warr, WA (2015). "Muchos InChI y bastante hazaña". Revista de diseño molecular asistido por computadora . 29 (8): 681–694. Código Bib : 2015JCAMD..29..681W. doi :10.1007/s10822-015-9854-3. PMID  26081259. S2CID  31786997.
  19. ^ Akhondi, SA; Kors, JA; Muresan, S. (2012). "Coherencia de identificadores químicos sistemáticos dentro y entre bases de datos de moléculas pequeñas". Revista de quimioinformática . 4 (1): 35. doi : 10.1186/1758-2946-4-35 . PMC 3539895 . PMID  23237381. 

enlaces externos