stringtranslate.com

Identificador químico internacional

El Identificador Químico Internacional ( InChI , pronunciado / ˈɪntʃiː / IN -chee ) [ 3 ] es un identificador textual para sustancias químicas , diseñado para proporcionar una forma estándar de codificar información molecular y facilitar la búsqueda de dicha información en bases de datos y en la web. Inicialmente desarrollado por la Unión Internacional de Química Pura y Aplicada (IUPAC) y el Instituto Nacional de Estándares y Tecnología (NIST) de 2000 a 2005, el formato y los algoritmos no son propietarios. Desde mayo de 2009, ha sido desarrollado por InChI Trust, una organización benéfica sin fines de lucro del Reino Unido que trabaja para implementar y promover el uso de InChI. [4]

Los identificadores describen sustancias químicas en términos de capas de información: los átomos y su conectividad de enlace, información tautomérica , información isotópica , estereoquímica e información de carga electrónica. [5] No es necesario proporcionar todas las capas; por ejemplo, la capa de tautómeros se puede omitir si ese tipo de información no es relevante para la aplicación particular. El algoritmo InChI convierte la información estructural de entrada en un identificador InChI único en un proceso de tres pasos: normalización (para eliminar información redundante), canonización (para generar una etiqueta numérica única para cada átomo) y serialización (para dar una cadena de caracteres).

Los InChI se diferencian de los números de registro CAS ampliamente utilizados en tres aspectos: en primer lugar, son de libre uso y no están sujetos a derechos de propiedad; en segundo lugar, se pueden calcular a partir de información estructural y no tienen que ser asignados por alguna organización; y en tercer lugar, la mayor parte de la información en un InChI es legible para humanos (con práctica). Por lo tanto, los InChI pueden considerarse similares a una versión general y extremadamente formalizada de los nombres IUPAC . Pueden expresar más información que la notación SMILES más simple y, a diferencia de las cadenas SMILES, cada estructura tiene una cadena InChI única, lo cual es importante en aplicaciones de bases de datos. La información sobre las coordenadas tridimensionales de los átomos no se representa en InChI; para este propósito, se puede utilizar un formato como PDB .

La InChIKey, a veces denominada InChI hash, es una representación digital condensada de longitud fija (27 caracteres) de la InChI que no es comprensible para los humanos. La especificación InChIKey se publicó en septiembre de 2007 para facilitar las búsquedas web de compuestos químicos, ya que estas eran problemáticas con la InChI de longitud completa. [6] A diferencia de la InChI, la InChIKey no es única: aunque se espera que las colisiones sean extremadamente raras, existen colisiones conocidas. [7]

En enero de 2009 se publicó la versión 1.02 del software InChI, que proporcionaba un medio para generar el denominado InChI estándar, que no permite opciones seleccionables por el usuario para tratar la estereoquímica y las capas tautoméricas de la cadena InChI. La InChIKey estándar es entonces la versión en hash de la cadena InChI estándar. El InChI estándar simplificará la comparación de cadenas y claves InChI generadas por diferentes grupos y a las que se acceda posteriormente a través de diversas fuentes, como bases de datos y recursos web.

El desarrollo continuo del estándar ha sido apoyado desde 2010 por la organización sin fines de lucro InChI Trust , de la que la IUPAC es miembro. La versión 1.06 se lanzó en diciembre de 2020. [8] Antes de la 1.04, el software estaba disponible de forma gratuita bajo la licencia LGPL de código abierto , [9] . Las versiones 1.05 y 1.06 usaban una licencia personalizada llamada Licencia IUPAC-InChI Trust. [10]

La versión actual del software es 1.07.1 (agosto de 2024), utiliza la licencia MIT y se puede descargar del sitio GitHub de InChI.

Generación

Para evitar generar diferentes InChI para las estructuras tautoméricas, antes de generar el InChI, se normaliza una estructura química de entrada para reducirla a su denominada estructura madre central. Esto puede implicar cambiar los órdenes de los enlaces, reorganizar las cargas formales y posiblemente agregar y quitar protones. Diferentes estructuras de entrada pueden dar el mismo resultado; por ejemplo, el ácido acético y el acetato darían ambos la misma estructura madre central, la del ácido acético. Una estructura madre central puede estar desconectada, consistiendo en más de un componente, en cuyo caso las subcapas en el InChI generalmente consisten en subcapas para cada componente, separadas por punto y coma (puntos para la subcapa de fórmula química). Una forma en que esto puede suceder es que todos los átomos de metal se desconecten durante la normalización; así, por ejemplo, el InChI para el tetraetilo de plomo tendrá cinco componentes, uno para el plomo y cuatro para los grupos etilo. [5]

La primera capa, la principal, del InChI se refiere a esta estructura madre central, dando su fórmula química, conectividad sin hidrógeno sin orden de enlace ( /csubcapa) y conectividad de hidrógeno ( /hsubcapa). La /qporción de la capa de carga da su carga, y la /pporción de la capa de carga dice cuántos protones (iones de hidrógeno) deben agregarse o eliminarse de ella para regenerar la estructura original. Si está presente, la capa estereoquímica, con subcapas b, /t, /my /s, da información estereoquímica, y la capa isotópica /i(que puede contener subcapas /h, /b, y ) da información isotópica. Estas son las únicas capas que pueden ocurrir en un InChI estándar. [5/t ]/m/s

Si el usuario desea especificar un tautómero exacto, /fse puede añadir una capa de hidrógeno fija, que puede contener varias subcapas adicionales; sin embargo, esto no se puede hacer en InChI estándar, por lo que diferentes tautómeros tendrán el mismo InChI estándar (por ejemplo, la alanina dará el mismo InChI estándar ya sea que se introduzca en forma neutra o zwitteriónica). Finalmente, /rse puede añadir una capa reconectada no estándar, que da lugar efectivamente a un nuevo InChI generado sin romper enlaces a átomos de metal. Esto puede contener varias subcapas, incluyendo /f. [5]

Formato y capas

Cada InChI comienza con la cadena " InChI=" seguida del número de versión, actualmente 1. Si el InChI es estándar, esto va seguido de la letra Spara los InChI estándar , que es una versión de InChI completamente estandarizada que mantiene el mismo nivel de atención a los detalles de la estructura y las mismas convenciones para la percepción del dibujo. La información restante está estructurada como una secuencia de capas y subcapas, y cada capa proporciona un tipo específico de información. Las capas y subcapas están separadas por el delimitador " /" y comienzan con una letra de prefijo característica (excepto la subcapa de fórmula química de la capa principal). Las seis capas con subcapas importantes son:

  1. Capa principal (siempre presente)
    • Fórmula química (sin prefijo). Esta es la única subcapa que debe aparecer en cada InChI. Los números utilizados en todo el InChI se dan en el orden de los elementos de la fórmula, excluyendo los átomos de hidrógeno. Por ejemplo, "/C10H16N5O13P3" implica que los átomos numerados del 1 al 10 son carbonos, del 11 al 15 son nitrógenos, del 16 al 28 son oxígenos y del 29 al 31 son fósforo. [11]
    • Conexiones atómicas (prefijo: " c"). Los átomos en la fórmula química (excepto los hidrógenos) están numerados en secuencia; esta subcapa describe qué átomos están conectados por enlaces a otros. El tipo de esos enlaces se especifica posteriormente en la capa estereoquímica prefijada con " b".
    • Átomos de hidrógeno (prefijo: " h"). Describe cuántos átomos de hidrógeno están conectados a cada uno de los otros átomos.
  2. Capa de carga
    • subcapa de carga (prefijo: " q")
    • subcapa de protones (prefijo: " p" para "protones")
  3. Capa estereoquímica
    • dobles enlaces y cumulenos (prefijo: " b")
    • Estereoquímica tetraédrica de átomos y alenos (prefijos: " t", " m")
    • tipo de información estereoquímica (prefijo: " s")
  4. Capa isotópicai (prefijo: " "), puede incluir subcapas: [11]
    • subcapa " h" para el hidrógeno isotópico
    • subcapas " b", " t", " m", " s" para la estereoquímica isotópica
  5. Capa fija-H (prefijo: " f") para hidrógenos tautoméricos; contiene algunos o todos los tipos de capas anteriores excepto conexiones atómicas; puede terminar con ola subcapa " "; nunca se incluye en el InChI estándar [11]
  6. Capa reconectada (prefijo: " r"); contiene todo el InChI de una estructura con átomos metálicos reconectados; nunca se incluye en el InChI estándar

El formato de prefijo delimitador tiene la ventaja de que un usuario puede utilizar fácilmente una búsqueda con comodines para encontrar identificadores que coincidan solo en ciertas capas.

Clave InChI

La InChIKey condensada de 27 caracteres es una versión en hash de la InChI completa (que utiliza el algoritmo SHA-256 ), diseñada para permitir búsquedas sencillas de compuestos químicos en la web. [6] La InChIKey estándar es la contraparte en hash de la InChI estándar . La mayoría de las estructuras químicas en la web hasta 2007 se han representado como archivos GIF , que no se pueden buscar por contenido químico. La InChI completa resultó ser demasiado larga para una búsqueda sencilla, y por lo tanto se desarrolló la InChIKey. Existe una probabilidad muy pequeña, pero no nula, de que dos moléculas diferentes tengan la misma InChIKey, pero la probabilidad de duplicación de solo los primeros 14 caracteres se ha estimado en solo una duplicación en 75 bases de datos que contienen cada una mil millones de estructuras únicas. Dado que todas las bases de datos tienen actualmente menos de 50 millones de estructuras, dicha duplicación parece poco probable en la actualidad. Un estudio reciente estudia más ampliamente la tasa de colisión y descubrió que la tasa de colisión experimental concuerda con las expectativas teóricas. [12]

La InChIKey actualmente consta de tres partes separadas por guiones, de 14, 10 y un carácter(es), respectivamente, como XXXXXXXXXXXXXX-YYYYYYYYFV-P. Los primeros 14 caracteres resultan de un hash SHA-256 de la información de conectividad (la capa principal y /qla subcapa de la capa de carga) de la InChI. La segunda parte consta de 10 caracteres resultantes de un hash de las capas restantes de la InChI, un único carácter que indica el tipo de InChIKey ( Spara estándar y Npara no estándar), y un carácter que indica la versión de InChI utilizada (actualmente Apara la versión 1). Finalmente, el único carácter al final indica la protonación de la estructura principal principal, correspondiente a la /psubcapa de la capa de carga ( Npara ninguna protonación, O, P, ... si se deben agregar protones y M, L, ... si se deben eliminar). [13] [5]

Ejemplo

Estructura de la morfina

La morfina tiene la estructura que se muestra a la derecha. El InChI estándar para la morfina es InChI=1S/C17H19NO3/c1-18-7-6-17-10-3-5-13(20)16(17)21-15-12(19)4-2-9(14(15)17)8-11(10)18/h2-5,10-11,13,16,19-20H,6-8H2,1H3/t10-,11+,13-,16-,17-/m0/s1y la clave InChI estándar para la morfina es BQJCRHHNABKAKU-KBQPJGBKSA-N. [14]

Resolvedores InChI

Como el InChI no se puede reconstruir a partir de la InChIKey, siempre es necesario vincular una InChIKey con el InChI original para volver a la estructura original. Los solucionadores InChI actúan como un servicio de búsqueda para realizar estos enlaces, y hay servicios prototipo disponibles en el Instituto Nacional del Cáncer , el servicio UniChem en el Instituto Europeo de Bioinformática y PubChem . ChemSpider ha tenido un solucionador hasta julio de 2015, cuando fue descontinuado. [15]

Nombre

El formato se llamó originalmente IChI (IUPAC Chemical Identifier), luego cambió su nombre en julio de 2004 a INChI (IUPAC-NIST Chemical Identifier), y cambió su nombre nuevamente en noviembre de 2004 a InChI (IUPAC International Chemical Identifier), una marca registrada de la IUPAC.

Desarrollo continuo

La dirección científica del estándar InChI está a cargo del Subcomité de la División VIII de la IUPAC, y la financiación de los subgrupos que investigan y definen la expansión del estándar está a cargo tanto de la IUPAC como del InChI Trust . El InChI Trust financia el desarrollo, las pruebas y la documentación del InChI. Las extensiones actuales se están definiendo para manejar polímeros y mezclas , estructuras de Markush , reacciones [16] y organometálicos , y una vez aceptadas por el Subcomité de la División VIII, se agregarán al algoritmo.

Software

El InChI Trust ha desarrollado un software para generar el InChI, el InChIKey y otros identificadores. A continuación se muestra el historial de lanzamiento de este software. [17]

Adopción

El InChI ha sido adoptado por muchas bases de datos grandes y pequeñas, incluidas ChemSpider , ChEMBL , Golm Metabolome Database , OpenPHACTS y PubChem . [18] Sin embargo, la adopción no es sencilla y muchas bases de datos muestran una discrepancia entre las estructuras químicas y el InChI que contienen, lo que es un problema para vincular bases de datos. [19]

Véase también

Notas y referencias

  1. ^ "Página del Proyecto de Identificadores Químicos Internacionales de la IUPAC". IUPAC . Archivado desde el original el 27 de mayo de 2012 . Consultado el 5 de diciembre de 2012 .
  2. ^ Heller, S.; McNaught, A.; Stein, S.; Tchekhovskoi, D.; Pletnev, I. (2013). "InChI - el estándar mundial de identificadores de estructura química". Journal of Cheminformatics . 5 (1): 7. doi : 10.1186/1758-2946-5-7 . PMC 3599061 . PMID  23343401. 
  3. ^ "¿Qué diablos es InChI?". IUPAC 100. Consultado el 10 de mayo de 2024 .
  4. ^ "El InChI Trust y la IUPAC". InChI Trust . Consultado el 22 de agosto de 2022 .
  5. ^ abcde Heller, SR; McNaught, A.; Pletnev, I.; Stein, S.; Tchekhovskoi, D. (2015). "InChI, el identificador químico internacional de la IUPAC". Journal of Cheminformatics . 7 : 23. doi : 10.1186/s13321-015-0068-4 . PMC 4486400 . PMID  26136848. 
  6. ^ ab "El Identificador Químico Internacional IUPAC (InChI)". IUPAC . 5 de septiembre de 2007. Archivado desde el original el 30 de octubre de 2007 . Consultado el 18 de septiembre de 2007 .
  7. ^ EL Willighagen (17 de septiembre de 2011). "Colisión InChIKey: los programas copiables DIY" . Consultado el 6 de noviembre de 2012 .
  8. ^ Goodman, Jonathan M.; Pletnev, Igor; Thiessen, Paul; Bolton, Evan; Heller, Stephen R. (diciembre de 2021). "Versión 1.06 de InChI: ahora más del 99,99 % confiable". Revista de quimioinformática . 13 (1): 40. doi : 10.1186/s13321-021-00517-z . PMC 8147039 . PMID  34030732. 
  9. ^ McNaught, Alan (2006). "El identificador químico internacional de la IUPAC: InChl". Chemistry International . Vol. 28, no. 6. IUPAC . Consultado el 18 de septiembre de 2007 .
  10. ^ ab "Licencia IUPAC/InChI-Trust para el software de identificación química internacional (InChI)" (PDF) . IUPAC/InChI-Trust. 2020 . Consultado el 9 de agosto de 2022 .
  11. ^ abc Heller, Stephen R.; McNaught, Alan; Pletnev, Igor; Stein, Stephen; Tchekhovskoi, Dmitrii (2015). "InChI, el identificador químico internacional de la IUPAC". Revista de quimioinformática . 7 : 23. doi : 10.1186/s13321-015-0068-4 . PMC 4486400 . PMID  26136848. 
  12. ^ Pletnev, I.; Erin, A.; McNaught, A.; Blinov, K.; Tchekhovskoi, D.; Heller, S. (2012). "Resistencia a colisiones InChIKey: una prueba experimental". Journal of Cheminformatics . 4 (1): 39. doi : 10.1186/1758-2946-4-39 . PMC 3558395 . PMID  23256896. 
  13. ^ "Preguntas frecuentes técnicas - InChI Trust". inchi-trust.org . Consultado el 8 de enero de 2021 .
  14. ^ "InChI=1/C17H19NO3/c1-18..." Chemspider . Consultado el 18 de septiembre de 2007 .
  15. ^ InChI Resolver, 27 de julio de 2015
  16. ^ ab Grethe, Guenter; Blanke, Gerd; Kraut, Hans; Goodman, Jonathan M. (9 de mayo de 2018). "Identificador químico internacional para reacciones (RInChI)". Journal of Cheminformatics . 10 (1): 45. doi : 10.1186/s13321-018-0277-8 . PMC 4015173 . PMID  24152584. 
  17. ^ Descargas del software InChI, consultado el 8 de enero de 2021.
  18. ^ Warr, WA (2015). "Muchos InChI y bastante hazaña". Revista de diseño molecular asistido por ordenador . 29 (8): 681–694. Bibcode :2015JCAMD..29..681W. doi :10.1007/s10822-015-9854-3. PMID  26081259. S2CID  31786997.
  19. ^ Akhondi, SA; Kors, JA; Muresan, S. (2012). "Consistencia de identificadores químicos sistemáticos dentro y entre bases de datos de moléculas pequeñas". Journal of Cheminformatics . 4 (1): 35. doi : 10.1186/1758-2946-4-35 . PMC 3539895 . PMID  23237381. 

Enlaces externos