stringtranslate.com

Formato de archivo químico

Un formato de archivo químico es un tipo de archivo de datos que se utiliza específicamente para representar datos moleculares. Uno de los más utilizados es el formato de archivo de tabla química , que es similar a los archivos de formato de datos de estructura (SDF) . Son archivos de texto que representan múltiples registros de estructuras químicas y campos de datos asociados. El formato de archivo XYZ es un formato simple que generalmente proporciona el número de átomos en la primera línea, un comentario en la segunda, seguido de varias líneas con símbolos atómicos (o números atómicos) y coordenadas cartesianas. El formato del banco de datos de proteínas se usa comúnmente para proteínas, pero también se usa para otros tipos de moléculas. Hay muchos otros tipos que se detallan a continuación. Hay varios sistemas de software disponibles para convertir de un formato a otro.

Formatos distintivos

La información química generalmente se proporciona como archivos o secuencias y se han creado muchos formatos, con distintos grados de documentación. El formato se indica de tres maneras:
(ver § El Proyecto Chemical MIME)

Lenguaje de marcado químico

El lenguaje de marcado químico (CML) es un estándar abierto para representar datos moleculares y otros datos químicos. El proyecto de código abierto incluye un esquema XML, código fuente para analizar y trabajar con datos CML y una comunidad activa. Los artículos Herramientas para trabajar con lenguaje de marcado químico y XML para química y biociencias analizan la CML con más detalle. Los archivos de datos CML son aceptados por muchas herramientas, incluidas JChemPaint , Jmol , XDrawChem y MarvinView.

Formato del banco de datos de proteínas

El formato del banco de datos de proteínas se usa comúnmente para proteínas, pero también se puede usar para otros tipos de moléculas. Originalmente fue diseñado como, y continúa siendo, un formato de ancho de columna fijo y, por lo tanto, tiene oficialmente incorporado un número máximo de átomos, residuos y cadenas; esto resultó en la división de estructuras muy grandes, como los ribosomas, en múltiples archivos. Sin embargo, muchas herramientas pueden leer archivos que superan esos límites. Por ejemplo, el ribosoma 70S de E. coli se representó como 4 archivos PDB en 2009: 3I1M Archivado el 5 de octubre de 2016 en Wayback Machine , 3I1N Archivado el 16 de octubre de 2016 en Wayback Machine , 3I1O y 3I1P. En 2014 se consolidaron en un único archivo, 4V6C.

Algunos archivos PDB contienen una sección opcional que describe la conectividad y la posición de los átomos. Debido a que estos archivos a veces se utilizan para describir conjuntos macromoleculares o moléculas representadas en disolvente explícito , pueden crecer mucho y, a menudo, se comprimen. Algunas herramientas, como Jmol y KiNG, [1] pueden leer archivos PDB en formato gzip. El wwPDB mantiene las especificaciones del formato de archivo PDB y su alternativa XML, PDBML. Hubo un cambio bastante importante en la especificación del formato PDB (a la versión 3.0) en agosto de 2007 y se solucionaron muchos problemas de archivos en la base de datos existente. [2] La extensión de archivo típica para un archivo PDB es .pdb, aunque algunos archivos más antiguos usan .ento .brk. Algunas herramientas de modelado molecular escriben archivos de estilo PDB no estándar que adaptan el formato básico a sus propias necesidades.

Formato GROMACS

La familia de formatos de archivos GROMACS se creó para su uso con el paquete de software de simulación molecular GROMACS . Se parece mucho al formato PDB, pero fue diseñado para almacenar resultados de simulaciones de dinámica molecular , por lo que permite una precisión numérica adicional y, opcionalmente, retiene información sobre la velocidad de las partículas y la posición en un punto determinado de la trayectoria de la simulación. No permite el almacenamiento de información de conectividad, que en GROMACS se obtiene de archivos separados de topología de moléculas y sistemas. La extensión de archivo típica para un archivo GROMACS es .gro.

formato CHARMM

El paquete de dinámica molecular CHARMM [3] puede leer y escribir varios formatos de archivos químicos y bioquímicos estándar; sin embargo, CARD (coordenadas) y PSF ( archivo de estructura de proteínas ) son en gran medida exclusivos de CHARMM. El formato CARD tiene un ancho de columna fijo, se parece al formato PDB y se utiliza exclusivamente para almacenar coordenadas atómicas. El archivo PSF contiene información de conectividad atómica (que describe los enlaces atómicos) y es necesario antes de comenzar una simulación. Las extensiones de archivo típicas utilizadas son .crdy .psfrespectivamente.

formato GSD

El formato de archivo de datos de simulación general (GSD) creado para la lectura/escritura eficiente de simulaciones de partículas genéricas, principalmente, entre otras, aquellas de HOOMD-blue. El paquete también contiene un módulo de Python que lee y escribe archivos gsd de esquema HOOMD con una sintaxis fácil de usar.[1]

Formato de archivo Ghemical

El software Ghemical puede utilizar OpenBabel para importar y exportar varios formatos de archivo. Sin embargo, de forma predeterminada utiliza el formato GPR. Este archivo se compone de varias partes, separadas por una etiqueta ( !Header, !Info, !Atoms, !Bonds, !Coordy !PartialCharges) !End.

El tipo MIME propuesto para este formato es application/x-ghemical .

Notación de línea SYBYL

La notación de líneas SYBYL (SLN) es una notación de líneas química . Basado en SMILES, incorpora una sintaxis completa para especificar la estereoquímica relativa. SLN tiene una rica sintaxis de consulta que permite la especificación de consultas de estructura Markush . La sintaxis también admite la especificación de bibliotecas combinatorias de ChemDraw.

SONRISAS

El sistema de entrada de líneas de entrada molecular simplificado , o SMILES, [4] es una notación de líneas para moléculas. Las cadenas SMILES incluyen conectividad pero no incluyen coordenadas 2D o 3D.

Los átomos de hidrógeno no están representados. Otros átomos están representados por los símbolos de sus elementos B, C, N, O, F, P, S, Cl, Bry I. El símbolo =representa dobles enlaces y #triples enlaces. La ramificación se indica con ( ). Los anillos se indican mediante pares de dígitos.

Algunos ejemplos son

XYZ

El formato de archivo XYZ es un formato simple que generalmente proporciona el número de átomos en la primera línea, un comentario en la segunda, seguido de varias líneas con símbolos atómicos (o números atómicos) y coordenadas cartesianas.

número MDL

El número MDL contiene un número de identificación único para cada reacción y variación. El formato es RXXXnnnnnnnn. R indica una reacción, XXX indica qué base de datos contiene el registro de reacción. La parte numérica, nnnnnnnn, es un número de 8 dígitos.

Otros formatos comunes

Uno de los estándares de la industria más utilizados son los formatos de archivos de tablas químicas , como los archivos de formato de datos de estructura (SDF). Son archivos de texto que siguen un formato estricto para representar múltiples registros de estructuras químicas y campos de datos asociados. El formato fue desarrollado y publicado originalmente por Molecular Design Limited (MDL). MOL es otro formato de archivo de MDL. Está documentado en el Capítulo 4 de CTfile Formats . [5]

PubChem también tiene formatos de archivo XML y ASN1, que son opciones de exportación desde la base de datos en línea de PubChem. Ambos están basados ​​en texto (ASN1 suele ser un formato binario).

Hay una gran cantidad de otros formatos enumerados en la siguiente tabla.

Conversión entre formatos

OpenBabel y JOELib son herramientas de código abierto disponibles gratuitamente diseñadas específicamente para convertir entre formatos de archivo. Sus sistemas expertos químicos admiten grandes tablas de conversión de tipos de átomos.

obabel -i input_format input_file -o output_format output_file

Por ejemplo, para convertir el archivo epinephrine.sdf en SDF a CML use el comando

obabel -i sdf epinephrine.sdf -o cml epinephrine.cml

El archivo resultante es epinephrine.cml.

IOData es una biblioteca Python gratuita y de código abierto para analizar, almacenar y convertir varios formatos de archivos comúnmente utilizados por programas de software de química cuántica, dinámica molecular y teoría funcional de la densidad de ondas planas. También admite un marco flexible para generar archivos de entrada para varios paquetes de software. Para obtener una lista completa de los formatos admitidos, visite https://iodata.readthedocs.io/en/latest/formats.html.

Varias herramientas destinadas a ver y editar estructuras moleculares pueden leer archivos en varios formatos y escribirlos en otros formatos. Las herramientas JChemPaint (basado en Chemistry Development Kit ), XDrawChem (basado en OpenBabel ), Chime , Jmol , Mol2mol [6] [ cita necesaria ] y Discovery Studio encajan en esta categoría.

El proyecto químico MIME

"Chemical MIME" es un enfoque de facto para agregar tipos MIME a flujos químicos.

Este proyecto comenzó en enero de 1994 y se anunció por primera vez durante el taller de Química en la Primera Conferencia Internacional WWW, celebrada en el CERN en mayo de 1994. ... La primera versión de un borrador de Internet se publicó entre mayo y octubre de 1994, y la segunda versión revisada entre abril y septiembre de 1995. Un documento presentado al CPEP (Comité de Publicaciones Impresas y Electrónicas) en la reunión de la IUPAC en agosto de 1996 está disponible para discusión. [7]

En 1998 el trabajo fue publicado formalmente en la JCIM . [8]

Apoyo

Para Linux/Unix, los archivos de configuración están disponibles como un paquete " chemical-mime-data " en formatos .deb , RPM y tar.gz para registrar tipos químicos MIME en un servidor web. [9] [10] Los programas pueden luego registrarse como visor, editor o procesador para estos formatos, de modo que esté disponible el soporte completo para los tipos MIME químicos.

Fuentes de datos químicos.

Aquí hay una breve lista de fuentes de datos moleculares disponibles gratuitamente. Hay muchos más recursos de los que se enumeran aquí en Internet. Los enlaces a estas fuentes se proporcionan en las referencias siguientes.

  1. La base de datos PubChem del Instituto Nacional de Salud de EE. UU . es una enorme fuente de datos químicos. Todos los datos están en dos dimensiones. Los datos incluyen formatos SDF, SMILES, PubChem XML y PubChem ASN1.
  2. El banco mundial de datos de proteínas (wwPDB) [11] es una excelente fuente de datos de coordenadas moleculares de proteínas y ácidos nucleicos. Los datos son tridimensionales y se proporcionan en formato Protein Data Bank (PDB).
  3. eMolecules es una base de datos comercial para datos moleculares. Los datos incluyen un diagrama de estructura bidimensional y una cadena de sonrisas para cada compuesto. eMolecules admite una búsqueda rápida de subestructuras basada en partes de la estructura molecular.
  4. ChemExper es una base de datos comercial para datos moleculares. Los resultados de la búsqueda incluyen un diagrama de estructura bidimensional y un archivo molar para muchos compuestos.
  5. Biblioteca de estructuras moleculares tridimensionales de la Universidad de Nueva York .
  6. La red de bases de datos de toxicidad de estructura distribuida (DSSTox) de la Agencia de Protección Ambiental de EE. UU . es un proyecto del Programa de Toxicología Computacional de la EPA. La base de datos proporciona archivos moleculares SDF centrados en sustancias cancerígenas y tóxicas.

Ver también

Referencias

  1. ^ Chen, VB; et al. (2009). "KING (Kinemage, Next Generation): un programa de visualización científica y molecular interactivo y versátil". Ciencia de las proteínas . 18 (11): 2403–2409. doi :10.1002/pro.250. PMC  2788294 . PMID  19768809.
  2. ^ Henrick, K.; et al. (2008). "Remediación del archivo del banco de datos de proteínas". Investigación de ácidos nucleicos . 36 (Problema de base de datos): D426–D433. doi : 10.1093/nar/gkm937. PMC 2238854 . PMID  18073189. 
  3. ^ Brooks, BM; et al. (1983). "CHARMM: Un programa para cálculos de dinámica, minimización y energía macromolecular". J. Computación. química . 4 (2): 187–217. doi :10.1002/jcc.540040211. S2CID  91559650.
  4. ^ Weininger, David (1988). "SMILES, un sistema de información y lenguaje químico: 1: Introducción a la metodología y reglas de codificación". Revista de información y modelado químico . 28 (1): 31–36. doi :10.1021/ci00057a005. S2CID  5445756.
  5. ^ Sistemas de información MDL 2005
  6. ^ Página de inicio de Mol2mol
  7. ^ La página de inicio de Chemical MIME (consultado el 24 de enero de 2013)
  8. ^ Rzepa, SA; Murray-Rust, P.; Whitaker, BJ (1998). "La aplicación de estándares de Internet de extensiones químicas de correo de Internet multipropósito (Chemical MIME) al correo electrónico y al intercambio de información en la World Wide Web". Revista de información y modelado químico . 38 (6): 976. doi : 10.1021/ci9803233.
  9. ^ "Resultados de la búsqueda de paquetes para" Chemical-mime "| Debian".
  10. ^ "¿Por qué utilizar SourceForge? Características y beneficios".
  11. ^ Berman, HM; et al. (2003). "Anuncio del banco de datos de proteínas mundial". Biología estructural de la naturaleza . 10 (12): 980. doi : 10.1038/nsb1203-980 . PMID  14634627.

enlaces externos