El archivo de tabla química (archivo CT) es una familia de formatos de archivos químicos basados en texto que describen moléculas y reacciones químicas. Un formato, por ejemplo, enumera cada átomo de una molécula, las coordenadas xyz de ese átomo y los enlaces entre los átomos.
Hay varios formatos de archivos en la familia.
Los formatos fueron creados por MDL Information Systems (MDL), que fue adquirida por Symyx Technologies y luego fusionada con Accelrys Corp., y ahora llamada BIOVIA, una subsidiaria de Dassault Systemes de Dassault Group . [1]
El archivo CT es un formato abierto . BIOVIA publica sus especificaciones. [2] BIOVIA requiere que los usuarios se registren para descargar las especificaciones del formato de archivo CT. [3]
Un archivo MDL Molfile es un formato de archivo para almacenar información sobre los átomos, enlaces, conectividad y coordenadas de una molécula.
El archivo mol consta de cierta información de encabezado, la tabla de conexiones (CT) que contiene información de los átomos, luego las conexiones y tipos de enlaces, seguido de secciones para información más compleja.
El archivo mol es lo suficientemente común como para que la mayoría de los sistemas y aplicaciones de software de quimioinformática ( si no todos ) puedan leer el formato, aunque no siempre en el mismo grado. También lo admiten algunos programas informáticos como Mathematica .
La versión estándar de facto actual es molfile V2000, aunque, más recientemente, el formato V3000 ha estado circulando lo suficientemente ampliamente como para presentar un posible problema de compatibilidad para aquellas aplicaciones que aún no son compatibles con V3000.
El bloque de enlace está formado por líneas de enlace, una línea por enlace, con el siguiente formato:
111 222 ttt sss xxx rrr ccc
donde los valores se describen en la siguiente tabla:
El archivo mol extendido (V3000) consta de un archivo mol regular “sin estructura” seguido de un único apéndice de archivo mol que contiene el cuerpo de la tabla de conexión (Ctab). La siguiente figura muestra tanto una estructura de alanina como el archivo mol extendido correspondiente.
Tenga en cuenta que la "sin estructura" está marcada con el sello de versión "V3000" en lugar de "V2000". Hay otros dos cambios en el encabezado además de la versión:
A diferencia del archivo mol V2000, el archivo mol Rgroup extendido V3000 tiene el mismo formato de encabezado que un archivo mol que no es Rgroup.
Se requiere una línea de conteos, que debe ser la primera. Especifica la cantidad de átomos, enlaces, objetos 3D y grupos S. También especifica si el indicador CHIRAL está configurado o no. Opcionalmente, la línea de conteos puede especificar molregno. Esto solo se usa cuando el regno supera 999999 (el límite del formato en la línea de encabezado del archivo mol). El formato de la línea de conteos es:
SDF es uno de los formatos de archivo de datos químicos desarrollados por MDL; está pensado especialmente para información estructural. "SDF" significa formato de datos estructurales y los archivos SDF en realidad encapsulan el formato molfile (MDL Molfile). Los registros múltiples están delimitados por líneas que constan de cuatro signos de dólar ($$$$). Una característica clave de este formato es su capacidad para incluir datos asociados.
Los elementos de datos asociados se indican de la siguiente manera:
> < Identificación_única > XCA3464366 > < ClogP > 5.825 > < Proveedor > Sigma> < Peso molecular > 499,611
También se admiten elementos de datos de varias líneas. La especificación del formato SDF de MDL requiere que se inserte un carácter de retorno de carro si una sola línea de cualquier campo de texto supera los 200 caracteres. Este requisito se viola con frecuencia en la práctica, ya que muchas cadenas SMILES e InChI superan esa longitud.
Existen otros formatos de familia menos utilizados: