Formato de archivo para datos de proteínas
El formato de archivo del Protein Data Bank (PDB) es un formato de archivo de texto que describe las estructuras tridimensionales de las moléculas almacenadas en el Protein Data Bank , ahora reemplazado por el formato mmCIF . El formato PDB permite la descripción y anotación de las estructuras de proteínas y ácidos nucleicos, incluidas las coordenadas atómicas, las asignaciones de estructura secundaria y la conectividad atómica. Además, se almacenan metadatos experimentales. El formato PDB es el formato de archivo heredado del Protein Data Bank , que ha mantenido datos sobre macromoléculas biológicas en el nuevo formato de archivo PDBx/mmCIF desde 2014. [1]
Historia
El formato de archivo PDB se inventó en 1972 [2] [3] como un archivo legible por humanos que permitiría a los investigadores intercambiar las coordenadas atómicas de una proteína determinada a través de un sistema de base de datos. Su formato de ancho de columna fijo está limitado a 80 o 140 [4] columnas, que se basaban en el ancho de las tarjetas perforadas de computadora que se usaban anteriormente para intercambiar las coordenadas. [5] A lo largo de los años, el formato de archivo ha sufrido muchos cambios y revisiones. La actualización final del formato de archivo PDB fue en noviembre de 2012 con la versión 3.30. [6]
Ejemplo
Un archivo PDB típico que describe una proteína consta de cientos a miles de líneas como la siguiente (tomada de un archivo que describe la estructura de un péptido sintético similar al colágeno):
ENCABEZADO MATRIZ EXTRACELULAR 22-ENE-98 1A3ITÍTULO DETERMINACIÓN CRISTALOGRÁFICA POR RAYOS X DE UN COLÁGENO SIMILARTÍTULO 2 PÉPTIDO CON SECUENCIA REPETIDA (PRO-PRO-GLY)...DIFRACCIÓN DE RAYOS X EXPDTAAUTOR RZKRAMER,L.VITAGLIANO,J.BELLA,R.BERISIO,L.MAZZARELLA,AUTOR 2 B. BRODSKY, A. ZAGARI, HMBERMAN...OBSERVACIÓN 350 BIOMOLÉCULA: 1OBSERVACIÓN 350 APLICAR LO SIGUIENTE A LAS CADENAS: A, B, COBSERVACIÓN 350 BIOMT1 1 1.000000 0.000000 0.000000 0.00000OBSERVACIÓN 350 BIOMT2 1 0,000000 1,000000 0,000000 0,00000...SEQRES 1 A 9 PRO PRO GLY PRO PRO GLY PRO PRO GLYSEQRES 1 B 6 PRO PRO GLY PRO PRO GLYSEQRES 1 C 6 PRO PRO GLY PRO PRO GLY...ÁTOMO 1 N PRO A 1 8,316 21,206 21,530 1,00 17,44 NÁTOMO 2 CA PRO A 1 7,608 20,729 20,336 1,00 17,44 CÁTOMO 3 C PRO A 1 8,487 20,707 19,092 1,00 17,44 CÁTOMO 4 O PRO A 1 9,466 21,457 19,005 1,00 17,44 OÁTOMO 5 CB PRO A 1 6,460 21,723 20,211 1,00 22,26 C...HETATM 130 C ACY 401 3,682 22,541 11,236 1,00 21,19 CHETATM 131 O ACY 401 2,807 23,097 10,553 1,00 21,19 OHETATM 132 OXIDACI Ó 401 4,306 23,101 12,291 1,00 21,19 O...
- Registros de ENCABEZADO, TÍTULO y AUTOR
- proporcionar información sobre los investigadores que definieron la estructura; existen muchos otros tipos de registros disponibles para proporcionar otros tipos de información.
- Registros de OBSERVACIONES
- pueden contener anotaciones de forma libre, pero también admiten información estandarizada; por ejemplo, los
REMARK 350 BIOMT
registros describen cómo calcular las coordenadas del multímero observado experimentalmente a partir de las explícitamente especificadas de una única unidad repetitiva. - Registros SEQRES
- Proporcione las secuencias de las tres cadenas de péptidos (denominadas A, B y C), que son muy cortas en este ejemplo pero que normalmente abarcan varias líneas.
- Registros ATOM
- describe las coordenadas de los átomos que forman parte de la proteína. Por ejemplo, la primera línea ATOM anterior describe el átomo alfa-N del primer residuo de la cadena peptídica A, que es un residuo de prolina; los primeros tres números de punto flotante son sus coordenadas x, y y z y están en unidades de Ångströms . [7] Las siguientes tres columnas son la ocupación, el factor de temperatura y el nombre del elemento, respectivamente.
- Registros HETATM
- describir las coordenadas de los heteroátomos, es decir, aquellos átomos que no forman parte de la molécula de proteína.
Software de visualización molecular capaz de mostrar archivos PDB
Software de animación 3D capaz de mostrar archivos PDB
- Blender (con la extensión adecuada instalada)
- Houdini
- tres.js
Véase también
Referencias
- ^ Berman, Helen M.; Kleywegt, Gerard J.; Nakamura, Haruki; Markley, John L. (1 de octubre de 2014). "El archivo del Protein Data Bank como un recurso de datos abierto". Journal of Computer-Aided Molecular Design . 28 (10): 1009–1014. doi :10.1007/s10822-014-9770-y. ISSN 1573-4951. PMC 4196035 . PMID 25062767.
- ^ "wwPDB: Formato de archivo". www.wwpdb.org .
- ^ "FORMATO DE REGISTRO DE ARCHIVO DE BASE DE DATOS DE PROTEÍNAS" (PDF) . Consultado el 9 de junio de 2024 .
- ^ "FORMATO DE REGISTRO DE ARCHIVO DE BASE DE DATOS DE PROTEÍNAS" (PDF) . Consultado el 9 de junio de 2024 .
- ^ Berman, Helen M (2008). "El banco de datos de proteínas: una perspectiva histórica". Acta Crystallographica . 64 (Pt 1): 88–95. doi : 10.1107/S0108767307035623 . ISSN 2053-2733. PMID 18156675.
- ^ "wwPDB: Formatos de archivo y PDB". Banco de datos de proteínas . Consultado el 15 de enero de 2024 .
- ^ "Formato wwPDB versión 3.3: Sección de coordenadas". Archivado desde el original el 28 de febrero de 2012. Consultado el 23 de marzo de 2012 .
Enlaces externos
- Guía de formato PDB Esta es la versión actual (3.3) de la especificación de formato PDB.
- PDBML Un formato de archivo alternativo más reciente basado en XML para coordenadas moleculares.
- El banco de datos de proteínas del RCSB
- Banco de datos de proteínas en Europa
- Base de datos de modelado molecular (MMDB) del NCBI
- El proyecto de remediación de wwPDB de wwPDB
- MakeMultimer Una herramienta en línea para expandir registros BIOMT en archivos PDB
- Aplicación Molecules para iPad/iPhone que permite visualizar archivos PDB
- Biblioteca macromolecular de Python (mmLib): una biblioteca de Python capaz de leer y escribir formatos de archivos PDB