stringtranslate.com

Banco de datos de proteínas (formato de archivo)

El formato de archivo del Protein Data Bank (PDB) es un formato de archivo de texto que describe las estructuras tridimensionales de las moléculas almacenadas en el Protein Data Bank , ahora reemplazado por el formato mmCIF . El formato PDB permite la descripción y anotación de las estructuras de proteínas y ácidos nucleicos, incluidas las coordenadas atómicas, las asignaciones de estructura secundaria y la conectividad atómica. Además, se almacenan metadatos experimentales. El formato PDB es el formato de archivo heredado del Protein Data Bank , que ha mantenido datos sobre macromoléculas biológicas en el nuevo formato de archivo PDBx/mmCIF desde 2014. [1]

Historia

El formato de archivo PDB se inventó en 1972 [2] [3] como un archivo legible por humanos que permitiría a los investigadores intercambiar las coordenadas atómicas de una proteína determinada a través de un sistema de base de datos. Su formato de ancho de columna fijo está limitado a 80 o 140 [4] columnas, que se basaban en el ancho de las tarjetas perforadas de computadora que se usaban anteriormente para intercambiar las coordenadas. [5] A lo largo de los años, el formato de archivo ha sufrido muchos cambios y revisiones. La actualización final del formato de archivo PDB fue en noviembre de 2012 con la versión 3.30. [6]

Ejemplo

Un archivo PDB típico que describe una proteína consta de cientos a miles de líneas como la siguiente (tomada de un archivo que describe la estructura de un péptido sintético similar al colágeno):

ENCABEZADO MATRIZ EXTRACELULAR 22-ENE-98 1A3ITÍTULO DETERMINACIÓN CRISTALOGRÁFICA POR RAYOS X DE UN COLÁGENO SIMILARTÍTULO 2 PÉPTIDO CON SECUENCIA REPETIDA (PRO-PRO-GLY)...DIFRACCIÓN DE RAYOS X EXPDTAAUTOR RZKRAMER,L.VITAGLIANO,J.BELLA,R.BERISIO,L.MAZZARELLA,AUTOR 2 B. BRODSKY, A. ZAGARI, HMBERMAN...OBSERVACIÓN 350 BIOMOLÉCULA: 1OBSERVACIÓN 350 APLICAR LO SIGUIENTE A LAS CADENAS: A, B, COBSERVACIÓN 350 BIOMT1 1 1.000000 0.000000 0.000000 0.00000OBSERVACIÓN 350 BIOMT2 1 0,000000 1,000000 0,000000 0,00000...SEQRES 1 A 9 PRO PRO GLY PRO PRO GLY PRO PRO GLYSEQRES 1 B 6 PRO PRO GLY PRO PRO GLYSEQRES 1 C 6 PRO PRO GLY PRO PRO GLY...ÁTOMO 1 N PRO A 1 8,316 21,206 21,530 1,00 17,44 NÁTOMO 2 CA PRO A 1 7,608 20,729 20,336 1,00 17,44 CÁTOMO 3 C PRO A 1 8,487 20,707 19,092 1,00 17,44 CÁTOMO 4 O PRO A 1 9,466 21,457 19,005 1,00 17,44 OÁTOMO 5 CB PRO A 1 6,460 21,723 20,211 1,00 22,26 C...HETATM 130 C ACY 401 3,682 22,541 11,236 1,00 21,19 CHETATM 131 O ACY 401 2,807 23,097 10,553 1,00 21,19 OHETATM 132 OXIDACI Ó 401 4,306 23,101 12,291 1,00 21,19 O...
Registros de ENCABEZADO, TÍTULO y AUTOR
proporcionar información sobre los investigadores que definieron la estructura; existen muchos otros tipos de registros disponibles para proporcionar otros tipos de información.
Registros de OBSERVACIONES
pueden contener anotaciones de forma libre, pero también admiten información estandarizada; por ejemplo, los REMARK 350 BIOMTregistros describen cómo calcular las coordenadas del multímero observado experimentalmente a partir de las explícitamente especificadas de una única unidad repetitiva.
Registros SEQRES
Proporcione las secuencias de las tres cadenas de péptidos (denominadas A, B y C), que son muy cortas en este ejemplo pero que normalmente abarcan varias líneas.
Registros ATOM
describe las coordenadas de los átomos que forman parte de la proteína. Por ejemplo, la primera línea ATOM anterior describe el átomo alfa-N del primer residuo de la cadena peptídica A, que es un residuo de prolina; los primeros tres números de punto flotante son sus coordenadas x, y y z y están en unidades de Ångströms . [7] Las siguientes tres columnas son la ocupación, el factor de temperatura y el nombre del elemento, respectivamente.
Registros HETATM
describir las coordenadas de los heteroátomos, es decir, aquellos átomos que no forman parte de la molécula de proteína.

Software de visualización molecular capaz de mostrar archivos PDB

Software de animación 3D capaz de mostrar archivos PDB

Véase también

Referencias

  1. ^ Berman, Helen M.; Kleywegt, Gerard J.; Nakamura, Haruki; Markley, John L. (1 de octubre de 2014). "El archivo del Protein Data Bank como un recurso de datos abierto". Journal of Computer-Aided Molecular Design . 28 (10): 1009–1014. doi :10.1007/s10822-014-9770-y. ISSN  1573-4951. PMC  4196035 . PMID  25062767.
  2. ^ "wwPDB: Formato de archivo". www.wwpdb.org .
  3. ^ "FORMATO DE REGISTRO DE ARCHIVO DE BASE DE DATOS DE PROTEÍNAS" (PDF) . Consultado el 9 de junio de 2024 .
  4. ^ "FORMATO DE REGISTRO DE ARCHIVO DE BASE DE DATOS DE PROTEÍNAS" (PDF) . Consultado el 9 de junio de 2024 .
  5. ^ Berman, Helen M (2008). "El banco de datos de proteínas: una perspectiva histórica". Acta Crystallographica . 64 (Pt 1): 88–95. doi : 10.1107/S0108767307035623 . ISSN  2053-2733. PMID  18156675.
  6. ^ "wwPDB: Formatos de archivo y PDB". Banco de datos de proteínas . Consultado el 15 de enero de 2024 .
  7. ^ "Formato wwPDB versión 3.3: Sección de coordenadas". Archivado desde el original el 28 de febrero de 2012. Consultado el 23 de marzo de 2012 .

Enlaces externos