El Protein Data Bank ( PDB ) [1] es una base de datos para los datos estructurales tridimensionales de grandes moléculas biológicas como proteínas y ácidos nucleicos , que es supervisada por el Worldwide Protein Data Bank (wwPDB). Estos datos estructurales son obtenidos y depositados por biólogos y bioquímicos de todo el mundo mediante el uso de metodologías experimentales como la cristalografía de rayos X , la espectroscopia de RMN y, cada vez más, la criomicroscopía electrónica . Todos los datos enviados son revisados por biocuradores expertos y, una vez aprobados, se ponen a disposición de forma gratuita en Internet bajo la CC0 Public Domain Dedication. [2] El acceso global a los datos es proporcionado por los sitios web de las organizaciones miembros de wwPDB (PDBe, [3] PDBj, [4] RCSB PDB, [5] y BMRB [6] ).
El PDB es clave en áreas de biología estructural , como la genómica estructural . La mayoría de las principales revistas científicas y algunas agencias de financiación ahora requieren que los científicos envíen sus datos de estructura al PDB. Muchas otras bases de datos utilizan estructuras de proteínas depositadas en el PDB. Por ejemplo, SCOP y CATH clasifican las estructuras de proteínas, mientras que PDBsum proporciona una descripción gráfica de las entradas del PDB utilizando información de otras fuentes, como Gene Ontology . [7] [8]
Dos fuerzas convergieron para iniciar el PDB: una pequeña pero creciente colección de conjuntos de datos de estructura de proteínas determinados por difracción de rayos X; y la pantalla de gráficos moleculares recientemente disponible (1968), la Brookhaven RAster Display (BRAD), para visualizar estas estructuras de proteínas en 3-D. En 1969, con el patrocinio de Walter Hamilton en el Laboratorio Nacional de Brookhaven , Edgar Meyer ( Universidad Texas A&M ) comenzó a escribir software para almacenar archivos de coordenadas atómicas en un formato común para que estuvieran disponibles para la evaluación geométrica y gráfica. En 1971, uno de los programas de Meyer, SEARCH, permitió a los investigadores acceder de forma remota a la información de la base de datos para estudiar las estructuras de proteínas fuera de línea. [9] SEARCH fue fundamental para permitir la creación de redes, lo que marcó el comienzo funcional del PDB.
El Banco de Datos de Proteínas se anunció en octubre de 1971 en Nature New Biology [10] como una empresa conjunta entre el Centro de Datos Cristalográficos de Cambridge , Reino Unido y el Laboratorio Nacional de Brookhaven, EE. UU.
Tras la muerte de Hamilton en 1973, Tom Koetzle se hizo cargo de la dirección del PDB durante los siguientes 20 años. En enero de 1994, Joel Sussman, del Instituto de Ciencias Weizmann de Israel , fue nombrado director del PDB. En octubre de 1998, [11] el PDB fue transferido al Laboratorio de Investigación para Bioinformática Estructural (RCSB); [12] la transferencia se completó en junio de 1999. La nueva directora fue Helen M. Berman de la Universidad Rutgers (una de las instituciones gestoras del RCSB, la otra es el Centro de Supercomputación de San Diego en la UC San Diego ). [13] En 2003, con la formación del wwPDB, el PDB se convirtió en una organización internacional. Los miembros fundadores son PDBe (Europa), [3] RCSB (EE. UU.) y PDBj (Japón). [4] El BMRB [6] se incorporó en 2006. Cada uno de los cuatro miembros de wwPDB puede actuar como centro de depósito, procesamiento de datos y distribución de los datos de PDB. El procesamiento de datos se refiere al hecho de que el personal de wwPDB revisa y anota cada entrada enviada. [14] A continuación, se comprueba automáticamente la verosimilitud de los datos (el código fuente [15] de este software de validación se ha puesto a disposición del público sin cargo).
La base de datos del PDB se actualiza semanalmente ( UTC +0 miércoles), junto con su lista de existencias. [17] Al 10 de enero de 2023 [actualizar], el PDB comprendía:
La mayoría de las estructuras se determinan mediante difracción de rayos X, pero alrededor del 7% de las estructuras se determinan mediante RMN de proteínas . Cuando se utiliza difracción de rayos X, se obtienen aproximaciones de las coordenadas de los átomos de la proteína, mientras que mediante RMN, se estima la distancia entre pares de átomos de la proteína. La conformación final de la proteína se obtiene a partir de RMN resolviendo un problema de geometría de distancia . Después de 2013, un número cada vez mayor de proteínas se determinan mediante criomicroscopía electrónica .
En el caso de las estructuras PDB determinadas por difracción de rayos X que cuentan con un archivo de factor de estructura, se puede visualizar su mapa de densidad electrónica. Los datos de dichas estructuras se pueden consultar en los tres sitios web de PDB.
Históricamente, el número de estructuras en el PDB ha crecido a un ritmo aproximadamente exponencial, con 100 estructuras registradas en 1982, 1.000 estructuras en 1993, 10.000 en 1999, 100.000 en 2014 y 200.000 en enero de 2023. [18] [19]
El formato de archivo utilizado inicialmente por el PDB se denominó formato de archivo PDB. El formato original estaba limitado por el ancho de las tarjetas perforadas de las computadoras a 80 caracteres por línea. Alrededor de 1996, se introdujo gradualmente el formato de "archivo de información cristalográfica macromolecular", mmCIF, que es una extensión del formato CIF . mmCIF se convirtió en el formato estándar para el archivo PDB en 2014. [20] En 2019, el wwPDB anunció que las deposiciones para métodos cristalográficos solo se aceptarían en formato mmCIF. [21]
En 2005 se describió una versión XML de PDB, denominada PDBML. [22] Los archivos de estructura se pueden descargar en cualquiera de estos tres formatos, aunque cada vez hay más estructuras que no se adaptan al formato PDB heredado. Los archivos individuales se pueden descargar fácilmente en paquetes de gráficos desde las URL de Internet :
http://www.pdb.org/pdb/files/4hhb.pdb.gz
ohttp://pdbe.org/download/4hhb
http://www.pdb.org/pdb/files/4hhb.xml.gz
ohttp://pdbe.org/pdbml/4hhb
El " 4hhb
" es el identificador de PDB. Cada estructura publicada en PDB recibe un identificador alfanumérico de cuatro caracteres, su ID de PDB. (Este no es un identificador único para biomoléculas, porque varias estructuras para la misma molécula, en diferentes entornos o conformaciones, pueden estar contenidas en PDB con diferentes ID de PDB).
Los archivos de estructura se pueden visualizar utilizando uno de varios programas informáticos gratuitos y de código abierto , incluidos Jmol , Pymol , VMD , Molstar y Rasmol . Otros programas shareware que no son libres incluyen ICM-Browser, [23] MDL Chime , UCSF Chimera , Swiss-PDB Viewer, [24] StarBiochem [25] (un visualizador molecular interactivo basado en Java con búsqueda integrada en el banco de datos de proteínas), Sirius y VisProt3DS [26] (una herramienta para la visualización de proteínas en vista estereoscópica 3D en anaglifo y otros modos), y Discovery Studio . El sitio web RCSB PDB contiene una extensa lista de programas de visualización de moléculas gratuitos y comerciales y complementos de navegador web.