Banco de datos de proteínas

El Protein Data Bank ( PDB ) ^[1] es una base de datos para los datos estructurales tridimensionales de grandes moléculas biológicas como proteínas y ácidos nucleicos , que es supervisada por el Worldwide Protein Data Bank (wwPDB). Estos datos estructurales son obtenidos y depositados por biólogos y bioquímicos de todo el mundo mediante el uso de metodologías experimentales como la cristalografía de rayos X , la espectroscopia de RMN y, cada vez más, la criomicroscopía electrónica . Todos los datos enviados son revisados por biocuradores expertos y, una vez aprobados, se ponen a disposición de forma gratuita en Internet bajo la CC0 Public Domain Dedication. ^[2] El acceso global a los datos es proporcionado por los sitios web de las organizaciones miembros de wwPDB (PDBe, ^[3] PDBj, ^[4] RCSB PDB, ^[5] y BMRB ^[6] ).

El PDB es clave en áreas de biología estructural , como la genómica estructural . La mayoría de las principales revistas científicas y algunas agencias de financiación ahora requieren que los científicos envíen sus datos de estructura al PDB. Muchas otras bases de datos utilizan estructuras de proteínas depositadas en el PDB. Por ejemplo, SCOP y CATH clasifican las estructuras de proteínas, mientras que PDBsum proporciona una descripción gráfica de las entradas del PDB utilizando información de otras fuentes, como Gene Ontology . ^[7]^[8]

Historia

Dos fuerzas convergieron para iniciar el PDB: una pequeña pero creciente colección de conjuntos de datos de estructura de proteínas determinados por difracción de rayos X; y la pantalla de gráficos moleculares recientemente disponible (1968), la Brookhaven RAster Display (BRAD), para visualizar estas estructuras de proteínas en 3-D. En 1969, con el patrocinio de Walter Hamilton en el Laboratorio Nacional de Brookhaven , Edgar Meyer ( Universidad Texas A&M ) comenzó a escribir software para almacenar archivos de coordenadas atómicas en un formato común para que estuvieran disponibles para la evaluación geométrica y gráfica. En 1971, uno de los programas de Meyer, SEARCH, permitió a los investigadores acceder de forma remota a la información de la base de datos para estudiar las estructuras de proteínas fuera de línea. ^[9] SEARCH fue fundamental para permitir la creación de redes, lo que marcó el comienzo funcional del PDB.

El Banco de Datos de Proteínas se anunció en octubre de 1971 en Nature New Biology ^[10] como una empresa conjunta entre el Centro de Datos Cristalográficos de Cambridge , Reino Unido y el Laboratorio Nacional de Brookhaven, EE. UU.

Tras la muerte de Hamilton en 1973, Tom Koetzle se hizo cargo de la dirección del PDB durante los siguientes 20 años. En enero de 1994, Joel Sussman, del Instituto de Ciencias Weizmann de Israel , fue nombrado director del PDB. En octubre de 1998, ^[11] el PDB fue transferido al Laboratorio de Investigación para Bioinformática Estructural (RCSB); ^[12] la transferencia se completó en junio de 1999. La nueva directora fue Helen M. Berman de la Universidad Rutgers (una de las instituciones gestoras del RCSB, la otra es el Centro de Supercomputación de San Diego en la UC San Diego ). ^[13] En 2003, con la formación del wwPDB, el PDB se convirtió en una organización internacional. Los miembros fundadores son PDBe (Europa), ^[3] RCSB (EE. UU.) y PDBj (Japón). ^[4] El BMRB ^[6] se incorporó en 2006. Cada uno de los cuatro miembros de wwPDB puede actuar como centro de depósito, procesamiento de datos y distribución de los datos de PDB. El procesamiento de datos se refiere al hecho de que el personal de wwPDB revisa y anota cada entrada enviada. ^[14] A continuación, se comprueba automáticamente la verosimilitud de los datos (el código fuente ^[15] de este software de validación se ha puesto a disposición del público sin cargo).

Contenido

La base de datos del PDB se actualiza semanalmente ( UTC +0 miércoles), junto con su lista de existencias. ^[17] Al 10 de enero de 2023 ^[actualizar], el PDB comprendía:

162.041 estructuras en el PDB tienen un archivo de factor de estructura .

11.242 estructuras cuentan con expediente de restricción NMR.

5.774 estructuras en el PDB tienen un archivo de desplazamientos químicos .

13.388 estructuras del PDB tienen un archivo de mapa 3DEM depositado en el Banco de Datos EM

La mayoría de las estructuras se determinan mediante difracción de rayos X, pero alrededor del 7% de las estructuras se determinan mediante RMN de proteínas . Cuando se utiliza difracción de rayos X, se obtienen aproximaciones de las coordenadas de los átomos de la proteína, mientras que mediante RMN, se estima la distancia entre pares de átomos de la proteína. La conformación final de la proteína se obtiene a partir de RMN resolviendo un problema de geometría de distancia . Después de 2013, un número cada vez mayor de proteínas se determinan mediante criomicroscopía electrónica .

En el caso de las estructuras PDB determinadas por difracción de rayos X que cuentan con un archivo de factor de estructura, se puede visualizar su mapa de densidad electrónica. Los datos de dichas estructuras se pueden consultar en los tres sitios web de PDB.

Históricamente, el número de estructuras en el PDB ha crecido a un ritmo aproximadamente exponencial, con 100 estructuras registradas en 1982, 1.000 estructuras en 1993, 10.000 en 1999, 100.000 en 2014 y 200.000 en enero de 2023. ^[18]^[19]

Formato de archivo

El formato de archivo utilizado inicialmente por el PDB se denominó formato de archivo PDB. El formato original estaba limitado por el ancho de las tarjetas perforadas de las computadoras a 80 caracteres por línea. Alrededor de 1996, se introdujo gradualmente el formato de "archivo de información cristalográfica macromolecular", mmCIF, que es una extensión del formato CIF . mmCIF se convirtió en el formato estándar para el archivo PDB en 2014. ^[20] En 2019, el wwPDB anunció que las deposiciones para métodos cristalográficos solo se aceptarían en formato mmCIF. ^[21]

En 2005 se describió una versión XML de PDB, denominada PDBML. ^[22] Los archivos de estructura se pueden descargar en cualquiera de estos tres formatos, aunque cada vez hay más estructuras que no se adaptan al formato PDB heredado. Los archivos individuales se pueden descargar fácilmente en paquetes de gráficos desde las URL de Internet :

Para archivos en formato PDB, utilice, por ejemplo, http://www.pdb.org/pdb/files/4hhb.pdb.gzohttp://pdbe.org/download/4hhb
Para archivos PDBML (XML), utilice, por ejemplo, http://www.pdb.org/pdb/files/4hhb.xml.gzohttp://pdbe.org/pdbml/4hhb

El " 4hhb" es el identificador de PDB. Cada estructura publicada en PDB recibe un identificador alfanumérico de cuatro caracteres, su ID de PDB. (Este no es un identificador único para biomoléculas, porque varias estructuras para la misma molécula, en diferentes entornos o conformaciones, pueden estar contenidas en PDB con diferentes ID de PDB).

Visualización de los datos

Los archivos de estructura se pueden visualizar utilizando uno de varios programas informáticos gratuitos y de código abierto , incluidos Jmol , Pymol , VMD , Molstar y Rasmol . Otros programas shareware que no son libres incluyen ICM-Browser, ^[23] MDL Chime , UCSF Chimera , Swiss-PDB Viewer, ^[24] StarBiochem ^[25] (un visualizador molecular interactivo basado en Java con búsqueda integrada en el banco de datos de proteínas), Sirius y VisProt3DS ^[26] (una herramienta para la visualización de proteínas en vista estereoscópica 3D en anaglifo y otros modos), y Discovery Studio . El sitio web RCSB PDB contiene una extensa lista de programas de visualización de moléculas gratuitos y comerciales y complementos de navegador web.

Véase también

Base de datos cristalográfica
Estructura de la proteína
Predicción de la estructura de las proteínas
Base de datos de estructura de proteínas
PDBREPORT enumera todas las anomalías (también errores) en las estructuras PDB
PDBsum : extrae datos de otras bases de datos sobre estructuras PDB
Proteopedia : una enciclopedia colaborativa en 3D de proteínas y otras moléculas

Referencias

^ wwPDB, Consorcio (2019). "Protein Data Bank: el único archivo global para datos de estructura macromolecular 3D". Nucleic Acids Res . 47 (D1): 520–528. doi :10.1093/nar/gky949. PMC 6324056 . PMID 30357364.
^ wwPDB.org. «wwPDB: Políticas de uso». www.wwpdb.org . Consultado el 16 de abril de 2024 .
^ ab "Página de inicio de PDBe < Nodo < EMBL-EBI". pdbe.org .
^ ab "Banco de datos de proteínas de Japón – PDB Japón – PDBj". pdbj.org .
^ Banco de datos de proteínas del RCSB. "RCSB PDB: página de inicio". rcsb.org .
^ ab "Banco de Resonancia Magnética Biológica". bmrb.wisc.edu .
^ Berman, HM (enero de 2008). "El banco de datos de proteínas: una perspectiva histórica" (PDF) . Acta Crystallographica Sección A. A64 ( 1): 88–95. doi : 10.1107/S0108767307035623 . PMID 18156675.
^ Laskowski RA, Hutchinson EG, Michie AD, Wallace AC, Jones ML, Thornton JM (diciembre de 1997). "PDBsum: una base de datos basada en la Web de resúmenes y análisis de todas las estructuras de PDB". Trends Biochem. Sci . 22 (12): 488–90. doi :10.1016/S0968-0004(97)01140-7. PMID 9433130.
^ Meyer EF (1997). "Los primeros años del Protein Data Bank". Protein Science . 6 (7). Cambridge University Press: 1591–1597. doi :10.1002/pro.5560060724. PMC 2143743 . PMID 9232661.
^ "Banco de datos de proteínas". Nature New Biology . 233 . 1971. doi : 10.1038/newbio233223b0 .
^ Berman HM, Westbrook J, Feng Z, Gilliland G, Bhat TN, Weissig H, Shindyalov IN, Bourne PE (enero de 2000). "El banco de datos de proteínas". Nucleic Acids Res . 28 (1): 235–242. doi :10.1093/nar/28.1.235. PMC 102472 . PMID 10592235.
^ "Colaboratorio de investigación para bioinformática estructural". RCSB.org . Colaboratorio de investigación para bioinformática estructural. Archivado desde el original el 5 de febrero de 2007.
^ "Archivo de boletines informativos del PDB del RCSB". Banco de datos de proteínas del RCSB.
^ Curry E, Freitas A, O'Riáin S (2010). "El papel de la curación de datos impulsada por la comunidad para las empresas". En D. Wood (ed.). Vinculación de datos empresariales . Boston: Springer US. págs. 25–47. ISBN 978-1-441-97664-2.
^ "Conjunto de validación PDB". sw-tools.pdb.org .
^ Burley SK, Berman HM, Bhikadiya C, Bi C, Chen L, Costanzo LD, et al. (consorcio wwPDB) (enero de 2019). "Banco de datos de proteínas: el único archivo global para datos de estructura macromolecular en 3D". Investigación de ácidos nucleicos . 47 (D1): D520–D528. doi :10.1093/nar/gky949. PMC 6324056 . PMID 30357364.
^ "Desglose de las tenencias actuales del PDB". RCSB. Archivado desde el original el 4 de julio de 2007. Consultado el 2 de julio de 2007 .
^ Anónimo (2014). "Datos duros: no ha sido una tarea fácil para el Protein Data Bank seguir siendo relevante para 100.000 estructuras". Nature . 509 (7500): 260. doi : 10.1038/509260a . PMID 24834514.
^ Banco de datos de proteínas. «PDB Statistics: crecimiento general de estructuras liberadas por año». www.rcsb.org . Consultado el 12 de enero de 2023 .
^ "wwPDB: Formatos de archivo y PDB". wwpdb.org . Consultado el 1 de abril de 2020 .
^ wwPDB.org. "wwPDB: Noticias 2019". wwpdb.org .
^ Westbrook J, Ito N, Nakamura H, Henrick K, Berman HM (abril de 2005). "PDBML: la representación de datos de estructura macromolecular de archivo en XML". Bioinformática . 21 (7): 988–992. doi : 10.1093/bioinformatics/bti082 . PMID 15509603.
^ "ICM-Browser". Molsoft LLC . Consultado el 6 de abril de 2013 .
^ "Visualizador PDB suizo". Instituto Suizo de Bioinformática . Consultado el 6 de abril de 2013 .
^ "STAR: Bioquímica - Inicio". web.mit.edu .
^ "VisProt3DS". Molecular Systems Ltd. Consultado el 6 de abril de 2013 .

Enlaces externos

Wikidata tiene la propiedad:

Identificador de estructura PDB (P638) (ver usos )

Banco Mundial de Datos de Proteínas (wwPDB): sitio principal de los hosts regionales (abajo)
- Banco de datos de proteínas del RCSB (EE. UU.)
- PDBe (Europa)
- PDBj (Japón)
- BMRB, Banco de datos de resonancia magnética biológica (EE.UU.)
Documentación de wwPDB: documentación sobre los formatos de archivo PDB y PDBML
Observando estructuras Archivado el 24 de marzo de 2011 en Wayback Machine —Introducción a la cristalografía por parte del RCSB
Página de inicio de PDBsum: extrae datos de otras bases de datos sobre estructuras PDB.
Base de datos de ácidos nucleicos, NDB: un espejo PDB especialmente para buscar ácidos nucleicos
Tutorial introductorio de PDB patrocinado por PDB
PDBe: Visita rápida a EBI Train OnLine