stringtranslate.com

Banco de datos de proteínas

El Protein Data Bank ( PDB ) [1] es una base de datos para los datos estructurales tridimensionales de grandes moléculas biológicas como proteínas y ácidos nucleicos , que es supervisada por el Worldwide Protein Data Bank (wwPDB). Estos datos estructurales son obtenidos y depositados por biólogos y bioquímicos de todo el mundo mediante el uso de metodologías experimentales como la cristalografía de rayos X , la espectroscopia de RMN y, cada vez más, la criomicroscopía electrónica . Todos los datos enviados son revisados ​​por biocuradores expertos y, una vez aprobados, se ponen a disposición de forma gratuita en Internet bajo la CC0 Public Domain Dedication. [2] El acceso global a los datos es proporcionado por los sitios web de las organizaciones miembros de wwPDB (PDBe, [3] PDBj, [4] RCSB PDB, [5] y BMRB [6] ).

El PDB es clave en áreas de biología estructural , como la genómica estructural . La mayoría de las principales revistas científicas y algunas agencias de financiación ahora requieren que los científicos envíen sus datos de estructura al PDB. Muchas otras bases de datos utilizan estructuras de proteínas depositadas en el PDB. Por ejemplo, SCOP y CATH clasifican las estructuras de proteínas, mientras que PDBsum proporciona una descripción gráfica de las entradas del PDB utilizando información de otras fuentes, como Gene Ontology . [7] [8]

Historia

Dos fuerzas convergieron para iniciar el PDB: una pequeña pero creciente colección de conjuntos de datos de estructura de proteínas determinados por difracción de rayos X; y la pantalla de gráficos moleculares recientemente disponible (1968), la Brookhaven RAster Display (BRAD), para visualizar estas estructuras de proteínas en 3-D. En 1969, con el patrocinio de Walter Hamilton en el Laboratorio Nacional de Brookhaven , Edgar Meyer ( Universidad Texas A&M ) comenzó a escribir software para almacenar archivos de coordenadas atómicas en un formato común para que estuvieran disponibles para la evaluación geométrica y gráfica. En 1971, uno de los programas de Meyer, SEARCH, permitió a los investigadores acceder de forma remota a la información de la base de datos para estudiar las estructuras de proteínas fuera de línea. [9] SEARCH fue fundamental para permitir la creación de redes, lo que marcó el comienzo funcional del PDB.

El Banco de Datos de Proteínas se anunció en octubre de 1971 en Nature New Biology [10] como una empresa conjunta entre el Centro de Datos Cristalográficos de Cambridge , Reino Unido y el Laboratorio Nacional de Brookhaven, EE. UU.

Tras la muerte de Hamilton en 1973, Tom Koetzle se hizo cargo de la dirección del PDB durante los siguientes 20 años. En enero de 1994, Joel Sussman, del Instituto de Ciencias Weizmann de Israel , fue nombrado director del PDB. En octubre de 1998, [11] el PDB fue transferido al Laboratorio de Investigación para Bioinformática Estructural (RCSB); [12] la transferencia se completó en junio de 1999. La nueva directora fue Helen M. Berman de la Universidad Rutgers (una de las instituciones gestoras del RCSB, la otra es el Centro de Supercomputación de San Diego en la UC San Diego ). [13] En 2003, con la formación del wwPDB, el PDB se convirtió en una organización internacional. Los miembros fundadores son PDBe (Europa), [3] RCSB (EE. UU.) y PDBj (Japón). [4] El BMRB [6] se incorporó en 2006. Cada uno de los cuatro miembros de wwPDB puede actuar como centro de depósito, procesamiento de datos y distribución de los datos de PDB. El procesamiento de datos se refiere al hecho de que el personal de wwPDB revisa y anota cada entrada enviada. [14] A continuación, se comprueba automáticamente la verosimilitud de los datos (el código fuente [15] de este software de validación se ha puesto a disposición del público sin cargo).

Contenido

Ejemplos de estructuras de proteínas del PDB (creado con UCSF Chimera)
Tasa de determinación de la estructura de proteínas por método y año. MX = cristalografía macromolecular, 3DEM = microscopía electrónica 3D . [16]

La base de datos del PDB se actualiza semanalmente ( UTC +0 miércoles), junto con su lista de existencias. [17] Al 10 de enero de 2023 , el PDB comprendía:

162.041 estructuras en el PDB tienen un archivo de factor de estructura .
11.242 estructuras cuentan con expediente de restricción NMR.
5.774 estructuras en el PDB tienen un archivo de desplazamientos químicos .
13.388 estructuras del PDB tienen un archivo de mapa 3DEM depositado en el Banco de Datos EM

La mayoría de las estructuras se determinan mediante difracción de rayos X, pero alrededor del 7% de las estructuras se determinan mediante RMN de proteínas . Cuando se utiliza difracción de rayos X, se obtienen aproximaciones de las coordenadas de los átomos de la proteína, mientras que mediante RMN, se estima la distancia entre pares de átomos de la proteína. La conformación final de la proteína se obtiene a partir de RMN resolviendo un problema de geometría de distancia . Después de 2013, un número cada vez mayor de proteínas se determinan mediante criomicroscopía electrónica .

En el caso de las estructuras PDB determinadas por difracción de rayos X que cuentan con un archivo de factor de estructura, se puede visualizar su mapa de densidad electrónica. Los datos de dichas estructuras se pueden consultar en los tres sitios web de PDB.

Históricamente, el número de estructuras en el PDB ha crecido a un ritmo aproximadamente exponencial, con 100 estructuras registradas en 1982, 1.000 estructuras en 1993, 10.000 en 1999, 100.000 en 2014 y 200.000 en enero de 2023. [18] [19]

Formato de archivo

El formato de archivo utilizado inicialmente por el PDB se denominó formato de archivo PDB. El formato original estaba limitado por el ancho de las tarjetas perforadas de las computadoras a 80 caracteres por línea. Alrededor de 1996, se introdujo gradualmente el formato de "archivo de información cristalográfica macromolecular", mmCIF, que es una extensión del formato CIF . mmCIF se convirtió en el formato estándar para el archivo PDB en 2014. [20] En 2019, el wwPDB anunció que las deposiciones para métodos cristalográficos solo se aceptarían en formato mmCIF. [21]

En 2005 se describió una versión XML de PDB, denominada PDBML. [22] Los archivos de estructura se pueden descargar en cualquiera de estos tres formatos, aunque cada vez hay más estructuras que no se adaptan al formato PDB heredado. Los archivos individuales se pueden descargar fácilmente en paquetes de gráficos desde las URL de Internet :

El " 4hhb" es el identificador de PDB. Cada estructura publicada en PDB recibe un identificador alfanumérico de cuatro caracteres, su ID de PDB. (Este no es un identificador único para biomoléculas, porque varias estructuras para la misma molécula, en diferentes entornos o conformaciones, pueden estar contenidas en PDB con diferentes ID de PDB).

Visualización de los datos

Los archivos de estructura se pueden visualizar utilizando uno de varios programas informáticos gratuitos y de código abierto , incluidos Jmol , Pymol , VMD , Molstar y Rasmol . Otros programas shareware que no son libres incluyen ICM-Browser, [23] MDL Chime , UCSF Chimera , Swiss-PDB Viewer, [24] StarBiochem [25] (un visualizador molecular interactivo basado en Java con búsqueda integrada en el banco de datos de proteínas), Sirius y VisProt3DS [26] (una herramienta para la visualización de proteínas en vista estereoscópica 3D en anaglifo y otros modos), y Discovery Studio . El sitio web RCSB PDB contiene una extensa lista de programas de visualización de moléculas gratuitos y comerciales y complementos de navegador web.

Véase también

Referencias

  1. ^ wwPDB, Consorcio (2019). "Protein Data Bank: el único archivo global para datos de estructura macromolecular 3D". Nucleic Acids Res . 47 (D1): 520–528. doi :10.1093/nar/gky949. PMC 6324056 . PMID  30357364. 
  2. ^ wwPDB.org. «wwPDB: Políticas de uso». www.wwpdb.org . Consultado el 16 de abril de 2024 .
  3. ^ ab "Página de inicio de PDBe < Nodo < EMBL-EBI". pdbe.org .
  4. ^ ab "Banco de datos de proteínas de Japón – PDB Japón – PDBj". pdbj.org .
  5. ^ Banco de datos de proteínas del RCSB. "RCSB PDB: página de inicio". rcsb.org .
  6. ^ ab "Banco de Resonancia Magnética Biológica". bmrb.wisc.edu .
  7. ^ Berman, HM (enero de 2008). "El banco de datos de proteínas: una perspectiva histórica" ​​(PDF) . Acta Crystallographica Sección A. A64 ( 1): 88–95. doi : 10.1107/S0108767307035623 . PMID  18156675.
  8. ^ Laskowski RA, Hutchinson EG, Michie AD, Wallace AC, Jones ML, Thornton JM (diciembre de 1997). "PDBsum: una base de datos basada en la Web de resúmenes y análisis de todas las estructuras de PDB". Trends Biochem. Sci . 22 (12): 488–90. doi :10.1016/S0968-0004(97)01140-7. PMID  9433130.
  9. ^ Meyer EF (1997). "Los primeros años del Protein Data Bank". Protein Science . 6 (7). Cambridge University Press: 1591–1597. doi :10.1002/pro.5560060724. PMC 2143743 . PMID  9232661. 
  10. ^ "Banco de datos de proteínas". Nature New Biology . 233 . 1971. doi : 10.1038/newbio233223b0 .
  11. ^ Berman HM, Westbrook J, Feng Z, Gilliland G, Bhat TN, Weissig H, Shindyalov IN, Bourne PE (enero de 2000). "El banco de datos de proteínas". Nucleic Acids Res . 28 (1): 235–242. doi :10.1093/nar/28.1.235. PMC 102472 . PMID  10592235. 
  12. ^ "Colaboratorio de investigación para bioinformática estructural". RCSB.org . Colaboratorio de investigación para bioinformática estructural. Archivado desde el original el 5 de febrero de 2007.
  13. ^ "Archivo de boletines informativos del PDB del RCSB". Banco de datos de proteínas del RCSB.
  14. ^ Curry E, Freitas A, O'Riáin S (2010). "El papel de la curación de datos impulsada por la comunidad para las empresas". En D. Wood (ed.). Vinculación de datos empresariales . Boston: Springer US. págs. 25–47. ISBN 978-1-441-97664-2.
  15. ^ "Conjunto de validación PDB". sw-tools.pdb.org .
  16. ^ Burley SK, Berman HM, Bhikadiya C, Bi C, Chen L, Costanzo LD, et al. (consorcio wwPDB) (enero de 2019). "Banco de datos de proteínas: el único archivo global para datos de estructura macromolecular en 3D". Investigación de ácidos nucleicos . 47 (D1): D520–D528. doi :10.1093/nar/gky949. PMC 6324056 . PMID  30357364. 
  17. ^ "Desglose de las tenencias actuales del PDB". RCSB. Archivado desde el original el 4 de julio de 2007. Consultado el 2 de julio de 2007 .
  18. ^ Anónimo (2014). "Datos duros: no ha sido una tarea fácil para el Protein Data Bank seguir siendo relevante para 100.000 estructuras". Nature . 509 (7500): 260. doi : 10.1038/509260a . PMID  24834514.
  19. ^ Banco de datos de proteínas. «PDB Statistics: crecimiento general de estructuras liberadas por año». www.rcsb.org . Consultado el 12 de enero de 2023 .
  20. ^ "wwPDB: Formatos de archivo y PDB". wwpdb.org . Consultado el 1 de abril de 2020 .
  21. ^ wwPDB.org. "wwPDB: Noticias 2019". wwpdb.org .
  22. ^ Westbrook J, Ito N, Nakamura H, Henrick K, Berman HM (abril de 2005). "PDBML: la representación de datos de estructura macromolecular de archivo en XML". Bioinformática . 21 (7): 988–992. doi : 10.1093/bioinformatics/bti082 . PMID  15509603.
  23. ^ "ICM-Browser". Molsoft LLC . Consultado el 6 de abril de 2013 .
  24. ^ "Visualizador PDB suizo". Instituto Suizo de Bioinformática . Consultado el 6 de abril de 2013 .
  25. ^ "STAR: Bioquímica - Inicio". web.mit.edu .
  26. ^ "VisProt3DS". Molecular Systems Ltd. Consultado el 6 de abril de 2013 .

Enlaces externos