stringtranslate.com

UniProt

UniProt es una base de datos de libre acceso sobre secuencias de proteínas e información funcional, muchas de las entradas se derivan de proyectos de secuenciación del genoma . Contiene una gran cantidad de información sobre la función biológica de las proteínas derivada de la literatura de investigación. Lo mantiene el consorcio UniProt, que está formado por varias organizaciones bioinformáticas europeas y una fundación de Washington, DC , Estados Unidos.

El consorcio UniProt

El consorcio UniProt está formado por el Instituto Europeo de Bioinformática (EBI), el Instituto Suizo de Bioinformática (SIB) y el Protein Information Resource (PIR). EBI, ubicado en el Wellcome Trust Genome Campus en Hinxton, Reino Unido, alberga un gran recurso de bases de datos y servicios bioinformáticos. SIB, ubicada en Ginebra, Suiza, mantiene los servidores ExPASy (Expert Protein Analysis System) que son un recurso central para herramientas y bases de datos de proteómica. PIR, organizado por la Fundación Nacional de Investigación Biomédica (NBRF) en el Centro Médico de la Universidad de Georgetown en Washington, DC, EE. UU., es heredero de la base de datos de secuencias de proteínas más antigua, el Atlas de secuencia y estructura de proteínas de Margaret Dayhoff , publicado por primera vez en 1965. [2] En 2002, EBI, SIB y PIR unieron fuerzas formando el consorcio UniProt. [3]

Las raíces de las bases de datos UniProt

Cada miembro del consorcio participa activamente en el mantenimiento y la anotación de la base de datos de proteínas. Hasta hace poco, EBI y SIB produjeron juntos las bases de datos Swiss-Prot y TrEMBL, mientras que PIR produjo la base de datos de secuencia de proteínas (PIR-PSD). [4] [5] [6] Estas bases de datos coexistieron con diferentes prioridades de anotación y cobertura de secuencias de proteínas .

Swiss-Prot fue creado en 1986 por Amos Bairoch durante su doctorado y desarrollado por el Instituto Suizo de Bioinformática y posteriormente desarrollado por Rolf Apweiler en el Instituto Europeo de Bioinformática . [7] [8] [9] Swiss-Prot tenía como objetivo proporcionar secuencias de proteínas confiables asociadas con un alto nivel de anotación (como la descripción de la función de una proteína, su estructura de dominio , modificaciones postraduccionales , variantes, etc. ), un nivel mínimo de redundancia y un alto nivel de integración con otras bases de datos. Al reconocer que los datos de secuencia se estaban generando a un ritmo que excedía la capacidad de Swiss-Prot para mantenerse al día, se creó TrEMBL (Biblioteca de datos de secuencias de nucleótidos EMBL traducida) para proporcionar anotaciones automatizadas para aquellas proteínas que no están en Swiss-Prot. Mientras tanto, PIR mantuvo el PIR-PSD y las bases de datos relacionadas, incluida iProClass, una base de datos de secuencias de proteínas y familias seleccionadas.

Los miembros del consorcio aunaron sus recursos y experiencia superpuestos y lanzaron UniProt en diciembre de 2003. [10]

Organización de las bases de datos UniProt

UniProt proporciona cuatro bases de datos principales: UniProtKB (con subpartes Swiss-Prot y TrEMBL), UniParc, UniRef y Proteome.

UniProtKB

UniProt Knowledgebase (UniProtKB) es una base de datos de proteínas parcialmente curada por expertos, que consta de dos secciones: UniProtKB/Swiss-Prot (que contiene entradas revisadas y anotadas manualmente) y UniProtKB/TrEMBL (que contiene entradas no revisadas y anotadas automáticamente). [11] Al 22 de febrero de 2023 , la versión "2023_01" de UniProtKB/Swiss-Prot contiene 569.213 entradas de secuencia (que comprenden 205.728.242 aminoácidos extraídos de 291.046 referencias) y la versión "2023_01" de UniProtKB/TrEMBL contiene 245.871.724 entradas de secuencia (que 85.739.380.194 aminoácidos ácidos). [12]

UniProtKB/Swiss-Prot

UniProtKB/Swiss-Prot es una base de datos de secuencias de proteínas no redundante y anotada manualmente. Combina información extraída de la literatura científica y análisis computacional evaluado por biocuradores . El objetivo de UniProtKB/Swiss-Prot es proporcionar toda la información relevante conocida sobre una proteína en particular. Las anotaciones se revisan periódicamente para mantenerse al día con los hallazgos científicos actuales. La anotación manual de una entrada implica un análisis detallado de la secuencia de proteínas y de la literatura científica. [13]

Las secuencias del mismo gen y de la misma especie se combinan en la misma entrada de la base de datos. Se identifican las diferencias entre secuencias y se documenta su causa (por ejemplo, empalme alternativo , variación natural , sitios de iniciación incorrectos , límites de exones incorrectos , cambios de marco , conflictos no identificados). Se utiliza una variedad de herramientas de análisis de secuencia en la anotación de entradas de UniProtKB/Swiss-Prot. Las predicciones por computadora se evalúan manualmente y los resultados relevantes se seleccionan para su inclusión en la entrada. Estas predicciones incluyen modificaciones postraduccionales, dominios y topología transmembrana , péptidos señal , identificación de dominios y clasificación de familias de proteínas . [13] [14]

Las publicaciones relevantes se identifican mediante búsquedas en bases de datos como PubMed . Se lee el texto completo de cada artículo, se extrae información y se agrega a la entrada. Las anotaciones que surgen de la literatura científica incluyen, entre otras: [10] [13] [14]

Las entradas comentadas pasan por un control de calidad antes de su inclusión en UniProtKB/Swiss-Prot. Cuando hay nuevos datos disponibles, las entradas se actualizan.

UniProtKB/TrEMBL

UniProtKB/TrEMBL contiene registros analizados computacionalmente de alta calidad, que se enriquecen con anotaciones automáticas. Se introdujo en respuesta al aumento del flujo de datos resultante de los proyectos genómicos, ya que el proceso de anotación manual de UniProtKB/Swiss-Prot, que requiere mucho tiempo y mano de obra, no se pudo ampliar para incluir todas las secuencias de proteínas disponibles. [10] Las traducciones de secuencias codificantes anotadas en la base de datos de secuencias de nucleótidos EMBL-Bank/GenBank/DDBJ se procesan automáticamente y se ingresan en UniProtKB/TrEMBL. UniProtKB/TrEMBL también contiene secuencias de PDB y de predicción de genes, incluidas Ensembl , RefSeq y CCDS . [15] Desde el 22 de julio de 2021, también incluye estructuras predichas con AlphaFold terciario y Alphafold-multímero que pueden incluso hacer estructuras cuaternarias [16] . [17]

UniParc

UniProt Archive (UniParc) es una base de datos completa y no redundante que contiene todas las secuencias de proteínas de las principales bases de datos de secuencias de proteínas disponibles públicamente. [18] Las proteínas pueden existir en varias bases de datos de origen diferentes y en múltiples copias en la misma base de datos. Para evitar redundancias, UniParc almacena cada secuencia única sólo una vez. Se fusionan secuencias idénticas, independientemente de si son de la misma especie o de diferentes especies. Cada secuencia recibe un identificador único y estable (UPI), lo que permite identificar la misma proteína en diferentes bases de datos de origen. UniParc contiene sólo secuencias de proteínas, sin anotaciones. Las referencias cruzadas de bases de datos en las entradas de UniParc permiten recuperar más información sobre la proteína de las bases de datos de origen. Cuando las secuencias en las bases de datos de origen cambian, UniParc realiza un seguimiento de estos cambios y se archiva el historial de todos los cambios.

Bases de datos fuente

Actualmente UniParc contiene secuencias de proteínas de las siguientes bases de datos disponibles públicamente:

UniRef

Los UniProt Reference Clusters (UniRef) constan de tres bases de datos de conjuntos agrupados de secuencias de proteínas de UniProtKB y registros UniParc seleccionados. [21] La base de datos UniRef100 combina secuencias idénticas y fragmentos de secuencia (de cualquier organismo ) en una única entrada UniRef. Se muestran la secuencia de una proteína representativa, los números de acceso de todas las entradas fusionadas y los enlaces a los registros UniProtKB y UniParc correspondientes. Las secuencias UniRef100 se agrupan utilizando el algoritmo CD-HIT para construir UniRef90 y UniRef50. [21] [22] Cada grupo está compuesto por secuencias que tienen al menos un 90% o un 50% de identidad de secuencia, respectivamente, con respecto a la secuencia más larga. La agrupación de secuencias reduce significativamente el tamaño de la base de datos, lo que permite búsquedas de secuencias más rápidas.

UniRef está disponible en el sitio FTP de UniProt.

Fondos

UniProt está financiado por subvenciones del Instituto Nacional de Investigación del Genoma Humano , los Institutos Nacionales de Salud (NIH), la Comisión Europea , el Gobierno Federal Suizo a través de la Oficina Federal de Educación y Ciencia, NCI-caBIG y el Departamento de Defensa de EE. UU. [11]

Referencias

  1. ^ UniProt, Consorcio. (Enero de 2015). "UniProt: un centro de información sobre proteínas". Investigación de ácidos nucleicos . 43 (Problema de la base de datos): D204–12. doi : 10.1093/nar/gku989. PMC  4384041 . PMID  25348405.
  2. ^ Dayhoff, Margaret O. (1965). Atlas de secuencia y estructura de proteínas . Silver Spring, Maryland: Fundación Nacional de Investigación Biomédica.
  3. ^ "Comunicado de 2002: Base de datos global de proteínas de fondos NHGRI". Instituto Nacional de Investigación del Genoma Humano (NHGRI) . Archivado desde el original el 24 de septiembre de 2015 . Consultado el 14 de abril de 2018 .
  4. ^ O'Donovan, C.; Martín, MJ; Gattiker, A.; Gasteiger, E.; Bairoch, A.; Apweiler, R. (2002). "Recurso de conocimiento sobre proteínas de alta calidad: SWISS-PROT y TrEMBL". Sesiones informativas en Bioinformática . 3 (3): 275–284. doi : 10.1093/bib/3.3.275 . PMID  12230036.
  5. ^ Wu, CH; Sí, LS; Huang, H.; Arminski, L.; Castro-Alvear, J.; Chen, Y.; Hu, Z.; Kurtesis, P.; Ledley, RS; Suzek, BE; Vinayaka, CR; Zhang, J.; Barker, WC (2003). "El recurso de información sobre proteínas". Investigación de ácidos nucleicos . 31 (1): 345–347. doi :10.1093/nar/gkg040. PMC 165487 . PMID  12520019. 
  6. ^ Boeckmann, B.; Bairoch, A.; Apweiler, R.; Blatter, MC; Estreicher, A.; Gasteiger, E.; Martín, MJ; Michoud, K.; O'Donovan, C.; Phan, I.; Pilbout, S.; Schneider, M. (2003). "La base de conocimientos de proteínas SWISS-PROT y su suplemento TrEMBL en 2003". Investigación de ácidos nucleicos . 31 (1): 365–370. doi :10.1093/nar/gkg095. PMC 165542 . PMID  12520024. 
  7. ^ Bairoch, A.; Apweiler, R. (1996). "El banco de datos de secuencias de proteínas SWISS-PROT y su nuevo suplemento TREMBL". Investigación de ácidos nucleicos . 24 (1): 21-25. doi :10.1093/nar/24.1.21. PMC 145613 . PMID  8594581. 
  8. ^ Bairoch, A. (2000). "Serendipia en bioinformática, ¡las tribulaciones de un bioinformático suizo en tiempos apasionantes!". Bioinformática . 16 (1): 48–64. doi : 10.1093/bioinformática/16.1.48 . PMID  10812477.
  9. ^ Séverine Altairac, "Naissance d'une banque de données: Entrevista al profesor Amos Bairoch". Protéines à la Une , agosto de 2006. ISSN  1660-9824.
  10. ^ abc Apweiler, R.; Bairoch, A.; Wu, CH (2004). "Bases de datos de secuencias de proteínas". Opinión actual en biología química . 8 (1): 76–80. doi :10.1016/j.cbpa.2003.12.004. PMID  15036160.
  11. ^ ab Uniprot, C. (2009). "El recurso proteico universal (UniProt) en 2010". Investigación de ácidos nucleicos . 38 (Problema de la base de datos): D142 – D148. doi : 10.1093/nar/gkp846. PMC 2808944 . PMID  19843607. 
  12. ^ "Estadísticas de UniProtKB/Swiss-Prot versión 2023_01". web.expasy.org . Consultado el 31 de marzo de 2023 .
  13. ^ abc "¿Cómo anotamos manualmente una entrada UniProtKB?". www.uniprot.org . Consultado el 14 de abril de 2018 .
  14. ^ ab Apweiler, R.; Bairoch, A.; Wu, CH; Barker, WC; Boeckmann, B.; Ferro, S.; Gasteiger, E.; Huang, H.; López, R.; Magrané, M.; Martín, MJ; Natale, DA; o'Donovan, C.; Redaschi, N.; Sí, LS (2004). "UniProt: la base de conocimientos de proteínas universales". Investigación de ácidos nucleicos . 32 (90001): 115D-1119. doi : 10.1093/nar/gkh131. PMC 308865 . PMID  14681372. 
  15. ^ "¿De dónde vienen las secuencias de proteínas UniProtKB?". www.uniprot.org . Consultado el 14 de abril de 2018 .
  16. ^ Humphreys, Ian R.; Pei, Jimin; Baek, Minkyung; Krishnakumar, Aditya; Anishchenko, Iván; Ovchinnikov, Sergey; Zhang, Jing; Ness, Travis J.; Banjade, Sudeep; Bagde, Saket R.; Stancheva, Viktoriya G. (2021). "Estructuras computarizadas de complejos proteicos eucariotas centrales". Ciencia . 374 (6573): eabm4805. doi : 10.1126/science.abm4805. PMC 7612107 . PMID  34762488. 
  17. ^ "Poner el poder de AlphaFold en manos del mundo". Mente profunda . Consultado el 24 de julio de 2021 .
  18. ^ Leinonen, R.; Díez, FG; Binns, D.; Fleischmann, W.; López, R.; Apweiler, R. (2004). "Archivo UniProt". Bioinformática . 20 (17): 3236–3237. doi : 10.1093/bioinformática/bth191 . PMID  15044231.
  19. ^ "Fundación para la investigación de proteínas".
  20. ^ ftp://ftp.isrec.isb-sib.ch/pub/databases/trome [ enlace muerto permanente ]
  21. ^ ab Suzek, SER; Huang, H.; McGarvey, P.; Mazumder, R.; Wu, CH (2007). "UniRef: Clústeres de referencia UniProt completos y no redundantes". Bioinformática . 23 (10): 1282-1288. doi : 10.1093/bioinformática/btm098. PMID  17379688.
  22. ^ Li, W.; Jaroszewski, L.; Godzik, A. (2001). "Agrupación de secuencias altamente homólogas para reducir el tamaño de grandes bases de datos de proteínas". Bioinformática . 17 (3): 282–283. doi : 10.1093/bioinformática/17.3.282. PMID  11294794.

enlaces externos