Protección unificada

UniProt es una base de datos de libre acceso que contiene información funcional y de secuencias de proteínas , y muchas de sus entradas proceden de proyectos de secuenciación genómica . Contiene una gran cantidad de información sobre la función biológica de las proteínas derivada de la literatura científica. La mantiene el consorcio UniProt, que está formado por varias organizaciones bioinformáticas europeas y una fundación de Washington, DC , EE. UU.

El consorcio UniProt

El consorcio UniProt está formado por el Instituto Europeo de Bioinformática (EBI), el Instituto Suizo de Bioinformática (SIB) y el Protein Information Resource (PIR). El EBI, ubicado en el Wellcome Trust Genome Campus en Hinxton, Reino Unido, alberga un gran recurso de bases de datos y servicios de bioinformática. El SIB, ubicado en Ginebra, Suiza, mantiene los servidores ExPASy (Expert Protein Analysis System) que son un recurso central para herramientas y bases de datos de proteómica. El PIR, alojado por la National Biomedical Research Foundation (NBRF) en el Centro Médico de la Universidad de Georgetown en Washington, DC, EE. UU., es heredero de la base de datos de secuencias de proteínas más antigua, el Atlas de secuencias y estructura de proteínas de Margaret Dayhoff , publicado por primera vez en 1965. ^[2] En 2002, el EBI, el SIB y el PIR unieron sus fuerzas como el consorcio UniProt. ^[3]

Las raíces de las bases de datos de UniProt

Cada miembro del consorcio participa activamente en el mantenimiento y la anotación de bases de datos de proteínas. Hasta hace poco, EBI y SIB producían conjuntamente las bases de datos Swiss-Prot y TrEMBL, mientras que PIR producía la base de datos de secuencias de proteínas (PIR-PSD). ^[4]^[5]^[6] Estas bases de datos coexistían con diferentes prioridades de cobertura y anotación de secuencias de proteínas .

Swiss-Prot fue creado en 1986 por Amos Bairoch durante su doctorado y desarrollado por el Instituto Suizo de Bioinformática y posteriormente desarrollado por Rolf Apweiler en el Instituto Europeo de Bioinformática . ^[7]^[8]^[9] Swiss-Prot tenía como objetivo proporcionar secuencias de proteínas confiables asociadas con un alto nivel de anotación (como la descripción de la función de una proteína, su estructura de dominio , modificaciones postraduccionales , variantes, etc.), un nivel mínimo de redundancia y un alto nivel de integración con otras bases de datos. Reconociendo que los datos de secuencias se estaban generando a un ritmo que excedía la capacidad de Swiss-Prot para seguir el ritmo, se creó TrEMBL (Translated EMBL Nucleotide Sequence Data Library) para proporcionar anotaciones automatizadas para aquellas proteínas que no estaban en Swiss-Prot. Mientras tanto, PIR mantuvo PIR-PSD y bases de datos relacionadas, incluida iProClass, una base de datos de secuencias de proteínas y familias curadas.

Los miembros del consorcio aunaron sus recursos y conocimientos superpuestos y lanzaron UniProt en diciembre de 2003. ^[10]

Organización de las bases de datos de UniProt

UniProt proporciona cuatro bases de datos principales: UniProtKB (con subpartes Swiss-Prot y TrEMBL), UniParc, UniRef y Proteome.

UniProtKB

UniProt Knowledgebase (UniProtKB) es una base de datos de proteínas parcialmente curada por expertos, que consta de dos secciones: UniProtKB/Swiss-Prot (que contiene entradas revisadas y anotadas manualmente) y UniProtKB/TrEMBL (que contiene entradas no revisadas y anotadas automáticamente). ^[11] Al 22 de febrero de 2023 ^[actualizar], la versión "2023_01" de UniProtKB/Swiss-Prot contiene 569.213 entradas de secuencias (que comprenden 205.728.242 aminoácidos extraídos de 291.046 referencias) y la versión "2023_01" de UniProtKB/TrEMBL contiene 245.871.724 entradas de secuencias (que comprenden 85.739.380.194 aminoácidos). ^[12]

UniProtKB/Protección Suiza

UniProtKB/Swiss-Prot es una base de datos de secuencias de proteínas anotadas manualmente y no redundantes. Combina información extraída de la literatura científica y análisis computacionales evaluados por biocuradores . El objetivo de UniProtKB/Swiss-Prot es proporcionar toda la información relevante conocida sobre una proteína en particular. La anotación se revisa periódicamente para mantenerse al día con los hallazgos científicos actuales. La anotación manual de una entrada implica un análisis detallado de la secuencia de la proteína y de la literatura científica. ^[13]

Las secuencias del mismo gen y la misma especie se fusionan en la misma entrada de la base de datos. Se identifican las diferencias entre secuencias y se documenta su causa (por ejemplo, empalme alternativo , variación natural , sitios de iniciación incorrectos , límites de exones incorrectos , cambios de marco , conflictos no identificados). Se utiliza una variedad de herramientas de análisis de secuencias en la anotación de las entradas de UniProtKB/Swiss-Prot. Las predicciones de computadora se evalúan manualmente y se seleccionan los resultados relevantes para su inclusión en la entrada. Estas predicciones incluyen modificaciones postraduccionales, dominios transmembrana y topología , péptidos señal , identificación de dominios y clasificación de familias de proteínas . ^[13]^[14]

Las publicaciones relevantes se identifican mediante búsquedas en bases de datos como PubMed . Se lee el texto completo de cada artículo y se extrae información que se agrega a la entrada. Las anotaciones que surgen de la literatura científica incluyen, entre otras: ^[10]^[13]^[14]

Nombres de proteínas y genes
Función
Información específica de la enzima , como actividad catalítica , cofactores y residuos catalíticos.
Ubicación subcelular
Interacciones proteína-proteína
Patrón de expresión
Ubicaciones y roles de dominios y sitios importantes
Sitios de unión de iones , sustratos y cofactores
Formas variantes de proteínas producidas por variación genética natural, edición de ARN , empalme alternativo, procesamiento proteolítico y modificación postraduccional.

Las entradas comentadas pasan por un control de calidad antes de su inclusión en UniProtKB/Swiss-Prot. Cuando hay nuevos datos disponibles, las entradas se actualizan.

UniProtKB/TrEMBL

UniProtKB/TrEMBL contiene registros de alta calidad analizados computacionalmente, que se enriquecen con anotación automática. Se introdujo en respuesta al aumento del flujo de datos resultante de los proyectos genómicos, ya que el proceso de anotación manual de UniProtKB/Swiss-Prot, que consumía mucho tiempo y trabajo, no se pudo ampliar para incluir todas las secuencias de proteínas disponibles. ^[10] Las traducciones de secuencias codificantes anotadas en la base de datos de secuencias de nucleótidos EMBL-Bank/GenBank/DDBJ se procesan automáticamente y se ingresan en UniProtKB/TrEMBL. UniProtKB/TrEMBL también contiene secuencias de PDB y de predicción de genes, incluidos Ensembl , RefSeq y CCDS . ^[15] Desde el 22 de julio de 2021, también incluye estructuras predichas con AlphaFold2 . ^[16]

Parque Uniparque

UniProt Archive (UniParc) es una base de datos completa y no redundante que contiene todas las secuencias de proteínas de las principales bases de datos de secuencias de proteínas disponibles públicamente. ^[17] Las proteínas pueden existir en varias bases de datos de origen diferentes y en múltiples copias en la misma base de datos. Para evitar la redundancia, UniParc almacena cada secuencia única solo una vez. Las secuencias idénticas se fusionan, independientemente de si son de la misma especie o de especies diferentes. A cada secuencia se le asigna un identificador estable y único (UPI), lo que permite identificar la misma proteína en diferentes bases de datos de origen. UniParc contiene solo secuencias de proteínas, sin anotaciones. Las referencias cruzadas de bases de datos en las entradas de UniParc permiten recuperar más información sobre la proteína de las bases de datos de origen. Cuando las secuencias en las bases de datos de origen cambian, UniParc realiza un seguimiento de estos cambios y se archiva el historial de todos los cambios.

Bases de datos de origen

Actualmente UniParc contiene secuencias de proteínas de las siguientes bases de datos disponibles públicamente:

Bases de datos de secuencias de nucleótidos del INSDC EMBL -Bank/ DDBJ / GenBank
Conjunto
Oficina Europea de Patentes (OEP)
FlyBase: el repositorio principal de datos genéticos y moleculares de la familia de insectos Drosophilidae (FlyBase)
Base de datos H-Invitacional (H-Inv)
Índice Internacional de Proteínas (IPI)
Oficina de Patentes de Japón (JPO)
Fuente de información sobre proteínas (PIR-PSD)
Banco de datos de proteínas (PDB)
Fundación para la Investigación de Proteínas (PRF) ^[18]
Secuencia de referencia
Base de datos del genoma de Saccharomyces (SGD)
El recurso de información sobre Arabidopsis (TAIR)
Tromo ^[19]
Oficina de Patentes de Estados Unidos (USPTO)
UniProtKB/Swiss-Prot, isoformas de proteína UniProtKB/Swiss-Prot, UniProtKB/TrEMBL
Base de datos de anotaciones de vertebrados y genomas (VEGA)
Base de gusanos

UniRef

Los clústeres de referencia UniProt (UniRef) consisten en tres bases de datos de conjuntos agrupados de secuencias de proteínas de UniProtKB y registros seleccionados de UniParc. ^[20] La base de datos UniRef100 combina secuencias idénticas y fragmentos de secuencias (de cualquier organismo ) en una única entrada UniRef. Se muestran la secuencia de una proteína representativa, los números de acceso de todas las entradas fusionadas y los enlaces a los registros UniProtKB y UniParc correspondientes. Las secuencias UniRef100 se agrupan utilizando el algoritmo CD-HIT para construir UniRef90 y UniRef50. ^[20]^[21] Cada clúster está compuesto de secuencias que tienen al menos un 90% o un 50% de identidad de secuencia, respectivamente, con la secuencia más larga. La agrupación de secuencias reduce significativamente el tamaño de la base de datos, lo que permite búsquedas de secuencias más rápidas.

UniRef está disponible en el sitio FTP de UniProt.

Fondos

UniProt está financiado por subvenciones del Instituto Nacional de Investigación del Genoma Humano , los Institutos Nacionales de Salud (NIH), la Comisión Europea , el Gobierno Federal Suizo a través de la Oficina Federal de Educación y Ciencia, NCI-caBIG y el Departamento de Defensa de los EE. UU. ^[11]

Referencias

^ UniProt, Consorcio. (Enero de 2015). "UniProt: un centro de información sobre proteínas". Nucleic Acids Research . 43 (Número de base de datos): D204–12. doi :10.1093/nar/gku989. PMC 4384041 . PMID 25348405.
^ Dayhoff, Margaret O. (1965). Atlas de secuencia y estructura de proteínas . Silver Spring, Maryland: Fundación Nacional de Investigación Biomédica.
^ "2002 Release: NHGRI Funds Global Protein Database" (Publicación de 2002: NHGRI financia la base de datos mundial de proteínas). Instituto Nacional de Investigación del Genoma Humano (NHGRI) . Archivado desde el original el 24 de septiembre de 2015. Consultado el 14 de abril de 2018 .
^ O'Donovan, C.; Martin, MJ; Gattiker, A.; Gasteiger, E.; Bairoch, A.; Apweiler, R. (2002). "Recurso de conocimiento de proteínas de alta calidad: SWISS-PROT y TrEMBL". Briefings in Bioinformatics . 3 (3): 275–284. doi : 10.1093/bib/3.3.275 . PMID 12230036.
^ Wu, CH; Sí, LS; Huang, H.; Arminski, L.; Castro-Alvear, J.; Chen, Y.; Hu, Z.; Kurtesis, P.; Ledley, RS; Suzek, BE; Vinayaka, CR; Zhang, J.; Barker, WC (2003). "El recurso de información sobre proteínas". Investigación de ácidos nucleicos . 31 (1): 345–347. doi :10.1093/nar/gkg040. PMC 165487 . PMID 12520019.
^ Boeckmann, B.; Bairoch, A.; Apweiler, R.; Blatter, MC; Estreicher, A.; Gasteiger, E.; Martin, MJ; Michoud, K.; O'Donovan, C.; Phan, I.; Pilbout, S.; Schneider, M. (2003). "La base de conocimiento de proteínas SWISS-PROT y su suplemento TrEMBL en 2003". Investigación de ácidos nucleicos . 31 (1): 365–370. doi :10.1093/nar/gkg095. PMC 165542 . PMID 12520024.
^ Bairoch, A.; Apweiler, R. (1996). "El banco de datos de secuencias de proteínas SWISS-PROT y su nuevo suplemento TREMBL". Nucleic Acids Research . 24 (1): 21–25. doi :10.1093/nar/24.1.21. PMC 145613 . PMID 8594581.
^ Bairoch, A. (2000). "Serendipia en bioinformática, las tribulaciones de un bioinformático suizo en tiempos emocionantes". Bioinformática . 16 (1): 48–64. doi : 10.1093/bioinformatics/16.1.48 . PMID 10812477.
^ Séverine Altairac, "Naissance d'une banque de données: Entrevista al profesor Amos Bairoch". Protéines à la Une , agosto de 2006. ISSN 1660-9824.
^ abc Apweiler, R.; Bairoch, A.; Wu, CH (2004). "Bases de datos de secuencias de proteínas". Current Opinion in Chemical Biology . 8 (1): 76–80. doi :10.1016/j.cbpa.2003.12.004. PMID 15036160.
^ ab Uniprot, C. (2009). "El recurso proteico universal (UniProt) en 2010". Nucleic Acids Research . 38 (número de la base de datos): D142–D148. doi :10.1093/nar/gkp846. PMC 2808944 . PMID 19843607.
^ "UniProtKB/Swiss-Prot Release 2023_01 statistics" (Estadísticas de la publicación UniProtKB/Swiss-Prot 2023_01). web.expasy.org . Consultado el 31 de marzo de 2023 .
^ abc "¿Cómo anotamos manualmente una entrada de UniProtKB?". UniProt . 21 de septiembre de 2011. Archivado desde el original el 13 de diciembre de 2013 . Consultado el 14 de abril de 2018 .
^ ab Apweiler, R.; Bairoch, A.; Wu, CH; Barker, WC; Boeckmann, B.; Ferro, S.; Gasteiger, E.; Huang, H.; López, R.; Magrané, M.; Martín, MJ; Natale, DA; o'Donovan, C.; Redaschi, N.; Sí, LS (2004). "UniProt: la base de conocimientos de proteínas universales". Investigación de ácidos nucleicos . 32 (90001): 115D-1119. doi : 10.1093/nar/gkh131 . PMC 308865 . PMID 14681372.
^ "¿De dónde proceden las secuencias de proteínas UniProtKB?". UniProt . 21 de septiembre de 2011. Archivado desde el original el 15 de diciembre de 2013. Consultado el 14 de abril de 2018 .
^ Hassabis, Demis (22 de julio de 2022). «Poniendo el poder de AlphaFold en manos del mundo». Deepmind . Archivado desde el original el 24 de julio de 2021. Consultado el 24 de julio de 2021 .
^ Leinonen, R.; Diez, FG; Binns, D.; Fleischmann, W.; Lopez, R.; Apweiler, R. (2004). "Archivo UniProt". Bioinformática . 20 (17): 3236–3237. doi : 10.1093/bioinformatics/bth191 . PMID 15044231. Archivado (PDF) desde el original el 30 de marzo de 2024.
^ "Fundación de Investigación de Proteínas".
^ ftp://ftp.isrec.isb-sib.ch/pub/databases/trome ^{[ enlace muerto permanente ]}
^ ab Suzek, BE; Huang, H.; McGarvey, P.; Mazumder, R.; Wu, CH (2007). "UniRef: clústeres de referencia UniProt completos y no redundantes". Bioinformática . 23 (10): 1282–1288. doi :10.1093/bioinformatics/btm098. PMID 17379688.
^ Li, W.; Jaroszewski, L.; Godzik, A. (2001). "Agrupamiento de secuencias altamente homólogas para reducir el tamaño de bases de datos de proteínas de gran tamaño". Bioinformática . 17 (3): 282–283. doi :10.1093/bioinformatics/17.3.282. PMID 11294794.

Enlaces externos

Wikidata tiene la propiedad:

Identificación de proteína UniProt (P352) (ver usos )