UniProt es una base de datos de libre acceso sobre secuencias de proteínas e información funcional, y muchas entradas se derivan de proyectos de secuenciación del genoma . Contiene una gran cantidad de información sobre la función biológica de las proteínas derivada de la literatura de investigación. Lo mantiene el consorcio UniProt, que está formado por varias organizaciones bioinformáticas europeas y una fundación de Washington, DC , EE. UU.
El consorcio UniProt está formado por el Instituto Europeo de Bioinformática (EBI), el Instituto Suizo de Bioinformática (SIB) y el Protein Information Resource (PIR). EBI, ubicado en el Wellcome Trust Genome Campus en Hinxton, Reino Unido, alberga un gran recurso de bases de datos y servicios bioinformáticos. SIB, ubicada en Ginebra, Suiza, mantiene los servidores ExPASy (Expert Protein Analysis System) que son un recurso central para herramientas y bases de datos de proteómica. PIR, organizado por la Fundación Nacional de Investigación Biomédica (NBRF) en el Centro Médico de la Universidad de Georgetown en Washington, DC, EE. UU., es heredero de la base de datos de secuencias de proteínas más antigua, el Atlas de secuencia y estructura de proteínas de Margaret Dayhoff , publicado por primera vez en 1965. [2] En 2002, EBI, SIB y PIR unieron fuerzas formando el consorcio UniProt. [3]
Cada miembro del consorcio participa activamente en el mantenimiento y la anotación de la base de datos de proteínas. Hasta hace poco, EBI y SIB produjeron juntos las bases de datos Swiss-Prot y TrEMBL, mientras que PIR produjo la base de datos de secuencia de proteínas (PIR-PSD). [4] [5] [6] Estas bases de datos coexistieron con diferentes prioridades de anotación y cobertura de secuencias de proteínas .
Swiss-Prot fue creado en 1986 por Amos Bairoch durante su doctorado y desarrollado por el Instituto Suizo de Bioinformática y posteriormente desarrollado por Rolf Apweiler en el Instituto Europeo de Bioinformática . [7] [8] [9] Swiss-Prot tenía como objetivo proporcionar secuencias de proteínas confiables asociadas con un alto nivel de anotación (como la descripción de la función de una proteína, su estructura de dominio , modificaciones postraduccionales , variantes, etc. ), un nivel mínimo de redundancia y un alto nivel de integración con otras bases de datos. Al reconocer que los datos de secuencia se estaban generando a un ritmo que excedía la capacidad de Swiss-Prot para mantenerse al día, se creó TrEMBL (Biblioteca de datos de secuencias de nucleótidos EMBL traducida) para proporcionar anotaciones automatizadas para aquellas proteínas que no están en Swiss-Prot. Mientras tanto, PIR mantuvo el PIR-PSD y las bases de datos relacionadas, incluida iProClass, una base de datos de secuencias de proteínas y familias seleccionadas.
Los miembros del consorcio aunaron sus recursos y experiencia superpuestos y lanzaron UniProt en diciembre de 2003. [10]
UniProt proporciona cuatro bases de datos principales: UniProtKB (con subpartes Swiss-Prot y TrEMBL), UniParc, UniRef y Proteome.
UniProt Knowledgebase (UniProtKB) es una base de datos de proteínas parcialmente curada por expertos, que consta de dos secciones: UniProtKB/Swiss-Prot (que contiene entradas revisadas y anotadas manualmente) y UniProtKB/TrEMBL (que contiene entradas no revisadas y anotadas automáticamente). [11] Al 22 de febrero de 2023 [actualizar], la versión "2023_01" de UniProtKB/Swiss-Prot contiene 569.213 entradas de secuencia (que comprenden 205.728.242 aminoácidos extraídos de 291.046 referencias) y la versión "2023_01" de UniProtKB/TrEMBL contiene 245.871.724 entradas de secuencia 85.739.380.194 aminoácidos ácidos). [12]
UniProtKB/Swiss-Prot es una base de datos de secuencias de proteínas no redundante y anotada manualmente. Combina información extraída de la literatura científica y análisis computacional evaluado por biocuradores . El objetivo de UniProtKB/Swiss-Prot es proporcionar toda la información relevante conocida sobre una proteína en particular. Las anotaciones se revisan periódicamente para mantenerse al día con los hallazgos científicos actuales. La anotación manual de una entrada implica un análisis detallado de la secuencia de proteínas y de la literatura científica. [13]
Las secuencias del mismo gen y de la misma especie se combinan en la misma entrada de la base de datos. Se identifican las diferencias entre secuencias y se documenta su causa (por ejemplo, empalme alternativo , variación natural , sitios de iniciación incorrectos , límites de exones incorrectos , cambios de marco , conflictos no identificados). Se utiliza una variedad de herramientas de análisis de secuencia en la anotación de entradas de UniProtKB/Swiss-Prot. Las predicciones por computadora se evalúan manualmente y los resultados relevantes se seleccionan para su inclusión en la entrada. Estas predicciones incluyen modificaciones postraduccionales, dominios y topología transmembrana , péptidos señal , identificación de dominios y clasificación de familias de proteínas . [13] [14]
Las publicaciones relevantes se identifican mediante búsquedas en bases de datos como PubMed . Se lee el texto completo de cada artículo, se extrae información y se agrega a la entrada. Las anotaciones que surgen de la literatura científica incluyen, entre otras: [10] [13] [14]
Las entradas comentadas pasan por un control de calidad antes de su inclusión en UniProtKB/Swiss-Prot. Cuando hay nuevos datos disponibles, las entradas se actualizan.
UniProtKB/TrEMBL contiene registros analizados computacionalmente de alta calidad, que se enriquecen con anotaciones automáticas. Se introdujo en respuesta al aumento del flujo de datos resultante de los proyectos genómicos, ya que el proceso de anotación manual de UniProtKB/Swiss-Prot, que requiere mucho tiempo y mano de obra, no se pudo ampliar para incluir todas las secuencias de proteínas disponibles. [10] Las traducciones de secuencias codificantes anotadas en la base de datos de secuencias de nucleótidos EMBL-Bank/GenBank/DDBJ se procesan automáticamente y se ingresan en UniProtKB/TrEMBL. UniProtKB/TrEMBL también contiene secuencias de PDB y de predicción de genes, incluidas Ensembl , RefSeq y CCDS . [15] Desde el 22 de julio de 2021 también incluye estructuras predichas con AlphaFold2 . [dieciséis]
UniProt Archive (UniParc) es una base de datos completa y no redundante que contiene todas las secuencias de proteínas de las principales bases de datos de secuencias de proteínas disponibles públicamente. [17] Las proteínas pueden existir en varias bases de datos de origen diferentes y en múltiples copias en la misma base de datos. Para evitar redundancias, UniParc almacena cada secuencia única sólo una vez. Se fusionan secuencias idénticas, independientemente de si son de la misma especie o de diferentes especies. Cada secuencia recibe un identificador único y estable (UPI), lo que permite identificar la misma proteína en diferentes bases de datos de origen. UniParc contiene sólo secuencias de proteínas, sin anotaciones. Las referencias cruzadas de bases de datos en las entradas de UniParc permiten recuperar más información sobre la proteína de las bases de datos de origen. Cuando las secuencias en las bases de datos de origen cambian, UniParc realiza un seguimiento de estos cambios y se archiva el historial de todos los cambios.
Actualmente UniParc contiene secuencias de proteínas de las siguientes bases de datos disponibles públicamente:
Los UniProt Reference Clusters (UniRef) constan de tres bases de datos de conjuntos agrupados de secuencias de proteínas de UniProtKB y registros UniParc seleccionados. [20] La base de datos UniRef100 combina secuencias idénticas y fragmentos de secuencia (de cualquier organismo ) en una única entrada UniRef. Se muestran la secuencia de una proteína representativa, los números de acceso de todas las entradas fusionadas y los enlaces a los registros UniProtKB y UniParc correspondientes. Las secuencias UniRef100 se agrupan utilizando el algoritmo CD-HIT para construir UniRef90 y UniRef50. [20] [21] Cada grupo está compuesto por secuencias que tienen al menos un 90 % o un 50 % de identidad de secuencia, respectivamente, con respecto a la secuencia más larga. La agrupación de secuencias reduce significativamente el tamaño de la base de datos, lo que permite búsquedas de secuencias más rápidas.
UniRef está disponible en el sitio FTP de UniProt.
UniProt está financiado por subvenciones del Instituto Nacional de Investigación del Genoma Humano , los Institutos Nacionales de Salud (NIH), la Comisión Europea , el Gobierno Federal Suizo a través de la Oficina Federal de Educación y Ciencia, NCI-caBIG y el Departamento de Defensa de EE. UU. [11]