Interprofesional

InterPro es una base de datos de familias de proteínas , dominios de proteínas y sitios funcionales en los que las características identificables encontradas en proteínas conocidas se pueden aplicar a nuevas secuencias de proteínas ^[2] para caracterizarlas funcionalmente. ^[3]^[4]

El contenido de InterPro consiste en firmas diagnósticas y las proteínas con las que coinciden significativamente. Las firmas consisten en modelos (tipos simples, como expresiones regulares o más complejos, como modelos ocultos de Markov ) que describen familias de proteínas, dominios o sitios. Los modelos se construyen a partir de las secuencias de aminoácidos de familias o dominios conocidos y se utilizan posteriormente para buscar secuencias desconocidas (como las que surgen de la secuenciación de nuevos genomas) con el fin de clasificarlas. Cada una de las bases de datos miembros de InterPro contribuye a un nicho diferente, desde clasificaciones de muy alto nivel basadas en la estructura ( SUPERFAMILY y CATH-Gene3D) hasta clasificaciones de subfamilias bastante específicas ( PRINTS y PANTHER ).

La intención de InterPro es proporcionar un sistema único para la clasificación de proteínas, en el que todas las firmas producidas por las diferentes bases de datos miembros se coloquen en entradas dentro de la base de datos InterPro. Las firmas que representan dominios, sitios o familias equivalentes se colocan en la misma entrada y las entradas también pueden estar relacionadas entre sí. La información adicional, como una descripción, nombres consistentes y términos de Gene Ontology (GO), se asocian con cada entrada, siempre que sea posible.

Datos contenidos en InterPro

InterPro contiene tres entidades principales: proteínas, firmas (también denominadas "métodos" o "modelos") y entradas. Las proteínas en UniProtKB también son las entidades proteicas centrales en InterPro. La información sobre qué firmas coinciden significativamente con estas proteínas se calcula a medida que UniProtKB publica las secuencias y estos resultados se ponen a disposición del público (ver a continuación). Las coincidencias de firmas con proteínas son lo que determina cómo se integran las firmas en las entradas de InterPro: la superposición comparativa de conjuntos de proteínas coincidentes y la ubicación de las coincidencias de las firmas en las secuencias se utilizan como indicadores de relación. Solo las firmas que se consideran de calidad suficiente se integran en InterPro. A partir de la versión 81.0 (publicada el 21 de agosto de 2020), las entradas de InterPro anotaron el 73,9 % de los residuos encontrados en UniProtKB con otro 9,2 % anotado por firmas que están pendientes de integración. ^[5]

InterPro también incluye datos sobre las variantes de empalme y las proteínas contenidas en las bases de datos UniParc y UniMES.

Bases de datos de miembros del consorcio InterPro

Las firmas de InterPro provienen de 13 "bases de datos de miembros", que se enumeran a continuación.

CATH-Gene3D: Describe las familias de proteínas y las arquitecturas de dominios en genomas completos. Las familias de proteínas se forman utilizando un algoritmo de agrupamiento de Markov, seguido de un agrupamiento de enlaces múltiples según la identidad de secuencia. El mapeo de la estructura predicha y los dominios de secuencia se realiza utilizando bibliotecas de modelos ocultos de Markov que representan los dominios CATH y Pfam . Se proporciona anotación funcional a las proteínas a partir de múltiples recursos. La predicción funcional y el análisis de las arquitecturas de dominios están disponibles en el sitio web de Gene3D.
Diligenciamiento de conflictos: La base de datos de dominios conservados es un recurso de anotación de proteínas que consta de una colección de modelos de alineamiento de secuencias múltiples anotados para dominios antiguos y proteínas de longitud completa. Estos están disponibles como matrices de puntuación de posición específica (PSSM) para la identificación rápida de dominios conservados en secuencias de proteínas a través de RPS-BLAST.
HAMAPA: Significa Anotación manual y automatizada de alta calidad de proteomas microbianos. Los perfiles HAMAP son creados manualmente por curadores expertos e identifican proteínas que forman parte de familias o subfamilias de proteínas bien conservadas codificadas por bacterias, arqueas y plástidos (es decir, cloroplastos, cianelas, apicoplastos, plástidos no fotosintéticos).
Base de datos móvil: MobiDB es una base de datos que anota el desorden intrínseco en las proteínas.
PANTERA: PANTHER es una gran colección de familias de proteínas que se han subdividido en subfamilias funcionalmente relacionadas, utilizando la experiencia humana. Estas subfamilias modelan la divergencia de funciones específicas dentro de las familias de proteínas, lo que permite una asociación más precisa con la función (clasificaciones de funciones moleculares y procesos biológicos y diagramas de vías seleccionados por humanos), así como la inferencia de aminoácidos importantes para la especificidad funcional. Se construyen modelos ocultos de Markov (HMM) para cada familia y subfamilia para clasificar secuencias de proteínas adicionales.
Pfam: Es una gran colección de alineaciones de secuencias múltiples y modelos de Markov ocultos que cubren muchos dominios y familias de proteínas comunes.
Las 13 bases de datos miembros del consorcio InterPro agrupadas por su método de construcción característico y la entidad biológica en la que se centran. ^[6]
PIRSF: El sistema de clasificación de proteínas es una red con múltiples niveles de diversidad de secuencias, desde superfamilias hasta subfamilias, que refleja la relación evolutiva de las proteínas y los dominios de longitud completa. La unidad de clasificación principal de PIRSF es la familia homeomórfica, cuyos miembros son tanto homólogos (evolucionaron a partir de un ancestro común) como homeomórficos (comparten una similitud de secuencia de longitud completa y una arquitectura de dominio común).
HUELLAS DACTILARES: PRINTS es un compendio de huellas dactilares de proteínas. Una huella dactilar es un grupo de motivos conservados que se utilizan para caracterizar una familia de proteínas; su poder diagnóstico se refina mediante el escaneo iterativo de UniProt. Por lo general, los motivos no se superponen, sino que están separados a lo largo de una secuencia, aunque pueden ser contiguos en el espacio 3D. Las huellas dactilares pueden codificar pliegues y funcionalidades de proteínas de manera más flexible y poderosa que los motivos individuales, y su potencia diagnóstica total deriva del contexto mutuo proporcionado por los vecinos de los motivos.
PROSITIO: PROSITE es una base de datos de dominios y familias de proteínas. Consta de sitios, patrones y perfiles biológicamente significativos que ayudan a identificar de manera confiable a qué familia de proteínas conocida (si corresponde) pertenece una nueva secuencia.
ELEGANTE: Herramienta de investigación de arquitectura modular simple Permite la identificación y anotación de dominios genéticamente móviles y el análisis de arquitecturas de dominios. Se pueden detectar más de 800 familias de dominios que se encuentran en proteínas de señalización, extracelulares y asociadas a la cromatina. Estos dominios están ampliamente anotados con respecto a distribuciones filéticas, clase funcional, estructuras terciarias y residuos funcionalmente importantes.
SUPERFAMILIA: SUPERFAMILY es una biblioteca de modelos ocultos de Markov que representan todas las proteínas de estructura conocida. La biblioteca se basa en la clasificación SCOP de proteínas: cada modelo corresponde a un dominio SCOP y tiene como objetivo representar a toda la superfamilia SCOP a la que pertenece el dominio. SUPERFAMILY se ha utilizado para realizar asignaciones estructurales a todos los genomas completamente secuenciados.
SFLD: Una clasificación jerárquica de enzimas que relaciona características específicas de la estructura de secuencia con capacidades químicas específicas.
TIGRFAM: TIGRFAMs es una colección de familias de proteínas que incluye alineaciones de secuencias múltiples seleccionadas, modelos ocultos de Markov (HMM) y anotaciones, lo que proporciona una herramienta para identificar proteínas funcionalmente relacionadas en función de la homología de secuencias. Las entradas que son "equivalogs" agrupan proteínas homólogas que se conservan con respecto a la función.

Tipos de datos

InterPro consta de siete tipos de datos proporcionados por diferentes miembros del consorcio:

Iconos que identifican los cinco tipos de entradas que se encuentran en InterPro (superfamilia homóloga, familia, dominio, repetición o sitio). ^[7]

Tipos de entrada de InterPro

Las entradas de InterPro se pueden dividir en cinco tipos:

Superfamilia homóloga : grupo de proteínas que comparten un origen evolutivo común, como se puede apreciar en sus similitudes estructurales, incluso si sus secuencias no son muy similares. Estas entradas las proporcionan específicamente solo dos bases de datos miembros: CATH-Gene3D y SUPERFAMILY.
Familia : Grupo de proteínas que tienen un origen evolutivo común determinado a través de similitudes estructurales, funciones relacionadas u homología de secuencia .
Dominio: Una unidad distinta en una proteína con una función, estructura o secuencia particular.
Repetición: Una secuencia de aminoácidos, normalmente no más de 50 aminoácidos, que tiende a repetirse muchas veces en una proteína.
Sitio: Una secuencia corta de aminoácidos en la que se conserva al menos un aminoácido. Estos incluyen sitios de modificación postraduccional , sitios conservados, sitios de unión y sitios activos .

Acceso

La base de datos está disponible para búsquedas basadas en texto y secuencias a través de un servidor web y para su descarga a través de FTP anónimo. Al igual que otras bases de datos de EBI , es de dominio público , ya que su contenido puede ser utilizado "por cualquier persona y para cualquier propósito". ^[8] InterPro tiene como objetivo publicar los datos cada 8 semanas, normalmente un día después de la publicación de las mismas proteínas en UniProtKB.

Interfaz de programación de aplicaciones (API) de InterPro

InterPro proporciona una API para el acceso programático a todas las entradas de InterPro y sus entradas relacionadas en formato Json . ^[9] Hay seis puntos finales principales para la API correspondientes a los diferentes tipos de datos de InterPro: entrada, proteína, estructura, taxonomía, proteoma y conjunto.

InterProScan

InterProScan es un paquete de software que permite a los usuarios escanear secuencias comparándolas con las firmas de bases de datos de miembros. Los usuarios pueden utilizar este software de escaneo de firmas para caracterizar funcionalmente nuevas secuencias de nucleótidos o proteínas. ^[10] InterProScan se utiliza con frecuencia en proyectos genómicos para obtener una caracterización de "primer paso" del genoma de interés. ^[11]^[12] A diciembre de 2020 ^[actualizar], la versión pública de InterProScan (v5.x) utiliza una arquitectura basada en Java . ^[13] Actualmente, el paquete de software solo es compatible con un sistema operativo Linux de 64 bits .

También se puede acceder a InterProScan, junto con muchas otras herramientas bioinformáticas EMBL-EBI, mediante programación utilizando API de servicios web SOAP y RESTful . ^[14]

Véase también

Referencias

^ Blum M, Chang HY, Chuguransky S, Grego T, Kandasaamy S, Mitchell A, et al. (noviembre de 2020). "Base de datos de dominios y familias de proteínas InterPro: 20 años después". Nucleic Acids Research . 49 (D1): D344–D354. doi : 10.1093/nar/gkaa977 . PMC 7778928 . PMID 33156333.
^ Hunter S, Jones P, Mitchell A, Apweiler R, Attwood TK, Bateman A, et al. (enero de 2012). "InterPro en 2011: nuevos desarrollos en la base de datos de predicción de dominios y familias". Nucleic Acids Research . 40 (número de la base de datos): D306-12. doi :10.1093/nar/gkr948. PMC 3245097 . PMID 22096229.
^ Apweiler R , Attwood TK , Bairoch A , Bateman A , Birney E , Biswas M, et al. (enero de 2001). "La base de datos InterPro, un recurso de documentación integrado para familias de proteínas, dominios y sitios funcionales". Nucleic Acids Research . 29 (1): 37–40. doi :10.1093/nar/29.1.37. PMC 29841. PMID 11125043 .
^ Apweiler R , Attwood TK , Bairoch A , Bateman A , Birney E , Biswas M, et al. (diciembre de 2000). "InterPro: un recurso de documentación integrado para familias de proteínas, dominios y sitios funcionales". Bioinformática . 16 (12): 1145–50. doi : 10.1093/bioinformatics/16.12.1145 . PMID 11159333.
^ ab Blum, Matías; Chang, Hsin-Yu; Chuguransky, Sara; Grego, Tiago; Kandasaamy, Swaathi; Mitchell, Alex; Nuka, regalo; Paysan-Lafosse, Typhaine; Qureshi, Matloob; Raj, Sriya; Richardson, Lorna (6 de noviembre de 2020). "La base de datos de dominios y familias de proteínas de InterPro: 20 años después". Investigación de ácidos nucleicos . 49 (D1): D344–D354. doi : 10.1093/nar/gkaa977 . ISSN 0305-1048. PMC 7778928 . PMID 33156333.
^ EMBL-EBI. "¿De dónde provienen los datos? | InterPro" . Consultado el 4 de diciembre de 2020 .
^ EMBL-EBI. «Tipos de entrada de InterPro | InterPro» . Consultado el 4 de diciembre de 2020 .
^ "Condiciones de uso de los servicios EMBL-EBI | Instituto Europeo de Bioinformática".
^ "¿Cómo descargar datos de InterPro? — Documentación de InterPro". interpro-documentation.readthedocs.io . Consultado el 4 de diciembre de 2020 .
^ Quevillon E, Silventoinen V, Pillai S, Harte N, Mulder N, Apweiler R, Lopez R (julio de 2005). "InterProScan: identificador de dominios proteicos" (Texto completo gratuito) . Nucleic Acids Research . 33 (edición del servidor web): W116-20. doi :10.1093/nar/gki442. PMC 1160203. PMID 15980438 .
^ Lander ES , Linton LM, Birren B, Nusbaum C, Zody MC, Baldwin J, et al. (febrero de 2001). "Secuenciación inicial y análisis del genoma humano" (PDF) . Nature . 409 (6822): 860–921. Bibcode :2001Natur.409..860L. doi : 10.1038/35057062 . PMID 11237011.
^ Holt RA, Subramanian GM, Halpern A, Sutton GG, Charlab R, Nusskern DR, et al. (octubre de 2002). "La secuencia del genoma del mosquito de la malaria Anopheles gambiae". Science . 298 (5591): 129–49. Bibcode :2002Sci...298..129H. CiteSeerX 10.1.1.149.9058 . doi :10.1126/science.1076181. PMID 12364791. S2CID 4512225.
^ Jones P, Binns D, Chang HY, Fraser M, Li W, McAnulla C, et al. (mayo de 2014). "InterProScan 5: clasificación de funciones de proteínas a escala del genoma". Bioinformática . 30 (9): 1236–40. doi :10.1093/bioinformatics/btu031. PMC 3998142 . PMID 24451626.
^ Madeira F, Park YM, Lee J, Buso N, Gur T, Madhusoodanan N, et al. (julio de 2019). "Las API de las herramientas de búsqueda y análisis de secuencias EMBL-EBI en 2019". Nucleic Acids Research . 47 (W1): W636–W641. doi :10.1093/nar/gkz268. PMC 6602479 . PMID 30976793.

Enlaces externos

Sitio web oficial — servidor web