La base de datos STRING contiene información de numerosas fuentes, incluidos datos experimentales, métodos de predicción computacional y colecciones de textos públicos. Es de libre acceso y se actualiza periódicamente. El recurso también sirve para destacar enriquecimientos funcionales en listas de proteínas proporcionadas por el usuario, utilizando una serie de sistemas de clasificación funcional como GO , Pfam y KEGG . La última versión 11b contiene información sobre aproximadamente 24,5 millones de proteínas de más de 5000 organismos. STRING ha sido desarrollado por un consorcio de instituciones académicas que incluye CPR , EMBL , KU , SIB , TUD y UZH .
Uso
Las redes de interacción proteína-proteína son un ingrediente importante para la comprensión a nivel de sistema de los procesos celulares. Dichas redes pueden utilizarse para filtrar y evaluar datos genómicos funcionales y para proporcionar una plataforma intuitiva para anotar propiedades estructurales, funcionales y evolutivas de las proteínas. Explorar las redes de interacción predichas puede sugerir nuevas direcciones para futuras investigaciones experimentales y proporcionar predicciones entre especies para un mapeo eficiente de las interacciones. [7]
Características
Los datos se ponderan e integran y se calcula una puntuación de confianza para todas las interacciones de proteínas. Los resultados de las diversas predicciones computacionales se pueden inspeccionar desde diferentes vistas designadas. Hay dos modos de STRING: modo de proteína y modo COG. Las interacciones predichas se propagan a las proteínas en otros organismos para los que se ha descrito la interacción por inferencia de ortología . Hay disponible una interfaz web para acceder a los datos y brindar una descripción general rápida de las proteínas y sus interacciones. Hay disponible un complemento para cytoscape para usar datos STRING. Otra posibilidad para acceder a los datos STRING es usar la interfaz de programación de aplicaciones (API) mediante la construcción de una URL que contenga la solicitud.
Fuentes de datos
Al igual que muchas otras bases de datos que almacenan conocimiento sobre asociaciones de proteínas, STRING importa datos de interacciones proteína-proteína derivadas experimentalmente a través de la curación de literatura. Además, STRING también almacena interacciones predichas computacionalmente a partir de: (i) minería de textos científicos, (ii) interacciones calculadas a partir de características genómicas y (iii) interacciones transferidas desde organismos modelo basadas en ortología. [8]
Todas las interacciones previstas o importadas se comparan con una referencia común de asociación funcional según lo anotado por KEGG (Enciclopedia de Kyoto de Genes y Genomas).
Datos importados
STRING importa conocimiento de asociación de proteínas de bases de datos de interacción física y bases de datos de conocimiento de vías biológicas seleccionadas (MINT, HPRD , BIND , DIP , BioGRID , KEGG , Reactome , IntAct, EcoCyc , NCI-Nature Pathway Interaction Database , GO ). Se proporcionan enlaces a los datos originales de los respectivos repositorios experimentales y recursos de bases de datos.
Minería de texto
Se analiza una gran cantidad de textos científicos ( SGD , OMIM , FlyBase , PubMed ) para buscar coocurrencias estadísticamente relevantes de nombres de genes.
Datos previstos
Vecindario: Un contexto genómico similar en diferentes especies sugiere una función similar de las proteínas.
Eventos de fusión-fisión: Las proteínas que están fusionadas en algunos genomas tienen muchas probabilidades de estar vinculadas funcionalmente (como en otros genomas donde los genes no están fusionados).
Ocurrencia: Las proteínas que tienen una función similar o una ocurrencia en la misma vía metabólica, deben expresarse juntas y tener un perfil filogenético similar .
Coexpresión: Asociación prevista entre genes basada en patrones observados de expresión simultánea de genes.
Referencias
^ Szklarczyk, Damian; Gable, Annika L.; Lyon, David; Junge, Alexander; Wyder, Stefan; Huerta-Cepas, Jaime; Simonovic, Milan; Doncheva, Nadezhda T.; Morris, John H.; Bork, Peer; Jensen, Lars J. (8 de enero de 2019). "STRING v11: redes de asociación proteína-proteína con mayor cobertura, que respaldan el descubrimiento funcional en conjuntos de datos experimentales de todo el genoma". Investigación de ácidos nucleicos . 47 (D1): D607–D613. doi :10.1093/nar/gky1131. ISSN 1362-4962. PMC 6323986 . PMID 30476243.
^ Szklarczyk, Damian; Morris, John H.; Cook, Helen; Kuhn, Michael; Wyder, Stefan; Simonovic, Milan; Santos, Alberto; Doncheva, Nadezhda T.; Roth, Alexander; Bork, Peer; Jensen, Lars J. (4 de enero de 2017). "La base de datos STRING en 2017: redes de asociación proteína-proteína con control de calidad, ampliamente accesibles". Investigación de ácidos nucleicos . 45 (D1): D362–D368. doi :10.1093/nar/gkw937. ISSN 1362-4962. PMC 5210637 . PMID 27924014.
^ Szklarczyk D, Franceschini A, Wyder S, Forslund K, Heller D, Huerta-Cepas J, Simonovic M, Roth A, Santos A, Tsafou KP, Kuhn M, Bork P, Jensen LJ, von Mering C (2015). "STRING v10: redes de interacción proteína-proteína, integradas sobre el árbol de la vida". Nucleic Acids Res . 43 (número de base de datos): D447–52. doi :10.1093/nar/gku1003. PMC 4383874 . PMID 25352553.
^ Franceschini A, Szklarczyk D, Frankild S, Kuhn M, Simonovic M, Roth A, Lin J, Minguez P, Bork P, von Mering C, Jensen LJ (2013). "STRING v9.1: redes de interacción proteína-proteína, con mayor cobertura e integración". Nucleic Acids Res . 41 (número de la base de datos): D808–15. doi :10.1093/nar/gks1094. PMC 3531103 . PMID 23203871.
^ Szklarczyk D, Franceschini A, Kuhn M, Simonovic M, Roth A, Minguez P, Doerks T, Stark M, Muller J, Bork P, Jensen LJ, von Mering C (2011). "La base de datos STRING en 2011: redes de interacción funcional de proteínas, integradas y puntuadas globalmente". Nucleic Acids Res . 39 (número de la base de datos): D561–8. doi :10.1093/nar/gkq973. PMC 3013807 . PMID 21045058.
^ Snel, B; Lehmann, G; Bork, P y Huynen, MA (2000). "STRING: un servidor web para recuperar y mostrar la vecindad de un gen que aparece repetidamente". Nucleic Acids Res . 28 (18): 3442–4. doi :10.1093/nar/28.18.3442. PMC 110752 . PMID 10982861.
^ Schwartz, AS; Yu, J; Gardenour, KR; Finley Jr; RL & Ideker, T (2008). "Estrategias rentables para completar el interactoma". Nature Methods . 6 (1): 55–61. doi :10.1038/nmeth.1283. PMC 2613168 . PMID 19079254.
^ Wodak, SJ; Pu, S; Vlasblom, J y Séraphin, B (2009). "Desafíos y recompensas de la proteómica de interacción". Mol Cell Proteomics . 8 (1): 3–18. doi : 10.1074/mcp.R800014-MCP200 . PMID 18799807.
Enlaces externos
Sitio STRING
Sitio web STITCH, base de datos relacionada con las interacciones de proteínas con moléculas pequeñas