stringtranslate.com

Base de datos de superfamilias

SUPERFAMILY es una base de datos y plataforma de búsqueda de anotación estructural y funcional para todas las proteínas y genomas. [1] [2] [3] [4] [5] [6] [7] Clasifica secuencias de aminoácidos en dominios estructurales conocidos , especialmente en superfamilias SCOP . [8] [9] Los dominios son unidades funcionales, estructurales y evolutivas que forman proteínas. Los dominios de ascendencia común se agrupan en superfamilias. Los dominios y las superfamilias de dominios se definen y describen en SCOP. [8] [10] Las superfamilias son grupos de proteínas que tienen evidencia estructural para respaldar un ancestro evolutivo común, pero pueden no tener homología de secuencia detectable . [11]

Anotaciones

La anotación SUPERFAMILY se basa en una colección de modelos ocultos de Markov (HMM), que representan dominios proteicos estructurales a nivel de superfamilia SCOP . [12] [13] Una superfamilia agrupa dominios que tienen una relación evolutiva . La anotación se produce escaneando secuencias proteicas de genomas completamente secuenciados contra los modelos ocultos de Markov.

Para cada proteína puedes:

Para cada genoma puedes:

Para cada superfamilia puedes:

Todas las anotaciones, modelos y el volcado de la base de datos están disponibles para su descarga gratuita para todos.

Características

Búsqueda de secuencias

Envíe una secuencia de proteína o ADN para la clasificación a nivel de superfamilia y familia de SCOP utilizando los HMM de SUPERFAMILIA. Las secuencias se pueden enviar ya sea como entrada sin procesar o cargando un archivo, pero todas deben estar en formato FASTA . Las secuencias pueden ser aminoácidos, una secuencia de nucleótidos de marco fijo o todos los marcos de una secuencia de nucleótidos enviada. Se pueden ejecutar hasta 1000 secuencias a la vez.

Búsqueda por palabras clave

Busque en la base de datos utilizando el nombre de una superfamilia, familia o especie más una secuencia, un identificador SCOP, PDB o HMM. Una búsqueda exitosa arrojará la clase, los pliegues, las superfamilias, las familias y las proteínas individuales que coincidan con la consulta.

Asignaciones de dominio

La base de datos tiene asignaciones de dominio, alineaciones y arquitecturas para organismos eucariotas y procariotas completamente secuenciados, además de colecciones de secuencias.

Herramientas de genómica comparativa

Explore superfamilias y familias inusuales (sobrerrepresentadas y subrepresentadas), listas y gráficos de pares de dominios adyacentes, pares de dominios únicos, combinaciones de dominios, redes de coocurrencia de arquitectura de dominios y distribución de dominios en los reinos taxonómicos para cada organismo.

Estadísticas del genoma

Para cada genoma: número de secuencias, número de secuencias con asignación, porcentaje de secuencias con asignación, porcentaje de cobertura total de secuencia, número de dominios asignados, número de superfamilias asignadas, número de familias asignadas, tamaño promedio de superfamilia, porcentaje producido por duplicación, longitud promedio de secuencia, longitud promedio coincidente, número de pares de dominios y número de arquitecturas de dominios únicas.

Ontología genética

Ontología genética centrada en el dominio (GO) anotada automáticamente.

Debido a la creciente brecha entre las proteínas secuenciadas y las funciones conocidas de las proteínas, se está volviendo cada vez más importante desarrollar un método más automatizado para anotar funcionalmente las proteínas, especialmente para las proteínas con dominios conocidos. SUPERFAMILY utiliza anotaciones GO a nivel de proteína tomadas del proyecto Genome Ontology Annotation (GOA), que ofrece anotaciones GO de alta calidad directamente asociadas a las proteínas en UniprotKB en un amplio espectro de especies. [15] SUPERFAMILY ha generado anotaciones GO para dominios evolutivamente cerrados (a nivel de la familia SCOP) y dominios distantes (a nivel de la superfamilia SCOP).

Ontología del fenotipo

Ontología de fenotipo /anatomía centrada en el dominio que incluye ontología de enfermedades, fenotipo humano, fenotipo de ratón, fenotipo de gusano, fenotipo de levadura, fenotipo de mosca, anatomía de mosca, anatomía de pez cebra, anatomía de Xenopus y planta Arabidopsis.

Anotación de superfamilia

Resúmenes de InterPro para más de 1000 superfamilias y anotaciones de Gene Ontology (GO) para más de 700 superfamilias. Esta función permite la anotación directa de características, funciones y estructuras clave de una superfamilia.

Anotación funcional

Anotación funcional de las superfamilias SCOP 1.73.

La base de datos SUPERFAMILY utiliza un esquema de 50 categorías de funciones detalladas que se asignan a 7 categorías de funciones generales, similar al esquema utilizado en la base de datos COG. [16] Se utilizó una función general asignada a una superfamilia para reflejar la función principal de esa superfamilia. Las categorías generales de función son:

  1. Información: almacenamiento, mantenimiento del código genético; replicación y reparación del ADN; transcripción y traducción general .
  2. Regulación: Regulación de la expresión genética y la actividad proteica; procesamiento de la información en respuesta a estímulos ambientales; transducción de señales ; actividad reguladora general o del receptor.
  3. Metabolismo : Procesos anabólicos y catabólicos ; mantenimiento celular y homeostasis ; metabolismo secundario.
  4. Procesos intracelulares: motilidad y división celular; muerte celular ; transporte intracelular ; secreción .
  5. Procesos extracelulares: procesos inter y extracelulares como la adhesión celular; procesos organismales como la coagulación sanguínea o el sistema inmunológico.
  6. General: Funciones generales y múltiples; interacciones con proteínas , lípidos , moléculas pequeñas e iones .
  7. Otro/Desconocido: una función desconocida, proteínas virales o toxinas .

Cada superfamilia de dominios en las clases SCOP a a g se anotó manualmente utilizando este esquema [17] [18] [19] y la información utilizada fue proporcionada por SCOP , [10] InterPro , [20] [21] Pfam , [22] Swiss Prot , [23] y varias fuentes bibliográficas.

Árboles filogenéticos

Cree árboles filogenéticos personalizados seleccionando 3 o más genomas disponibles en el sitio SUPERFAMILY. Los árboles se generan mediante métodos de parsimonia heurística y se basan en datos de arquitectura de dominios proteicos para todos los genomas en SUPERFAMILY. Las combinaciones de genomas o clados específicos se pueden mostrar como árboles individuales.

Arquitecturas de dominios similares

Esta función permite al usuario encontrar las 10 arquitecturas de dominio que son más similares a la arquitectura de dominio de interés.

Modelos ocultos de Markov

Producir asignaciones de dominio SCOP para una secuencia utilizando los modelos de Markov ocultos SUPERFAMILY .

Comparación de perfiles

Busque coincidencias de dominios remotos cuando la búsqueda de HMM no encuentre una coincidencia significativa. Se utiliza la comparación de perfiles (PRC) [24] para alinear y puntuar dos HMM de perfil.

Servicios web

Servidor de anotación distribuido y enlace a SUPERFAMILY.

Descargas

Secuencias, asignaciones, modelos, base de datos MySQL y scripts: actualizados semanalmente.

Uso en investigación

La base de datos SUPERFAMILY tiene numerosas aplicaciones de investigación y ha sido utilizada por muchos grupos de investigación para diversos estudios. Puede servir como base de datos para proteínas que el usuario desea examinar con otros métodos, o para asignar una función y estructura a una proteína nueva o no caracterizada. Un estudio descubrió que SUPERFAMILY era muy hábil para asignar correctamente una función y estructura apropiadas a una gran cantidad de dominios de función desconocida al compararlos con los modelos ocultos de Markov de la base de datos. [25] Otro estudio utilizó SUPERFAMILY para generar un conjunto de datos de 1733 dominios de superfamilias Fold (FSF) mediante una comparación de proteomas y funcionomas para identificar el origen de la diversificación celular. [26]

Referencias

  1. ^ Wilson, D; Pethica, R; Zhou, Y; Talbot, C; Vogel, C ; Madera, M; Chothia, C ; Gough, J (enero de 2009). "SUPERFAMILIA: genómica comparativa sofisticada, minería de datos, visualización y filogenia". Nucleic Acids Research . 37 (número de base de datos): D380-6. doi :10.1093/NAR/GKN762. ISSN  0305-1048. PMC 2686452 . PMID  19036790. Wikidata  Q26781958. 
  2. ^ Madera, Martin; Vogel, Christine; Kummerfeld, Sarah K.; Chothia, Cyrus; Gough, Julian (1 de enero de 2004). "La base de datos SUPERFAMILY en 2004: adiciones y mejoras". Nucleic Acids Research . 32 (suppl 1): D235–D239. doi :10.1093/nar/gkh117. ISSN  0305-1048. PMC 308851 . PMID  14681402. 
  3. ^ Wilson, D.; Madera, M.; Vogel, C.; Chothia, C .; Gough, J. (2007). "La base de datos SUPERFAMILY en 2007: familias y funciones". Nucleic Acids Research . 35 (número de la base de datos): D308–D313. doi :10.1093/nar/gkl910. PMC 1669749 . PMID  17098927. 
  4. ^ Gough, J. (2002). "La base de datos SUPERFAMILY en genómica estructural". Acta Crystallographica Sección D . 58 (Pt 11): 1897–1900. doi : 10.1107/s0907444902015160 . PMID  12393919.
  5. ^ Gough, J. ; Chothia, C. (2002). "SUPERFAMILIA: HMM que representan todas las proteínas de estructura conocida. Búsquedas de secuencias SCOP, alineaciones y asignaciones de genoma". Nucleic Acids Research . 30 (1): 268–272. doi :10.1093/nar/30.1.268. PMC 99153 . PMID  11752312. 
  6. ^ ab De Lima Morais, DA; Fang, H.; Rackham, OJL; Wilson, D.; Pethica, R.; Chothia, C. ; Gough, J. (2010). "SUPERFAMILY 1.75 incluyendo un método de ontología génica centrado en el dominio". Nucleic Acids Research . 39 (número de base de datos): D427–D434. doi :10.1093/nar/gkq1130. PMC 3013712 . PMID  21062816. 
  7. ^ Oates, ME; Stahlhacke, J; Vavoulis, DV; Smithers, B; Rackham, OJ; Sardar, AJ; Zaucha, J; Thurlby, N; Fang, H; Gough, J (2015). "La base de datos SUPERFAMILY 1.75 en 2014: una duplicación de los datos". Nucleic Acids Research . 43 (número de la base de datos): D227–33. doi :10.1093/nar/gku1041. PMC 4383889 . PMID  25414345. 
  8. ^ ab Hubbard, TJ ; Ailey, B.; Brenner, SE ; Murzin, AG; Chothia, C. (1999). "SCOP: una base de datos de clasificación estructural de proteínas". Investigación de ácidos nucleicos . 27 (1): 254–256. doi :10.1093/nar/27.1.254. PMC 148149 . PMID  9847194. 
  9. ^ Lo Conte, L.; Ailey, B.; Hubbard, TJ; Brenner, SE; Murzin, AG; Chothia, C. (2000). "SCOP: una base de datos de clasificación estructural de proteínas". Investigación de ácidos nucleicos . 28 (1): 257–259. doi :10.1093/nar/28.1.257. PMC 102479 . PMID  10592240. 
  10. ^ ab Andreeva, Antonina; Howorth, Dave; Brenner, Steven E.; Hubbard, Tim JP; Chothia, Cyrus; Murzin, Alexey G. (1 de enero de 2004). "Base de datos SCOP en 2004: los refinamientos integran datos de familia de secuencias y estructura". Nucleic Acids Research . 32 (número de la base de datos): D226–D229. doi :10.1093/nar/gkh039. ISSN  0305-1048. PMC 308773 . PMID  14681400. 
  11. ^ Dayhoff, MO; McLaughlin, PJ; Barker, WC; Hunt, LT (1 de abril de 1975). "Evolución de secuencias dentro de superfamilias de proteínas". Ciencias de la naturaleza . 62 (4): 154–161. Código Bibliográfico :1975NW.....62..154D. doi :10.1007/BF00608697. ISSN  0028-1042. S2CID  40304076.
  12. ^ Gough, J.; Karplus, K.; Hughey, R.; Chothia, C. (2001). "Asignación de homología a secuencias genómicas utilizando una biblioteca de modelos ocultos de Markov que representan todas las proteínas de estructura conocida1". Journal of Molecular Biology . 313 (4): 903–919. CiteSeerX 10.1.1.144.6577 . doi :10.1006/jmbi.2001.5080. PMID  11697912. 
  13. ^ Karplus, K.; Barrett, C.; Hughey, R. (1 de enero de 1998). "Modelos ocultos de Markov para detectar homologías de proteínas remotas". Bioinformática . 14 (10): 846–856. doi : 10.1093/bioinformatics/14.10.846 . ISSN  1367-4803. PMID  9927713.
  14. ^ Botstein, D .; Cherry, JM; Ashburner, M .; Ball, CA; Blake, JA; Butler, H.; Davis, AP; Dolinski, K.; Dwight, SS; Eppig, JT; Harris, MA; Hill, DP; Issel-Tarver, L.; Kasarskis, A.; Lewis, S .; Matese, JC; Richardson, JE; Ringwald, M.; Rubin, GM ; Sherlock, G. (2000). "Ontología genética: herramienta para la unificación de la biología. El Consorcio de Ontología Genética". Nature Genetics . 25 (1): 25–29. doi :10.1038/75556. PMC 3037419 . PMID  10802651.  Icono de acceso abierto
  15. ^ Barrell, Daniel; Dimmer, Emily; Huntley, Rachael P.; Binns, David; O'Donovan, Claire; Apweiler, Rolf (1 de enero de 2009). "La base de datos GOA en 2009: un recurso integrado de anotación de ontologías genéticas". Nucleic Acids Research . 37 (suppl 1): D396–D403. doi :10.1093/nar/gkn803. ISSN  0305-1048. PMC 2686469 . PMID  18957448. 
  16. ^ Tatusov, Roman L; Fedorova, Natalie D; Jackson, John D; Jacobs, Aviva R; Kiryutin, Boris; Koonin, Eugene V; Krylov, Dmitri M; Mazumder, Raja; Mekhedov, Sergei L (11 de septiembre de 2003). "La base de datos COG: una versión actualizada que incluye eucariotas". BMC Bioinformatics . 4 : 41. doi : 10.1186/1471-2105-4-41 . ISSN  1471-2105. PMC 222959 . PMID  12969510. 
  17. ^ Vogel, Christine; Berzuini, Carlo; Bashton, Matthew; Gough, Julian; Teichmann, Sarah A. (20 de febrero de 2004). "Supradominios: unidades evolutivas más grandes que los dominios proteicos individuales". Revista de biología molecular . 336 (3): 809–823. CiteSeerX 10.1.1.116.6568 . doi :10.1016/j.jmb.2003.12.026. ISSN  0022-2836. PMID  15095989. 
  18. ^ Vogel, Christine; Teichmann, Sarah A.; Pereira-Leal, Jose (11 de febrero de 2005). "La relación entre la duplicación de dominios y la recombinación". Revista de Biología Molecular . 346 (1): 355–365. doi :10.1016/j.jmb.2004.11.050. ISSN  0022-2836. PMID  15663950.
  19. ^ Vogel, Christine; Chothia, Cyrus (1 de mayo de 2006). "Expansiones de familias de proteínas y complejidad biológica". PLOS Computational Biology . 2 (5): e48. Bibcode :2006PLSCB...2...48V. doi : 10.1371/journal.pcbi.0020048 . ISSN  1553-734X. PMC 1464810 . PMID  16733546. 
  20. ^ Mulder, Nicola J.; Apweiler, Rolf; Attwood, Teresa K.; Bairoch, Amos; Barrell, Daniel; Bateman, Alex; Binns, David; Biswas, Margaret; Bradley, Paul (1 de enero de 2003). "La base de datos InterPro, 2003 aporta una mayor cobertura y nuevas características". Investigación de ácidos nucleicos . 31 (1): 315–318. doi :10.1093/nar/gkg046. ISSN  0305-1048. PMC 165493 . PMID  12520011. 
  21. ^ Mulder, Nicola J.; Apweiler, Rolf; Attwood, Teresa K.; Bairoch, Amos; Bateman, Alex; Binns, David; Bradley, Paul; Bork, Peer; Bucher, Phillip (1 de enero de 2005). "InterPro, progreso y estado en 2005". Nucleic Acids Research . 33 (Número de base de datos): D201–D205. doi :10.1093/nar/gki106. ISSN  0305-1048. PMC 540060 . PMID  15608177. 
  22. ^ Finn, Robert D.; Mistry, Jaina; Schuster-Böckler, Benjamin; Griffiths-Jones, Sam; Hollich, Volker; Lassmann, Timo; Moxon, Simon; Marshall, Mhairi; Khanna, Ajay (1 de enero de 2006). "Pfam: clanes, herramientas web y servicios". Nucleic Acids Research . 34 (número de la base de datos): D247–D251. doi :10.1093/nar/gkj149. ISSN  0305-1048. PMC 1347511 . PMID  16381856. 
  23. ^ Boeckmann, Brigitte; Blatter, Marie-Claude; Famiglietti, Livia; Hinz, Ursula; Lane, Lydie; Roechert, Bernd; Bairoch, Amos (1 de noviembre de 2005). "Variedad de proteínas y diversidad funcional: anotación Swiss-Prot en su contexto biológico". Comptes Rendus Biologies . 328 (10–11): 882–899. doi :10.1016/j.crvi.2005.06.001. ISSN  1631-0691. PMID  16286078.
  24. ^ Madera, Martin (15 de noviembre de 2008). "Profile Comparer: un programa para puntuar y alinear modelos ocultos de Markov". Bioinformática . 24 (22): 2630–2631. doi :10.1093/bioinformatics/btn504. ISSN  1367-4803. PMC 2579712 . PMID  18845584. 
  25. ^ Mudgal, Richa; Sandhya, Sankaran; Chandra, Nagasuma; Srinivasan, Narayanaswamy (31 de julio de 2015). "Des-DUFing the DUFs: descifrando relaciones evolutivas distantes de dominios de función desconocida utilizando métodos sensibles de detección de homología". Biology Direct . 10 (1): 38. doi : 10.1186/s13062-015-0069-2 . PMC 4520260 . PMID  26228684. 
  26. ^ Nasir, Arshan; Caetano-Anollés, Gustavo (2013). "El análisis comparativo de proteomas y funcionomas proporciona información sobre los orígenes de la diversificación celular". Archaea . 2013 : 648746. doi : 10.1155/2013/648746 . PMC 3892558 . PMID  24492748. 

Enlaces externos