stringtranslate.com

Base de datos de superfamilias

SUPERFAMILY es una base de datos y plataforma de búsqueda de anotaciones estructurales y funcionales para todas las proteínas y genomas. [1] [2] [3] [4] [5] [6] [7] Clasifica secuencias de aminoácidos en dominios estructurales conocidos , especialmente en superfamilias SCOP . [8] [9] Los dominios son unidades funcionales, estructurales y evolutivas que forman proteínas. Los dominios de ascendencia común se agrupan en superfamilias. Los dominios y superfamilias de dominios se definen y describen en SCOP. [8] [10] Las superfamilias son grupos de proteínas que tienen evidencia estructural que respalda un ancestro evolutivo común pero que pueden no tener una homología de secuencia detectable . [11]

Anotaciones

La anotación SUPERFAMILIA se basa en una colección de modelos ocultos de Markov (HMM), que representan dominios de proteínas estructurales en el nivel de superfamilia SCOP . [12] [13] Una superfamilia agrupa dominios que tienen una relación evolutiva . La anotación se produce escaneando secuencias de proteínas de genomas completamente secuenciados frente a los modelos ocultos de Markov.

Para cada proteína puedes:

Para cada genoma puedes:

Para cada superfamilia puedes:

Todas las anotaciones, los modelos y el volcado de la base de datos están disponibles gratuitamente para que todos los descarguen.

Características

Búsqueda de secuencia

Envíe una secuencia de proteína o ADN para la clasificación a nivel de familia y superfamilia SCOP utilizando los HMM SUPERFAMILY. Las secuencias se pueden enviar mediante entrada sin formato o cargando un archivo, pero todas deben estar en formato FASTA . Las secuencias pueden ser aminoácidos, una secuencia de nucleótidos de marco fijo o todos los marcos de una secuencia de nucleótidos enviada. Se pueden ejecutar hasta 1000 secuencias a la vez.

Búsqueda por palabra clave

Busque en la base de datos utilizando un nombre de superfamilia, familia o especie más una secuencia, SCOP, PDB o HMM ID. Una búsqueda exitosa arroja la clase, los pliegues, las superfamilias, las familias y las proteínas individuales que coinciden con la consulta.

Asignaciones de dominio

La base de datos tiene asignaciones de dominio, alineamientos y arquitecturas para secuenciar completamente organismos eucariotas y procarióticos, además de colecciones de secuencias.

Herramientas de genómica comparada

Explore superfamilias y familias inusuales (sobrerrepresentadas y subrepresentadas), listas y gráficos de pares de dominios adyacentes, pares de dominios únicos, combinaciones de dominios, redes de coocurrencia de arquitectura de dominios y distribución de dominios en reinos taxonómicos para cada organismo.

Estadísticas del genoma

Para cada genoma: número de secuencias, número de secuencias con asignación, porcentaje de secuencias con asignación, porcentaje de cobertura total de secuencia, número de dominios asignados, número de superfamilias asignadas, número de familias asignadas, tamaño promedio de superfamilia, porcentaje producido por duplicación, promedio longitud de secuencia, longitud promedio coincidente, número de pares de dominios y número de arquitecturas de dominio únicas.

Ontología de genes

Ontología genética (GO) centrada en el dominio anotada automáticamente.

Debido a la creciente brecha entre las proteínas secuenciadas y las funciones conocidas de las proteínas, cada vez es más importante desarrollar un método más automatizado para anotar funcionalmente proteínas, especialmente para proteínas con dominios conocidos. SUPERFAMILY utiliza anotaciones GO a nivel de proteína tomadas del proyecto Genome Ontology Annotation (GOA), que ofrece anotaciones GO de alta calidad directamente asociadas a proteínas en UniprotKB en un amplio espectro de especies. [15] SUPERFAMILY ha generado anotaciones GO para dominios evolutivamente cerrados (a nivel de familia SCOP) y dominios distantes (a nivel de superfamilia SCOP).

Ontología de fenotipo

Ontología de fenotipo /anatomía centrada en el dominio , que incluye ontología de enfermedades, fenotipo humano, fenotipo de ratón, fenotipo de gusano, fenotipo de levadura, fenotipo de mosca, anatomía de mosca, anatomía del pez cebra, anatomía de Xenopus y planta Arabidopsis.

Anotación de superfamilia

Resúmenes de InterPro para más de 1000 superfamilias y anotaciones de Gene Ontology (GO) para más de 700 superfamilias. Esta característica permite la anotación directa de características, funciones y estructuras clave de una superfamilia.

Anotación funcional

Anotación funcional de superfamilias SCOP 1.73.

La base de datos SUPERFAMILY utiliza un esquema de 50 categorías de funciones detalladas que se asignan a 7 categorías de funciones generales, similar al esquema utilizado en la base de datos COG. [16] Se utilizó una función general asignada a una superfamilia para reflejar la función principal de esa superfamilia. Las categorías generales de función son:

  1. Información: almacenamiento, mantenimiento del código genético; replicación y reparación del ADN; transcripción y traducción generales .
  2. Regulación: Regulación de la expresión génica y actividad proteica; procesamiento de información en respuesta a aportes ambientales; transducción de señales ; actividad reguladora o receptora general.
  3. Metabolismo : Procesos anabólicos y catabólicos ; mantenimiento celular y homeostasis ; Metabolismo secundario.
  4. Procesos intracelulares: motilidad y división celular; muerte celular ; transporte intracelular ; secreción .
  5. Procesos extracelulares: procesos intercelulares y extracelulares como la adhesión celular; Procesos orgánicos como la coagulación de la sangre o el sistema inmunológico.
  6. General: Funciones generales y múltiples; interacciones con proteínas , lípidos , moléculas pequeñas e iones .
  7. Otro/Desconocido: una función desconocida, proteínas virales o toxinas .

Cada superfamilia de dominio en las clases SCOP a a g se anotó manualmente utilizando este esquema [17] [18] [19] y la información utilizada fue proporcionada por SCOP , [10] InterPro , [20] [21] Pfam , [22] Swiss Prot , [23] y diversas fuentes bibliográficas.

Árboles filogenéticos

Cree árboles filogenéticos personalizados seleccionando 3 o más genomas disponibles en el sitio SUPERFAMILY. Los árboles se generan utilizando métodos heurísticos de parsimonia y se basan en datos de arquitectura de dominios de proteínas para todos los genomas de SUPERFAMILIA. Las combinaciones de genomas, o clados específicos, se pueden mostrar como árboles individuales.

Arquitecturas de dominio similares

Esta característica permite al usuario encontrar las 10 arquitecturas de dominio que son más similares a la arquitectura de dominio de interés.

Modelos ocultos de Markov

Produzca asignaciones de dominio SCOP para una secuencia utilizando los modelos ocultos de Markov de SUPERFAMILIA .

Comparación de perfiles

Encuentre coincidencias de dominios remotos cuando la búsqueda HMM no encuentre una coincidencia significativa. Se utiliza la comparación de perfiles (PRC) [24] para alinear y calificar dos HMM de perfil.

Servicios web

Servidor de anotaciones distribuido y enlace a SUPERFAMILIA.

Descargas

Secuencias, asignaciones, modelos, base de datos MySQL y scripts: actualizados semanalmente.

Uso en investigación

La base de datos SUPERFAMILY tiene numerosas aplicaciones de investigación y ha sido utilizada por muchos grupos de investigación para diversos estudios. Puede servir como base de datos para proteínas que el usuario desea examinar con otros métodos o para asignar una función y estructura a una proteína nueva o no caracterizada. Un estudio encontró que SUPERFAMILY es muy hábil en asignar correctamente una función y estructura apropiadas a una gran cantidad de dominios de función desconocida comparándolos con los modelos ocultos de Markov de las bases de datos. [25] Otro estudio utilizó SUPERFAMILY para generar un conjunto de datos de 1.733 dominios de superfamilia (FSF) en el uso de una comparación de proteomas y funcionalomas para identificar el origen de la diversificación celular. [26]

Referencias

  1. ^ Wilson, D; Pethica, R; Zhou, Y; Talbot, C; Vogel, C ; Madera, M; Chothia, C ; Gough, J (enero de 2009). "SUPERFAMILIA: genómica comparativa sofisticada, extracción de datos, visualización y filogenia". Investigación de ácidos nucleicos . 37 (Problema de base de datos): D380-6. doi :10.1093/NAR/GKN762. ISSN  0305-1048. PMC 2686452 . PMID  19036790. Wikidata  Q26781958. 
  2. ^ Madera, Martín; Vogel, Cristina; Kummerfeld, Sarah K.; Chotía, Ciro; Gough, Julián (1 de enero de 2004). "La base de datos SUPERFAMILY en 2004: incorporaciones y mejoras". Investigación de ácidos nucleicos . 32 (suplemento 1): D235 – D239. doi : 10.1093/nar/gkh117. ISSN  0305-1048. PMC 308851 . PMID  14681402. 
  3. ^ Wilson, D.; Madera, M.; Vogel, C.; Chothia, C .; Gough, J. (2007). "La base de datos SUPERFAMILIA en 2007: Familias y funciones". Investigación de ácidos nucleicos . 35 (Problema de la base de datos): D308 – D313. doi :10.1093/nar/gkl910. PMC 1669749 . PMID  17098927. 
  4. ^ Gough, J. (2002). "La base de datos SUPERFAMILY en genómica estructural". Acta Crystallographica Sección D. 58 (parte 11): 1897–1900. doi : 10.1107/s0907444902015160 . PMID  12393919.
  5. ^ Gough, J .; Chothia, C. (2002). "SUPERFAMILIA: HMM que representan todas las proteínas de estructura conocida. Búsquedas de secuencias SCOP, alineamientos y asignaciones de genoma". Investigación de ácidos nucleicos . 30 (1): 268–272. doi :10.1093/nar/30.1.268. PMC 99153 . PMID  11752312. 
  6. ^ ab De Lima Morais, DA; Colmillo, H.; Rackham, OJL; Wilson, D.; Petica, R.; Chothia, C .; Gough, J. (2010). "SUPERFAMILY 1.75 que incluye un método de ontología genética centrado en el dominio". Investigación de ácidos nucleicos . 39 (Problema de la base de datos): D427–D434. doi : 10.1093/nar/gkq1130. PMC 3013712 . PMID  21062816. 
  7. ^ Oates, YO; Stahlhacke, J; Vavoulis, DV; Smithers, B; Rackham, DO; Sardar, AJ; Zaucha, J; Thurby, N; Colmillo, H; Gough, J (2015). "La base de datos SUPERFAMILY 1.75 en 2014: duplicación de datos". Investigación de ácidos nucleicos . 43 (Problema de la base de datos): D227–33. doi : 10.1093/nar/gku1041. PMC 4383889 . PMID  25414345. 
  8. ^ ab Hubbard, TJ ; Ailey, B.; Brenner, SE ; Murzin, AG; Chothia, C. (1999). "SCOP: una base de datos de clasificación estructural de proteínas". Investigación de ácidos nucleicos . 27 (1): 254–256. doi :10.1093/nar/27.1.254. PMC 148149 . PMID  9847194. 
  9. ^ Lo Conte, L.; Ailey, B.; Hubbard, TJ; Brenner, SE; Murzin, AG; Chotia, C. (2000). "SCOP: una base de datos de clasificación estructural de proteínas". Investigación de ácidos nucleicos . 28 (1): 257–259. doi :10.1093/nar/28.1.257. PMC 102479 . PMID  10592240. 
  10. ^ ab Andreeva, Antonina; Howorth, Dave; Brenner, Steven E.; Hubbard, Tim JP; Chotía, Ciro; Murzin, Alexey G. (1 de enero de 2004). "Base de datos SCOP en 2004: las mejoras integran datos de familias de secuencias y estructuras". Investigación de ácidos nucleicos . 32 (Problema de la base de datos): D226 – D229. doi : 10.1093/nar/gkh039. ISSN  0305-1048. PMC 308773 . PMID  14681400. 
  11. ^ Dayhoff, Missouri; McLaughlin, PJ; Barker, WC; Cazar, LT (1 de abril de 1975). "Evolución de secuencias dentro de superfamilias de proteínas". Naturwissenschaften . 62 (4): 154-161. Código bibliográfico : 1975NW.....62..154D. doi :10.1007/BF00608697. ISSN  0028-1042. S2CID  40304076.
  12. ^ Gough, J.; Karplus, K.; Hughey, R.; Chothia, C. (2001). "Asignación de homología a secuencias del genoma utilizando una biblioteca de modelos ocultos de Markov que representan todas las proteínas de estructura conocida1". Revista de biología molecular . 313 (4): 903–919. CiteSeerX 10.1.1.144.6577 . doi :10.1006/jmbi.2001.5080. PMID  11697912. 
  13. ^ Karplus, K.; Barrett, C.; Hughey, R. (1 de enero de 1998). "Modelos ocultos de Markov para detectar homologías de proteínas remotas". Bioinformática . 14 (10): 846–856. doi : 10.1093/bioinformática/14.10.846 . ISSN  1367-4803. PMID  9927713.
  14. ^ Botstein, D .; Cereza, JM; Ashburner, M .; Bola, California; Blake, JA; Mayordomo, H.; Davis, AP; Dolinski, K.; Dwight, SS; Eppig, JT; Harris, MA; Hill, DP; Issel-Tarver, L.; Kasarskis, A.; Lewis, S .; Matese, JC; Richardson, JE; Ringwald, M.; Rubin, GM ; Sherlock, G. (2000). "Ontología genética: herramienta para la unificación de la biología. El Consorcio de Ontología Genética". Genética de la Naturaleza . 25 (1): 25-29. doi :10.1038/75556. PMC 3037419 . PMID  10802651.  Icono de acceso abierto
  15. ^ Barril, Daniel; Más tenue, Emily; Huntley, Rachael P.; Binns, David; O'Donovan, Claire; Apweiler, Rolf (1 de enero de 2009). "La base de datos GOA en 2009: un recurso integrado de anotación de ontología genética". Investigación de ácidos nucleicos . 37 (suplemento 1): D396–D403. doi : 10.1093/nar/gkn803. ISSN  0305-1048. PMC 2686469 . PMID  18957448. 
  16. ^ Tatusov, Roman L; Fedorova, Natalie D; Jackson, John D; Jacobs, Aviva R; Kiryutin, Boris; Koonin, Eugenio V; Krylov, Dmitri M; Mazumder, Raja; Mekhedov, Sergei L (11 de septiembre de 2003). "La base de datos COG: una versión actualizada incluye eucariotas". Bioinformática BMC . 4 : 41. doi : 10.1186/1471-2105-4-41 . ISSN  1471-2105. PMC 222959 . PMID  12969510. 
  17. ^ Vogel, Cristina; Berzuini, Carlo; Bashton, Mateo; Gough, Julián; Teichmann, Sarah A. (20 de febrero de 2004). "Supradominios: unidades evolutivas más grandes que dominios proteicos individuales". Revista de biología molecular . 336 (3): 809–823. CiteSeerX 10.1.1.116.6568 . doi :10.1016/j.jmb.2003.12.026. ISSN  0022-2836. PMID  15095989. 
  18. ^ Vogel, Cristina; Teichmann, Sarah A.; Pereira-Leal, José (11 de febrero de 2005). "La relación entre duplicación y recombinación de dominios". Revista de biología molecular . 346 (1): 355–365. doi :10.1016/j.jmb.2004.11.050. ISSN  0022-2836. PMID  15663950.
  19. ^ Vogel, Cristina; Chothia, Ciro (1 de mayo de 2006). "Expansiones de la familia de proteínas y complejidad biológica". PLOS Biología Computacional . 2 (5): e48. Código Bib : 2006PLSCB...2...48V. doi : 10.1371/journal.pcbi.0020048 . ISSN  1553-734X. PMC 1464810 . PMID  16733546. 
  20. ^ Mulder, Nicola J.; Apweiler, Rolf; Attwood, Teresa K.; Bairoch, Amós; Barril, Daniel; Bateman, Alex; Binns, David; Biswas, Margarita; Bradley, Paul (1 de enero de 2003). "La base de datos InterPro, 2003 ofrece una mayor cobertura y nuevas funciones". Investigación de ácidos nucleicos . 31 (1): 315–318. doi :10.1093/nar/gkg046. ISSN  0305-1048. PMC 165493 . PMID  12520011. 
  21. ^ Mulder, Nicola J.; Apweiler, Rolf; Attwood, Teresa K.; Bairoch, Amós; Bateman, Alex; Binns, David; Bradley, Pablo; Bork, compañero; Bucher, Phillip (1 de enero de 2005). "InterPro, avances y situación en 2005". Investigación de ácidos nucleicos . 33 (Problema de la base de datos): D201–D205. doi : 10.1093/nar/gki106. ISSN  0305-1048. PMC 540060 . PMID  15608177. 
  22. ^ Finn, Robert D.; Mistry, Jaina; Schuster-Böckler, Benjamin; Griffiths-Jones, Sam; Hollich, Volker; Lassmann, Timo; Moxón, Simón; Marshall, Mhairi; Khanna, Ajay (1 de enero de 2006). "Pfam: clanes, herramientas y servicios web". Investigación de ácidos nucleicos . 34 (Problema de la base de datos): D247 – D251. doi : 10.1093/nar/gkj149. ISSN  0305-1048. PMC 1347511 . PMID  16381856. 
  23. ^ Boeckmann, Brigitte; Blatter, Marie-Claude; Famiglietti, Livia; Hinz, Úrsula; Carril, Lydie; Roechert, Bernd; Bairoch, Amós (1 de noviembre de 2005). "Variedad de proteínas y diversidad funcional: anotación Swiss-Prot en su contexto biológico". Comptes Rendus Biologías . 328 (10–11): 882–899. doi :10.1016/j.crvi.2005.06.001. ISSN  1631-0691. PMID  16286078.
  24. ^ Madera, Martín (15 de noviembre de 2008). "Profile Comparer: un programa para puntuar y alinear modelos de Markov ocultos de perfiles". Bioinformática . 24 (22): 2630–2631. doi : 10.1093/bioinformática/btn504. ISSN  1367-4803. PMC 2579712 . PMID  18845584. 
  25. ^ Mudgal, Richa; Sandhya, Sankaran; Chandra, Nagasuma; Srinivasan, Narayanaswamy (31 de julio de 2015). "De-DUFing the DUFs: Descifrando relaciones evolutivas distantes de dominios de función desconocida utilizando métodos sensibles de detección de homología". Biología Directa . 10 (1): 38. doi : 10.1186/s13062-015-0069-2 . PMC 4520260 . PMID  26228684. 
  26. ^ Nasir, Arshan; Caetano-Anollés, Gustavo (2013). "El análisis comparativo de proteomas y funcionesomas proporciona información sobre los orígenes de la diversificación celular". Arqueas . 2013 : 648746. doi : 10.1155/2013/648746 . PMC 3892558 . PMID  24492748. 

enlaces externos