Base de datos de superfamilias

SUPERFAMILY es una base de datos y plataforma de búsqueda de anotación estructural y funcional para todas las proteínas y genomas. ^[1]^[2]^[3]^[4]^[5]^[6]^[7] Clasifica secuencias de aminoácidos en dominios estructurales conocidos , especialmente en superfamilias SCOP . ^[8]^[9] Los dominios son unidades funcionales, estructurales y evolutivas que forman proteínas. Los dominios de ascendencia común se agrupan en superfamilias. Los dominios y las superfamilias de dominios se definen y describen en SCOP. ^[8]^[10] Las superfamilias son grupos de proteínas que tienen evidencia estructural para respaldar un ancestro evolutivo común, pero pueden no tener homología de secuencia detectable . ^[11]

Anotaciones

La anotación SUPERFAMILY se basa en una colección de modelos ocultos de Markov (HMM), que representan dominios proteicos estructurales a nivel de superfamilia SCOP . ^[12]^[13] Una superfamilia agrupa dominios que tienen una relación evolutiva . La anotación se produce escaneando secuencias proteicas de genomas completamente secuenciados contra los modelos ocultos de Markov.

Para cada proteína puedes:

Enviar secuencias para clasificación SCOP
Ver la organización del dominio, las alineaciones de secuencias y los detalles de la secuencia de proteínas

Para cada genoma puedes:

Examinar asignaciones de superfamilias, árboles filogenéticos , listas de organización de dominios y redes.
Comprobar si hay superfamilias sobrerrepresentadas o subrepresentadas dentro de un genoma

Para cada superfamilia puedes:

Inspeccione la clasificación SCOP, la anotación funcional, la anotación de ontología genética , ^[6]^[14] asignaciones abstractas y de genoma de InterPro
Explorar la distribución taxonómica de una superfamilia a lo largo del árbol de la vida

Todas las anotaciones, modelos y el volcado de la base de datos están disponibles para su descarga gratuita para todos.

Características

Búsqueda de secuencias

Envíe una secuencia de proteína o ADN para la clasificación a nivel de superfamilia y familia de SCOP utilizando los HMM de SUPERFAMILIA. Las secuencias se pueden enviar ya sea como entrada sin procesar o cargando un archivo, pero todas deben estar en formato FASTA . Las secuencias pueden ser aminoácidos, una secuencia de nucleótidos de marco fijo o todos los marcos de una secuencia de nucleótidos enviada. Se pueden ejecutar hasta 1000 secuencias a la vez.

Búsqueda por palabra clave

Busque en la base de datos utilizando el nombre de una superfamilia, familia o especie más una secuencia, un identificador SCOP, PDB o HMM. Una búsqueda exitosa arrojará la clase, los pliegues, las superfamilias, las familias y las proteínas individuales que coincidan con la consulta.

Asignaciones de dominio

La base de datos tiene asignaciones de dominio, alineaciones y arquitecturas para organismos eucariotas y procariotas completamente secuenciados, además de colecciones de secuencias.

Herramientas de genómica comparativa

Explore superfamilias y familias inusuales (sobrerrepresentadas y subrepresentadas), listas y gráficos de pares de dominios adyacentes, pares de dominios únicos, combinaciones de dominios, redes de coocurrencia de arquitectura de dominios y distribución de dominios en los reinos taxonómicos para cada organismo.

Estadísticas del genoma

Para cada genoma: número de secuencias, número de secuencias con asignación, porcentaje de secuencias con asignación, porcentaje de cobertura total de secuencia, número de dominios asignados, número de superfamilias asignadas, número de familias asignadas, tamaño promedio de superfamilia, porcentaje producido por duplicación, longitud promedio de secuencia, longitud promedio coincidente, número de pares de dominios y número de arquitecturas de dominios únicas.

Ontología genética

Ontología genética centrada en el dominio (GO) anotada automáticamente.

Debido a la creciente brecha entre las proteínas secuenciadas y las funciones conocidas de las proteínas, se está volviendo cada vez más importante desarrollar un método más automatizado para anotar funcionalmente las proteínas, especialmente para las proteínas con dominios conocidos. SUPERFAMILY utiliza anotaciones GO a nivel de proteína tomadas del proyecto Genome Ontology Annotation (GOA), que ofrece anotaciones GO de alta calidad directamente asociadas a las proteínas en UniprotKB en un amplio espectro de especies. ^[15] SUPERFAMILY ha generado anotaciones GO para dominios evolutivamente cerrados (a nivel de la familia SCOP) y dominios distantes (a nivel de la superfamilia SCOP).

Ontología del fenotipo

Ontología de fenotipo /anatomía centrada en el dominio que incluye ontología de enfermedades, fenotipo humano, fenotipo de ratón, fenotipo de gusano, fenotipo de levadura, fenotipo de mosca, anatomía de mosca, anatomía de pez cebra, anatomía de Xenopus y planta Arabidopsis.

Anotación de superfamilia

Resúmenes de InterPro para más de 1000 superfamilias y anotaciones de Gene Ontology (GO) para más de 700 superfamilias. Esta función permite la anotación directa de características, funciones y estructuras clave de una superfamilia.

Anotación funcional

Anotación funcional de las superfamilias SCOP 1.73.

La base de datos SUPERFAMILY utiliza un esquema de 50 categorías de funciones detalladas que se asignan a 7 categorías de funciones generales, similar al esquema utilizado en la base de datos COG. ^[16] Se utilizó una función general asignada a una superfamilia para reflejar la función principal de esa superfamilia. Las categorías generales de función son:

Información: almacenamiento, mantenimiento del código genético; replicación y reparación del ADN; transcripción y traducción general .
Regulación: Regulación de la expresión genética y de la actividad proteica; procesamiento de la información en respuesta a estímulos ambientales; transducción de señales ; actividad reguladora o receptora general.
Metabolismo : Procesos anabólicos y catabólicos ; mantenimiento celular y homeostasis ; metabolismo secundario.
Procesos intracelulares: motilidad y división celular; muerte celular ; transporte intracelular ; secreción .
Procesos extracelulares: procesos inter y extracelulares como la adhesión celular; procesos organismales como la coagulación sanguínea o el sistema inmunológico.
General: Funciones generales y múltiples; interacciones con proteínas , lípidos , moléculas pequeñas e iones .
Otro/Desconocido: una función desconocida, proteínas virales o toxinas .

Cada superfamilia de dominios en las clases SCOP a a g se anotó manualmente utilizando este esquema ^[17]^[18]^[19] y la información utilizada fue proporcionada por SCOP , ^[10] InterPro , ^[20]^[21] Pfam , ^[22] Swiss Prot , ^[23] y varias fuentes bibliográficas.

Árboles filogenéticos

Cree árboles filogenéticos personalizados seleccionando 3 o más genomas disponibles en el sitio SUPERFAMILY. Los árboles se generan mediante métodos de parsimonia heurística y se basan en datos de arquitectura de dominios proteicos para todos los genomas en SUPERFAMILY. Las combinaciones de genomas o clados específicos se pueden mostrar como árboles individuales.

Arquitecturas de dominios similares

Esta función permite al usuario encontrar las 10 arquitecturas de dominio que son más similares a la arquitectura de dominio de interés.

Modelos ocultos de Markov

Producir asignaciones de dominio SCOP para una secuencia utilizando los modelos de Markov ocultos SUPERFAMILY .

Comparación de perfiles

Busque coincidencias de dominios remotos cuando la búsqueda de HMM no encuentre una coincidencia significativa. Se utiliza la comparación de perfiles (PRC) ^[24] para alinear y puntuar dos HMM de perfil.

Servicios web

Servidor de anotación distribuido y enlace a SUPERFAMILY.

Descargas

Secuencias, asignaciones, modelos, base de datos MySQL y scripts: actualizados semanalmente.

Uso en investigación

La base de datos SUPERFAMILY tiene numerosas aplicaciones de investigación y ha sido utilizada por muchos grupos de investigación para diversos estudios. Puede servir como base de datos para proteínas que el usuario desea examinar con otros métodos, o para asignar una función y estructura a una proteína nueva o no caracterizada. Un estudio descubrió que SUPERFAMILY era muy hábil para asignar correctamente una función y estructura apropiadas a una gran cantidad de dominios de función desconocida al compararlos con los modelos ocultos de Markov de la base de datos. ^[25] Otro estudio utilizó SUPERFAMILY para generar un conjunto de datos de 1733 dominios de superfamilias Fold (FSF) mediante una comparación de proteomas y funcionomas para identificar el origen de la diversificación celular. ^[26]

Referencias

^ Wilson, D; Pethica, R; Zhou, Y; Talbot, C; Vogel, C ; Madera, M; Chothia, C ; Gough, J (enero de 2009). "SUPERFAMILIA: genómica comparativa sofisticada, minería de datos, visualización y filogenia". Nucleic Acids Research . 37 (número de base de datos): D380-6. doi :10.1093/NAR/GKN762. ISSN 0305-1048. PMC 2686452 . PMID 19036790. Wikidata Q26781958.
^ Madera, Martin; Vogel, Christine; Kummerfeld, Sarah K.; Chothia, Cyrus; Gough, Julian (1 de enero de 2004). "La base de datos SUPERFAMILY en 2004: adiciones y mejoras". Nucleic Acids Research . 32 (suppl 1): D235–D239. doi :10.1093/nar/gkh117. ISSN 0305-1048. PMC 308851 . PMID 14681402.
^ Wilson, D.; Madera, M.; Vogel, C.; Chothia, C .; Gough, J. (2007). "La base de datos SUPERFAMILY en 2007: familias y funciones". Nucleic Acids Research . 35 (número de la base de datos): D308–D313. doi :10.1093/nar/gkl910. PMC 1669749 . PMID 17098927.
^ Gough, J. (2002). "La base de datos SUPERFAMILY en genómica estructural". Acta Crystallographica Sección D . 58 (Pt 11): 1897–1900. doi : 10.1107/s0907444902015160 . PMID 12393919.
^ Gough, J. ; Chothia, C. (2002). "SUPERFAMILIA: HMM que representan todas las proteínas de estructura conocida. Búsquedas de secuencias SCOP, alineaciones y asignaciones de genoma". Nucleic Acids Research . 30 (1): 268–272. doi :10.1093/nar/30.1.268. PMC 99153 . PMID 11752312.
^ ab De Lima Morais, DA; Fang, H.; Rackham, OJL; Wilson, D.; Pethica, R.; Chothia, C. ; Gough, J. (2010). "SUPERFAMILY 1.75 incluyendo un método de ontología génica centrado en el dominio". Nucleic Acids Research . 39 (número de base de datos): D427–D434. doi :10.1093/nar/gkq1130. PMC 3013712 . PMID 21062816.
^ Oates, ME; Stahlhacke, J; Vavoulis, DV; Smithers, B; Rackham, OJ; Sardar, AJ; Zaucha, J; Thurlby, N; Fang, H; Gough, J (2015). "La base de datos SUPERFAMILY 1.75 en 2014: una duplicación de los datos". Nucleic Acids Research . 43 (número de la base de datos): D227–33. doi :10.1093/nar/gku1041. PMC 4383889 . PMID 25414345.
^ ab Hubbard, TJ ; Ailey, B.; Brenner, SE ; Murzin, AG; Chothia, C. (1999). "SCOP: una base de datos de clasificación estructural de proteínas". Investigación de ácidos nucleicos . 27 (1): 254–256. doi :10.1093/nar/27.1.254. PMC 148149 . PMID 9847194.
^ Lo Conte, L.; Ailey, B.; Hubbard, TJ; Brenner, SE; Murzin, AG; Chotia, C. (2000). "SCOP: una base de datos de clasificación estructural de proteínas". Investigación de ácidos nucleicos . 28 (1): 257–259. doi :10.1093/nar/28.1.257. PMC 102479 . PMID 10592240.
^ ab Andreeva, Antonina; Howorth, Dave; Brenner, Steven E.; Hubbard, Tim JP; Chothia, Cyrus; Murzin, Alexey G. (1 de enero de 2004). "Base de datos SCOP en 2004: los refinamientos integran datos de familia de secuencias y estructura". Nucleic Acids Research . 32 (número de la base de datos): D226–D229. doi :10.1093/nar/gkh039. ISSN 0305-1048. PMC 308773 . PMID 14681400.
^ Dayhoff, Missouri; McLaughlin, PJ; Barker, WC; Cazar, LT (1 de abril de 1975). "Evolución de secuencias dentro de superfamilias de proteínas". Naturwissenschaften . 62 (4): 154-161. Código bibliográfico : 1975NW.....62..154D. doi :10.1007/BF00608697. ISSN 0028-1042. S2CID 40304076.
^ Gough, J.; Karplus, K.; Hughey, R.; Chothia, C. (2001). "Asignación de homología a secuencias genómicas utilizando una biblioteca de modelos ocultos de Markov que representan todas las proteínas de estructura conocida1". Journal of Molecular Biology . 313 (4): 903–919. CiteSeerX 10.1.1.144.6577 . doi :10.1006/jmbi.2001.5080. PMID 11697912.
^ Karplus, K.; Barrett, C.; Hughey, R. (1 de enero de 1998). "Modelos ocultos de Markov para detectar homologías de proteínas remotas". Bioinformática . 14 (10): 846–856. doi : 10.1093/bioinformatics/14.10.846 . ISSN 1367-4803. PMID 9927713.
^ Botstein, D .; Cherry, JM; Ashburner, M .; Ball, CA; Blake, JA; Butler, H.; Davis, AP; Dolinski, K.; Dwight, SS; Eppig, JT; Harris, MA; Hill, DP; Issel-Tarver, L.; Kasarskis, A.; Lewis, S .; Matese, JC; Richardson, JE; Ringwald, M.; Rubin, GM ; Sherlock, G. (2000). "Ontología genética: herramienta para la unificación de la biología. El Consorcio de Ontología Genética". Nature Genetics . 25 (1): 25–29. doi :10.1038/75556. PMC 3037419 . PMID 10802651.
^ Barrell, Daniel; Dimmer, Emily; Huntley, Rachael P.; Binns, David; O'Donovan, Claire; Apweiler, Rolf (1 de enero de 2009). "La base de datos GOA en 2009: un recurso integrado de anotación de ontologías genéticas". Nucleic Acids Research . 37 (suppl 1): D396–D403. doi :10.1093/nar/gkn803. ISSN 0305-1048. PMC 2686469 . PMID 18957448.
^ Tatusov, Roman L; Fedorova, Natalie D; Jackson, John D; Jacobs, Aviva R; Kiryutin, Boris; Koonin, Eugene V; Krylov, Dmitri M; Mazumder, Raja; Mekhedov, Sergei L (11 de septiembre de 2003). "La base de datos COG: una versión actualizada que incluye eucariotas". BMC Bioinformatics . 4 : 41. doi : 10.1186/1471-2105-4-41 . ISSN 1471-2105. PMC 222959 . PMID 12969510.
^ Vogel, Christine; Berzuini, Carlo; Bashton, Matthew; Gough, Julian; Teichmann, Sarah A. (20 de febrero de 2004). "Supradominios: unidades evolutivas más grandes que los dominios proteicos individuales". Revista de biología molecular . 336 (3): 809–823. CiteSeerX 10.1.1.116.6568 . doi :10.1016/j.jmb.2003.12.026. ISSN 0022-2836. PMID 15095989.
^ Vogel, Christine; Teichmann, Sarah A.; Pereira-Leal, Jose (11 de febrero de 2005). "La relación entre la duplicación de dominios y la recombinación". Revista de Biología Molecular . 346 (1): 355–365. doi :10.1016/j.jmb.2004.11.050. ISSN 0022-2836. PMID 15663950.
^ Vogel, Christine; Chothia, Cyrus (1 de mayo de 2006). "Expansiones de familias de proteínas y complejidad biológica". PLOS Computational Biology . 2 (5): e48. Bibcode :2006PLSCB...2...48V. doi : 10.1371/journal.pcbi.0020048 . ISSN 1553-734X. PMC 1464810 . PMID 16733546.
^ Mulder, Nicola J.; Apweiler, Rolf; Attwood, Teresa K.; Bairoch, Amos; Barrell, Daniel; Bateman, Alex; Binns, David; Biswas, Margaret; Bradley, Paul (1 de enero de 2003). "La base de datos InterPro, 2003, aporta una mayor cobertura y nuevas características". Nucleic Acids Research . 31 (1): 315–318. doi :10.1093/nar/gkg046. ISSN 0305-1048. PMC 165493 . PMID 12520011.
^ Mulder, Nicola J.; Apweiler, Rolf; Attwood, Teresa K.; Bairoch, Amos; Bateman, Alex; Binns, David; Bradley, Paul; Bork, Peer; Bucher, Phillip (1 de enero de 2005). "InterPro, progreso y estado en 2005". Nucleic Acids Research . 33 (Número de la base de datos): D201–D205. doi :10.1093/nar/gki106. ISSN 0305-1048. PMC 540060 . PMID 15608177.
^ Finn, Robert D.; Mistry, Jaina; Schuster-Böckler, Benjamin; Griffiths-Jones, Sam; Hollich, Volker; Lassmann, Timo; Moxon, Simon; Marshall, Mhairi; Khanna, Ajay (1 de enero de 2006). "Pfam: clanes, herramientas web y servicios". Nucleic Acids Research . 34 (número de la base de datos): D247–D251. doi :10.1093/nar/gkj149. ISSN 0305-1048. PMC 1347511 . PMID 16381856.
^ Boeckmann, Brigitte; Blatter, Marie-Claude; Famiglietti, Livia; Hinz, Ursula; Lane, Lydie; Roechert, Bernd; Bairoch, Amos (1 de noviembre de 2005). "Variedad de proteínas y diversidad funcional: anotación Swiss-Prot en su contexto biológico". Comptes Rendus Biologies . 328 (10–11): 882–899. doi :10.1016/j.crvi.2005.06.001. ISSN 1631-0691. PMID 16286078.
^ Madera, Martin (15 de noviembre de 2008). "Profile Comparer: un programa para puntuar y alinear modelos ocultos de Markov". Bioinformática . 24 (22): 2630–2631. doi :10.1093/bioinformatics/btn504. ISSN 1367-4803. PMC 2579712 . PMID 18845584.
^ Mudgal, Richa; Sandhya, Sankaran; Chandra, Nagasuma; Srinivasan, Narayanaswamy (31 de julio de 2015). "Des-DUFing the DUFs: descifrando relaciones evolutivas distantes de dominios de función desconocida utilizando métodos sensibles de detección de homología". Biology Direct . 10 (1): 38. doi : 10.1186/s13062-015-0069-2 . PMC 4520260 . PMID 26228684.
^ Nasir, Arshan; Caetano-Anollés, Gustavo (2013). "El análisis comparativo de proteomas y funcionomas proporciona información sobre los orígenes de la diversificación celular". Archaea . 2013 : 648746. doi : 10.1155/2013/648746 . PMC 3892558 . PMID 24492748.

Enlaces externos

Base de datos SUPERFAMILIA
SCOP: Clasificación estructural de proteínas