stringtranslate.com

Base de datos de clasificación estructural de proteínas

La base de datos de Clasificación Estructural de Proteínas (SCOP) es una clasificación en gran parte manual de los dominios estructurales de las proteínas basada en las similitudes de sus estructuras y secuencias de aminoácidos . Una motivación para esta clasificación es determinar la relación evolutiva entre las proteínas. Las proteínas con las mismas formas pero que tienen poca similitud de secuencia o funcional se colocan en diferentes superfamilias y se supone que solo tienen un ancestro común muy lejano. Las proteínas que tienen la misma forma y cierta similitud de secuencia y/o función se colocan en "familias" y se supone que tienen un ancestro común más cercano.

Similar a las bases de datos CATH y Pfam , SCOP proporciona una clasificación de dominios estructurales individuales de proteínas, en lugar de una clasificación de las proteínas completas que pueden incluir una cantidad significativa de dominios diferentes.

La base de datos SCOP es de libre acceso en Internet. SCOP fue creada en 1994 en el Centro de Ingeniería de Proteínas y el Laboratorio de Biología Molecular . [3] Fue mantenida por Alexey G. Murzin y sus colegas en el Centro de Ingeniería de Proteínas hasta su cierre en 2010 y posteriormente en el Laboratorio de Biología Molecular en Cambridge, Inglaterra. [4] [5] [6] [1]

El trabajo sobre SCOP 1.75 se interrumpió en 2014. Desde entonces, el equipo SCOPe de la Universidad de California en Berkeley ha sido responsable de actualizar la base de datos de manera compatible, con una combinación de métodos automatizados y manuales. A fecha de abril de 2019 , la última versión es SCOPe 2.07 (marzo de 2018). [2]

La nueva versión 2 de la base de datos de Clasificación estructural de proteínas (SCOP2) se publicó a principios de 2020. La nueva actualización incluía un esquema de base de datos mejorado, una nueva API y una interfaz web modernizada. Esta fue la actualización más importante del grupo de Cambridge desde SCOP 1.75 y se basa en los avances en el esquema del prototipo SCOP 2. [7]

Organización jerárquica

La fuente de las estructuras de las proteínas es el Protein Data Bank . La unidad de clasificación de la estructura en SCOP es el dominio de la proteína . Lo que los autores de SCOP quieren decir con "dominio" se sugiere por su afirmación de que las proteínas pequeñas y la mayoría de las de tamaño mediano tienen solo un dominio, [8] y por la observación de que la hemoglobina humana, [9] que tiene una estructura α 2 β 2 , tiene asignados dos dominios SCOP, uno para la subunidad α y otro para la β.

Las formas de los dominios se denominan "pliegues" en SCOP. Los dominios que pertenecen al mismo pliegue tienen las mismas estructuras secundarias principales en la misma disposición con las mismas conexiones topológicas. En la versión 1.75 de SCOP se dan 1195 pliegues. Se dan descripciones breves de cada pliegue. Por ejemplo, el pliegue "similar a la globina" se describe como núcleo: 6 hélices; hoja plegada, parcialmente abierta . El pliegue al que pertenece un dominio se determina mediante inspección, en lugar de mediante software.

Los niveles de la versión 1.75 de SCOP son los siguientes.

  1. Clase : Tipos de pliegues, por ejemplo, láminas beta.
  2. Pliegue: Las diferentes formas de los dominios dentro de una clase.
  3. Superfamilia : Los dominios de un pliegue se agrupan en superfamilias, que tienen al menos un ancestro común distante.
  4. Familia : Los dominios de una superfamilia se agrupan en familias, que tienen un ancestro común más reciente.
  5. Dominio proteico: Los dominios de las familias se agrupan en dominios proteicos, que son esencialmente la misma proteína.
  6. Especies: Los dominios en "dominios proteicos" se agrupan según la especie.
  7. Dominio: parte de una proteína. En el caso de proteínas simples, puede ser la proteína entera.

Clases

Los grupos más amplios de la versión 1.75 de SCOP son las clases de plegamiento de proteínas . Estas clases agrupan estructuras con una composición de estructura secundaria similar, pero con estructuras terciarias generales y orígenes evolutivos diferentes. Esta es la "raíz" de nivel superior de la clasificación jerárquica de SCOP.

  1. Todas las proteínas alfa [46456] (284): Dominios que consisten en hélices α
  2. Todas las proteínas beta [48724] (174): Dominios que consisten en láminas β
  3. Proteínas alfa y beta (a/b) [51349] (147): Principalmente láminas beta paralelas (unidades beta-alfa-beta)
  4. Proteínas alfa y beta (a+b) [53931] (376): Principalmente láminas beta antiparalelas (regiones alfa y beta segregadas)
  5. Proteínas multidominio (alfa y beta) [56572] (66): Pliegues que consisten en dos o más dominios pertenecientes a diferentes clases
  6. Proteínas y péptidos de membrana y superficie celular [56835] (58): No incluye proteínas del sistema inmunológico.
  7. Proteínas pequeñas [56992] (90): Generalmente dominadas por ligandos metálicos , cofactores y/o puentes disulfuro.
  8. Proteínas en espiral [57942] (7): No es una clase verdadera
  9. Estructuras proteicas de baja resolución [58117] (26): péptidos y fragmentos. No es una clase verdadera
  10. Péptidos [58231] (121): péptidos y fragmentos. No son una clase verdadera.
  11. Proteínas diseñadas [58788] (44): Estructuras experimentales de proteínas con secuencias esencialmente no naturales. No es una clase verdadera

El número entre paréntesis, llamado "sunid", es un identificador de identificación entero único de S COP para cada nodo en la jerarquía de SCOP. El número entre paréntesis indica cuántos elementos hay en cada categoría. Por ejemplo, hay 284 pliegues en la clase "All alpha proteins". Cada miembro de la jerarquía es un enlace al siguiente nivel de la jerarquía.

Pliegues

Cada clase contiene una serie de pliegues distintos. Este nivel de clasificación indica una estructura terciaria similar, pero no necesariamente una relación evolutiva. Por ejemplo, la clase "All-α proteins" contiene >280 pliegues distintos, entre ellos: similar a la globina (núcleo: 6 hélices; hoja plegada, parcialmente abierta), horquilla alfa larga (2 hélices; horquilla antiparalela, giro hacia la izquierda) y dominios dockerin tipo I (repetición en tándem de dos motivos de hélice en bucle que se unen al calcio, distintos de la mano EF).

Superfamilias

Los dominios dentro de un pliegue se clasifican además en superfamilias . Se trata de la agrupación más grande de proteínas para las cuales la similitud estructural es suficiente para indicar una relación evolutiva y, por lo tanto, comparten un ancestro común. Sin embargo, se presume que este ancestro es distante, porque los diferentes miembros de una superfamilia tienen identidades de secuencia bajas . Por ejemplo, las dos superfamilias del pliegue "similar a la globina" son: la superfamilia de globinas y la superfamilia de ferredoxina alfa-helicoidal (contiene dos grupos Fe4-S4).

Familias

Las familias de proteínas están más relacionadas que las superfamilias. Los dominios se colocan en la misma familia si tienen:

  1. >30% de identidad de secuencia
  2. alguna identidad de secuencia (por ejemplo, 15%) y realizan la misma función

La similitud en la secuencia y la estructura es evidencia de que estas proteínas tienen una relación evolutiva más cercana que las proteínas de la misma superfamilia. Las herramientas de secuencia, como BLAST , se utilizan para ayudar a colocar dominios en superfamilias y familias. Por ejemplo, las cuatro familias de la superfamilia "similar a la globina" del pliegue "similar a la globina" son la hemoglobina truncada (carece de la primera hélice), la minihemoglobina del tejido nervioso (carece de la primera hélice pero, por lo demás, es más similar a las globinas convencionales que las truncadas), las globinas (proteína de unión al hemo) y las proteínas del ficobilisoma similares a la ficocianina (oligómeros de dos tipos diferentes de subunidades similares a la globina que contienen dos hélices adicionales en el extremo N que se unen a un cromóforo de bilina ). A cada familia en SCOP se le asigna una cadena de clasificación concisa, sccs , donde la letra identifica la clase a la que pertenece el dominio; Los siguientes números enteros identifican el pliegue, la superfamilia y la familia, respectivamente (por ejemplo, a.1.1.2 para la familia "Globina"). [10]

Dominios de entrada del PDB

Un "TaxId" es el número de identificación de la taxonomía y los enlaces al navegador de taxonomía del NCBI , que proporciona más información sobre la especie a la que pertenece la proteína. Al hacer clic en una especie o isoforma, aparece una lista de dominios. Por ejemplo, la proteína "Hemoglobina, cadena alfa de humano (Homo sapiens)" tiene >190 estructuras proteínicas resueltas, como 2dn3 (complejada con cmo) y 2dn1 (complejada con hem, mbn, oxy). Al hacer clic en los números PDB se supone que se muestra la estructura de la molécula, pero los enlaces están rotos actualmente (los enlaces funcionan en pre-SCOP).

Ejemplo

La mayoría de las páginas de SCOP contienen un cuadro de búsqueda. Al ingresar "tripsina + humana", se obtienen varias proteínas, incluida la proteína tripsinógeno de los humanos. Al seleccionar esa entrada, se muestra una página que incluye el "linaje", que se encuentra en la parte superior de la mayoría de las páginas de SCOP.

Linaje del tripsonógeno humano [ verificar ortografía ]
  1. Raíz: scop
  2. Clase: Todas las proteínas beta [48724]
  3. Pliegue: Serina proteasas similares a la tripsina [50493]
    barril, cerrado; n=6, S=8; clave griega
    duplicación: consiste en dos dominios del mismo pliegue
  4. Superfamilia: Serina proteasas similares a la tripsina [50494]
  5. Familia: Proteasas eucariotas [50514]
  6. Proteína: tripsina (ógeno) [50515]
  7. Especie: Humano (Homo sapiens) [TaxId: 9606] [50519]

La búsqueda de "Subtilisina" devuelve la proteína "Subtilisina de Bacillus subtilis, carlsberg", con el siguiente linaje.

Subtilisina de Bacillus subtilis, linaje Carlsberg
  1. Raíz: scop
  2. Clase: Proteínas alfa y beta (a/b) [51349]
    Principalmente láminas beta paralelas (unidades beta-alfa-beta)
  3. Pliegue: similar a la subtilisina [52742]
    3 capas: a/b/a, lámina beta paralela de 7 hebras, orden 2314567; conexión cruzada hacia la izquierda entre las hebras 2 y 3
  4. Superfamilia: similar a la subtilisina [52743]
  5. Familia: Subtilasas [52744]
  6. Proteína: Subtilisina [52745]
  7. Especie: Bacillus subtilis, carlsberg [TaxId: 1423] [52746]

Aunque ambas proteínas son proteasas, ni siquiera pertenecen al mismo pliegue, lo que es consistente con que sean un ejemplo de evolución convergente .

Comparación con otros sistemas de clasificación

La clasificación SCOP depende más de decisiones manuales que la clasificación semiautomática de CATH , su principal rival. Se utiliza la experiencia humana para decidir si ciertas proteínas están relacionadas evolutivamente y, por lo tanto, deben asignarse a la misma superfamilia , o si su similitud es el resultado de restricciones estructurales y, por lo tanto, pertenecen al mismo pliegue . Otra base de datos, FSSP , se genera de forma puramente automática (incluidas las actualizaciones automáticas periódicas), pero no ofrece clasificación, lo que permite al usuario sacar sus propias conclusiones sobre la importancia de las relaciones estructurales basándose en las comparaciones por pares de estructuras de proteínas individuales.

Sucesores de SCOP

En 2009, la base de datos SCOP original clasificaba manualmente 38.000 entradas PDB en una estructura estrictamente jerárquica. Con el ritmo acelerado de las publicaciones sobre la estructura de las proteínas, la limitada automatización de la clasificación no pudo seguir el ritmo, lo que dio lugar a un conjunto de datos no exhaustivo. La base de datos ampliada de clasificación estructural de proteínas (SCOPe) se publicó en 2012 con una automatización mucho mayor del mismo sistema jerárquico y es totalmente compatible con la versión 1.75 de SCOP. En 2014, se reintrodujo la curación manual en SCOPe para mantener la asignación precisa de la estructura. A febrero de 2015, SCOPe 2.05 clasificó 71.000 de las 110.000 entradas PDB totales. [11]

El prototipo SCOP2 fue una versión beta de la clasificación estructural de proteínas y el sistema de clasificación que tenía como objetivo abordar más la complejidad evolutiva inherente a la evolución de la estructura de las proteínas. [12] Por lo tanto, no es una jerarquía simple, sino una red de gráficos acíclicos dirigidos que conecta superfamilias de proteínas que representan relaciones estructurales y evolutivas como permutaciones circulares , fusión de dominios y desintegración de dominios. En consecuencia, los dominios no están separados por límites fijos estrictos, sino que se definen por sus relaciones con las otras estructuras más similares. El prototipo se utilizó para el desarrollo de la base de datos SCOP versión 2. [7] La ​​versión 2 de SCOP, lanzada en enero de 2020, contiene 5134 familias y 2485 superfamilias en comparación con 3902 familias y 1962 superfamilias en SCOP 1.75. Los niveles de clasificación organizan más de 41 000 dominios no redundantes que representan más de 504 000 estructuras de proteínas.

La base de datos Evolutionary Classification of Protein Domains (ECOD) publicada en 2014 es una expansión similar a SCOPe de la versión 1.75 de SCOP. A diferencia de la SCOPe compatible, renombra la jerarquía de clase-plegamiento-superfamilia-familia en una agrupación de arquitectura-X-homología-topología-familia (A-XHTF), con el último nivel definido principalmente por Pfam y complementado por la agrupación HHsearch para secuencias no categorizadas. [13] ECOD tiene la mejor cobertura de PDB de los tres sucesores: cubre cada estructura de PDB y se actualiza quincenalmente. [14] El mapeo directo a Pfam ha demostrado ser útil para los curadores de Pfam que usan la categoría de nivel de homología para complementar su agrupación de "clan". [15]

Véase también

Referencias

  1. ^ ab Andreeva A, Howorth D, Chandonia JM, Brenner SE, Hubbard TJ, Chothia C, Murzin AG (enero de 2008). "El crecimiento de los datos y su impacto en la base de datos SCOP: nuevos desarrollos". Nucleic Acids Research . 36 (número de la base de datos): D419-25. doi :10.1093/nar/gkm993. PMC 2238974 . PMID  18000004. 
  2. ^ ab Chandonia JM, Fox NK, Brenner SE (enero de 2019). "SCOPe: clasificación de grandes estructuras macromoleculares en la clasificación estructural de proteínas: base de datos ampliada". Investigación de ácidos nucleicos . 47 (D1): D475–D481. doi :10.1093/nar/gky1134. PMC 6323910 . PMID  30500919. 
  3. ^ Murzin AG, Brenner SE, Hubbard T, Chothia C (abril de 1995). "SCOP: una base de datos de clasificación estructural de proteínas para la investigación de secuencias y estructuras". Journal of Molecular Biology . 247 (4): 536–40. doi :10.1016/S0022-2836(05)80134-2. PMID  7723011.
  4. ^ Hubbard TJ , Ailey B, Brenner SE , Murzin AG, Chothia C (enero de 1999). "SCOP: una base de datos de clasificación estructural de proteínas". Nucleic Acids Research . 27 (1): 254–6. doi :10.1093/nar/27.1.254. PMC 148149. PMID  9847194 . 
  5. ^ Lo Conte L, Ailey B, Hubbard TJ, Brenner SE, Murzin AG, Chothia C (enero de 2000). "SCOP: una base de datos de clasificación estructural de proteínas". Investigación de ácidos nucleicos . 28 (1): 257–9. doi :10.1093/nar/28.1.257. PMC 102479 . PMID  10592240. 
  6. ^ Andreeva A, Howorth D, Brenner SE, Hubbard TJ, Chothia C, Murzin AG (enero de 2004). "Base de datos SCOP en 2004: los refinamientos integran datos de familia de secuencias y estructura". Nucleic Acids Research . 32 (número de la base de datos): D226-9. doi :10.1093/nar/gkh039. PMC 308773 . PMID  14681400. 
  7. ^ ab Andreeva A, Kulesha E, Gough J, Murzin AG (enero de 2020). "Base de datos SCOP en 2020: clasificación ampliada de dominios representativos de familias y superfamilias de estructuras proteínicas conocidas". Nucleic Acids Research . 48 (número de la base de datos): D376–D382. doi : 10.1093/nar/gkz1064 . PMC 7139981 . PMID  31724711. 
  8. ^ Murzin AG, Brenner SE , Hubbard T , Chothia C (abril de 1995). "SCOP: una base de datos de clasificación estructural de proteínas para la investigación de secuencias y estructuras" (PDF) . Journal of Molecular Biology . 247 (4): 536–40. doi :10.1016/S0022-2836(05)80134-2. PMID  7723011. Archivado desde el original (PDF) el 26 de abril de 2012.
  9. ^ PDB : 2DN1 ​; Park SY, Yokoyama T, Shibayama N, Shiro Y, Tame JR (julio de 2006). "Estructuras cristalinas de hemoglobina humana en las formas oxi, desoxi y carbonmonoxi con resolución de 1,25 A". Journal of Molecular Biology . 360 (3): 690–701. doi :10.1016/j.jmb.2006.05.036. PMID  16765986.
  10. ^ Lo Conte L, Brenner SE, Hubbard TJ, Chothia C, Murzin AG (enero de 2002). "Base de datos SCOP en 2002: mejoras para dar cabida a la genómica estructural". Nucleic Acids Research . 30 (1): 264–7. doi :10.1093/nar/30.1.264. PMC 99154 ​​. PMID  11752311. 
  11. ^ "¿Cuál es la relación entre SCOP, SCOPe y SCOP2?". scop.berkeley.edu . Consultado el 22 de agosto de 2015 .
  12. ^ Andreeva A, Howorth D, Chothia C, Kulesha E, Murzin AG (enero de 2014). "Prototipo de SCOP2: un nuevo enfoque para la minería de estructuras de proteínas". Nucleic Acids Research . 42 (número de la base de datos): D310-4. doi :10.1093/nar/gkt1242. PMC 3964979 . PMID  24293656. 
  13. ^ Cheng H, Schaeffer RD, Liao Y, Kinch LN, Pei J, Shi S, Kim BH, Grishin NV (diciembre de 2014). "ECOD: una clasificación evolutiva de dominios proteicos". PLOS Computational Biology . 10 (12): e1003926. Bibcode :2014PLSCB..10E3926C. doi : 10.1371/journal.pcbi.1003926 . PMC 4256011 . PMID  25474468. 
  14. ^ "Clasificación evolutiva de dominios proteicos". prodata.swmed.edu . Consultado el 18 de mayo de 2019 .
  15. ^ El-Gebali S, Mistry J, Bateman A, Eddy SR, Luciani A, Potter SC, Qureshi M, Richardson LJ, Salazar GA, Smart A, Sonnhammer EL, Hirsh L, Paladin L, Piovesan D, Tosatto SC, Finn RD (enero de 2019). "La base de datos de familias de proteínas Pfam en 2019". Investigación de ácidos nucleicos . 47 (D1): D427–D432. doi :10.1093/nar/gky995. PMC 6324024 . PMID  30357350. 

Enlaces externos