stringtranslate.com

Base de datos de clasificación estructural de proteínas.

La base de datos de Clasificación Estructural de Proteínas (SCOP) es en gran medida una clasificación manual de dominios estructurales de proteínas basada en similitudes de sus estructuras y secuencias de aminoácidos . Una motivación para esta clasificación es determinar la relación evolutiva entre las proteínas. Las proteínas con las mismas formas pero que tienen poca secuencia o similitud funcional se ubican en diferentes superfamilias y se supone que solo tienen un ancestro común muy distante. Las proteínas que tienen la misma forma y cierta similitud de secuencia y/o función se ubican en "familias" y se supone que tienen un ancestro común más cercano.

Al igual que las bases de datos CATH y Pfam , SCOP proporciona una clasificación de dominios estructurales individuales de proteínas, en lugar de una clasificación de proteínas completas que pueden incluir un número significativo de dominios diferentes.

La base de datos SCOP es de libre acceso en Internet. SCOP fue creado en 1994 en el Centro de Ingeniería de Proteínas y el Laboratorio de Biología Molecular . [3] Fue mantenido por Alexey G. Murzin y sus colegas en el Centro de Ingeniería de Proteínas hasta su cierre en 2010 y posteriormente en el Laboratorio de Biología Molecular en Cambridge, Inglaterra. [4] [5] [6] [1]

El trabajo en SCOP 1.75 se interrumpió en 2014. Desde entonces, el equipo SCOPE de UC Berkeley ha sido responsable de actualizar la base de datos de manera compatible, con una combinación de métodos manuales y automatizados. En abril de 2019 , la última versión es SCOPe 2.07 (marzo de 2018). [2]

La nueva base de datos de Clasificación Estructural de Proteínas versión 2 (SCOP2) se lanzó a principios de 2020. La nueva actualización presentaba un esquema de base de datos mejorado, una nueva API y una interfaz web modernizada. Esta fue la actualización más importante realizada por el grupo de Cambridge desde SCOP 1.75 y se basa en los avances en el esquema del prototipo SCOP 2. [7]

Organización jerárquica

La fuente de estructuras de proteínas es el Protein Data Bank . La unidad de clasificación de estructura en SCOP es el dominio proteico . Lo que los autores de SCOP quieren decir con "dominio" lo sugiere su afirmación de que las proteínas pequeñas y la mayoría de las de tamaño mediano tienen un solo dominio, [8] y la observación de que la hemoglobina humana, [9] que tiene una estructura α 2 β 2 , se le asignan dos dominios SCOP, uno para la subunidad α y otro para la subunidad β.

Las formas de los dominios se denominan "pliegues" en SCOP. Los dominios que pertenecen al mismo pliegue tienen las mismas estructuras secundarias principales en la misma disposición con las mismas conexiones topológicas. Se proporcionan 1195 pliegues en la versión 1.75 de SCOP. Se dan breves descripciones de cada pliegue. Por ejemplo, el pliegue "similar a una globina" se describe como núcleo: 6 hélices; Hoja plegada, parcialmente abierta . El grupo al que pertenece un dominio se determina mediante inspección, más que mediante software.

Los niveles de SCOP versión 1.75 son los siguientes.

  1. Clase : Tipos de pliegues, por ejemplo, láminas beta.
  2. Plegado: Las diferentes formas de dominios dentro de una clase.
  3. Superfamilia : Los dominios de un pliegue se agrupan en superfamilias, que tienen al menos un ancestro común distante.
  4. Familia : Los dominios de una superfamilia se agrupan en familias que tienen un ancestro común más reciente.
  5. Dominio proteico: los dominios de las familias se agrupan en dominios proteicos, que son esencialmente la misma proteína.
  6. Especies: los dominios de los "dominios de proteínas" se agrupan según las especies.
  7. Dominio: parte de una proteína. Para proteínas simples, puede ser la proteína completa.

Clases

Los grupos más amplios en SCOP versión 1.75 son las clases de pliegues de proteínas . Estas clases agrupan estructuras con una composición de estructura secundaria similar, pero diferentes estructuras terciarias generales y orígenes evolutivos. Esta es la "raíz" de nivel superior de la clasificación jerárquica SCOP.

  1. Todas las proteínas alfa [46456] (284): dominios que consisten en hélices α
  2. Todas las proteínas beta [48724] (174): dominios que consisten en láminas β
  3. Proteínas alfa y beta (a/b) [51349] (147): Principalmente láminas beta paralelas (unidades beta-alfa-beta)
  4. Proteínas alfa y beta (a+b) [53931] (376): principalmente láminas beta antiparalelas (regiones alfa y beta segregadas)
  5. Proteínas multidominio (alfa y beta) [56572] (66): Pliegues que constan de dos o más dominios pertenecientes a diferentes clases
  6. proteínas y péptidos de membrana y superficie celular [56835] (58): No incluye proteínas del sistema inmunológico
  7. Proteínas pequeñas [56992] (90): normalmente dominadas por ligando metálico , cofactor y/o puentes disulfuro.
  8. proteínas en espiral [57942] (7): No es una clase verdadera
  9. Estructuras proteicas de baja resolución [58117] (26): Péptidos y fragmentos. No es una verdadera clase
  10. Péptidos [58231] (121): péptidos y fragmentos. No es una verdadera clase.
  11. Proteínas diseñadas [58788] (44): Estructuras experimentales de proteínas con secuencias esencialmente no naturales. No es una verdadera clase

El número entre paréntesis, llamado "sunid", es un identificador entero único de SCOP para cada nodo en la jerarquía de SCOP. El número entre paréntesis indica cuántos elementos hay en cada categoría. Por ejemplo, hay 284 pliegues en la clase "Todas las proteínas alfa". Cada miembro de la jerarquía es un enlace al siguiente nivel de la jerarquía.

Pliegues

Cada clase contiene una serie de pliegues distintos. Este nivel de clasificación indica una estructura terciaria similar, pero no necesariamente una relación evolutiva. Por ejemplo, la clase "Proteínas All-α" contiene >280 pliegues distintos, que incluyen: tipo globina (núcleo: 6 hélices; hoja plegada, parcialmente abierta), horquilla alfa larga (2 hélices; horquilla antiparalela, giro hacia la izquierda). ) y dominios dockerin de tipo I (repetición en tándem de dos motivos de hélice en bucle de unión a calcio, distintos de la mano EF).

Superfamilias

Los dominios dentro de un pliegue se clasifican además en superfamilias . Se trata del grupo más grande de proteínas para las cuales la similitud estructural es suficiente para indicar una relación evolutiva y, por lo tanto, comparten un ancestro común. Sin embargo, se presume que este ancestro es distante, porque los diferentes miembros de una superfamilia tienen identidades de secuencia bajas . Por ejemplo, las dos superfamilias del pliegue "similar a una globina" son: la superfamilia de globina y la superfamilia de ferredoxina alfa-helicoidal (contiene dos grupos Fe4-S4).

Familias

Las familias de proteínas están más estrechamente relacionadas que las superfamilias. Los dominios se colocan en la misma familia si tienen:

  1. >30% de identidad de secuencia
  2. cierta identidad de secuencia (p. ej., 15%) y realiza la misma función

La similitud en secuencia y estructura es evidencia de que estas proteínas tienen una relación evolutiva más estrecha que las proteínas de la misma superfamilia. Las herramientas de secuencia, como BLAST , se utilizan para ayudar a colocar dominios en superfamilias y familias. Por ejemplo, las cuatro familias de la superfamilia "similar a la globina" del pliegue "similar a la globina" son hemoglobina truncada (carecen de la primera hélice), minihemoglobina del tejido nervioso (carecen de la primera hélice pero por lo demás son más similares a las globinas convencionales que los truncados), globinas (proteína de unión al hemo) y proteínas ficobilisomas similares a las ficocianinas (oligómeros de dos tipos diferentes de subunidades similares a las globinas que contienen dos hélices adicionales en el extremo N se unen a un cromóforo de bilina ). A cada familia en SCOP se le asigna una cadena de clasificación concisa, sccs , donde la letra identifica la clase a la que pertenece el dominio; los siguientes números enteros identifican el pliegue, la superfamilia y la familia, respectivamente (por ejemplo, a.1.1.2 para la familia "Globin"). [10]

Dominios de entrada PDB

Un "TaxId" es el número de identificación de la taxonomía y enlaza con el navegador de taxonomía del NCBI , que proporciona más información sobre la especie a la que pertenece la proteína. Al hacer clic en una especie o isoforma aparece una lista de dominios. Por ejemplo, la proteína "Hemoglobina, cadena alfa de humano (Homo sapiens)" tiene >190 estructuras proteicas resueltas, como 2dn3 (complejada con cmo) y 2dn1 (complejada con hem, mbn, oxy). Se supone que al hacer clic en los números de PDB se muestra la estructura de la molécula, pero los enlaces actualmente están rotos (los enlaces funcionan en pre-SCOP).

Ejemplo

La mayoría de las páginas de SCOP contienen un cuadro de búsqueda. Al ingresar "tripsina + humana" se recuperan varias proteínas, incluida la proteína tripsinógeno de los humanos. Al seleccionar esa entrada, se muestra una página que incluye el "linaje", que se encuentra en la parte superior de la mayoría de las páginas de SCOP.

Linaje del tripsonógeno humano [ revisar ortografía ]
  1. Raíz: alcance
  2. Clase: Todas las proteínas beta [48724]
  3. Pliegue: Serina proteasas similares a la tripsina [50493]
    barril, cerrado; n=6, S=8; clave griega
    duplicación: consta de dos dominios del mismo pliegue
  4. Superfamilia: serina proteasas similares a la tripsina [50494]
  5. Familia: proteasas eucariotas [50514]
  6. Proteína: tripsina (ógeno) [50515]
  7. Especie: Humano (Homo sapiens) [TaxId: 9606] [50519]

La búsqueda de "Subtilisina" devuelve la proteína "Subtilisina de Bacillus subtilis, carlsberg", con el siguiente linaje.

Subtilisina de Bacillus subtilis, linaje carlsberg
  1. Raíz: alcance
  2. Clase: Proteínas alfa y beta (a/b) [51349]
    Principalmente hojas beta paralelas (unidades beta-alfa-beta)
  3. Pliegue: similar a subtilisina [52742]
    3 capas: a/b/a, lámina beta paralela de 7 hilos, pedido 2314567; conexión cruzada izquierda entre los hilos 2 y 3
  4. Superfamilia: similar a la subtilisina [52743]
  5. Familia: Subtilasas [52744]
  6. Proteína: Subtilisina [52745]
  7. Especie: Bacillus subtilis, carlsberg [TaxId: 1423] [52746]

Aunque ambas proteínas son proteasas, ni siquiera pertenecen al mismo pliegue, lo que concuerda con que sean un ejemplo de evolución convergente .

Comparación con otros sistemas de clasificación

La clasificación SCOP depende más de decisiones manuales que la clasificación semiautomática de CATH , su principal rival. Se utiliza la experiencia humana para decidir si ciertas proteínas están relacionadas evolutivamente y, por lo tanto, deberían asignarse a la misma superfamilia , o si su similitud es el resultado de limitaciones estructurales y, por lo tanto, pertenecen al mismo grupo . Otra base de datos, FSSP , se genera de forma puramente automática (incluidas actualizaciones automáticas periódicas) pero no ofrece clasificación, lo que permite al usuario sacar sus propias conclusiones sobre la importancia de las relaciones estructurales basándose en las comparaciones por pares de estructuras de proteínas individuales.

sucesores de la SCOP

En 2009, la base de datos SCOP original clasificaba manualmente 38.000 entradas del PDB en una estructura estrictamente jerárquica. Con el ritmo acelerado de las publicaciones sobre estructuras de proteínas, la limitada automatización de la clasificación no pudo seguir el ritmo, lo que generó un conjunto de datos no completo. La base de datos ampliada de Clasificación Estructural de Proteínas (SCOPe) se lanzó en 2012 con una automatización mucho mayor del mismo sistema jerárquico y es totalmente compatible con SCOP versión 1.75. En 2014, se reintrodujo la curación manual en SCOPe para mantener una asignación precisa de la estructura. En febrero de 2015, SCOPe 2.05 clasificó 71.000 de las 110.000 entradas totales del PDB. [11]

El prototipo SCOP2 era una versión beta de la clasificación estructural de proteínas y del sistema de clasificación que apuntaba a una mayor complejidad evolutiva inherente a la evolución de la estructura de las proteínas. [12] Por lo tanto, no se trata de una jerarquía simple, sino de una red de gráficos acíclicos dirigidos que conectan superfamilias de proteínas que representan relaciones estructurales y evolutivas, como permutaciones circulares , fusión de dominios y decadencia de dominios. En consecuencia, los dominios no están separados por límites estrictos y fijos, sino que más bien se definen por sus relaciones con otras estructuras más similares. El prototipo se utilizó para el desarrollo de la base de datos SCOP versión 2. [7] La ​​versión 2 de SCOP, lanzada en enero de 2020, contiene 5134 familias y 2485 superfamilias en comparación con 3902 familias y 1962 superfamilias en SCOP 1.75. Los niveles de clasificación organizan más de 41.000 dominios no redundantes que representan más de 504.000 estructuras proteicas.

La base de datos de Clasificación Evolutiva de Dominios de Proteínas (ECOD) publicada en 2014 es similar a la expansión SCOPE de SCOP versión 1.75. A diferencia del SCOPe compatible, cambia el nombre de la jerarquía de superfamilias y familias de clases a una agrupación de arquitectura-X-homología-topología-familia (A-XHTF), con el último nivel definido principalmente por Pfam y complementado por la agrupación HHsearch para secuencias no categorizadas. . [13] ECOD tiene la mejor cobertura de AP de los tres sucesores: cubre todas las estructuras de AP y se actualiza quincenalmente. [14] El mapeo directo a Pfam ha demostrado ser útil para los curadores de Pfam que utilizan la categoría de nivel de homología para complementar su agrupación de "clan". [15]

Ver también

Referencias

  1. ^ ab Andreeva A, Howorth D, Chandonia JM, Brenner SE, Hubbard TJ, Chothia C, Murzin AG (enero de 2008). "Crecimiento de datos y su impacto en la base de datos SCOP: nuevos desarrollos". Investigación de ácidos nucleicos . 36 (Problema de base de datos): D419-25. doi : 10.1093/nar/gkm993. PMC 2238974 . PMID  18000004. 
  2. ^ ab Chandonia JM, Fox NK, Brenner SE (enero de 2019). "SCOPe: clasificación de grandes estructuras macromoleculares en la base de datos ampliada de clasificación estructural de proteínas". Investigación de ácidos nucleicos . 47 (D1): D475–D481. doi : 10.1093/nar/gky1134. PMC 6323910 . PMID  30500919. 
  3. ^ Murzin AG, Brenner SE, Hubbard T, Chothia C (abril de 1995). "SCOP: una base de datos de clasificación estructural de proteínas para la investigación de secuencias y estructuras". Revista de biología molecular . 247 (4): 536–40. doi :10.1016/S0022-2836(05)80134-2. PMID  7723011.
  4. ^ Hubbard TJ , Ailey B, Brenner SE , Murzin AG, Chothia C (enero de 1999). "SCOP: una base de datos de clasificación estructural de proteínas". Investigación de ácidos nucleicos . 27 (1): 254–6. doi :10.1093/nar/27.1.254. PMC 148149 . PMID  9847194. 
  5. ^ Lo Conte L, Ailey B, Hubbard TJ, Brenner SE, Murzin AG, Chothia C (enero de 2000). "SCOP: una base de datos de clasificación estructural de proteínas". Investigación de ácidos nucleicos . 28 (1): 257–9. doi :10.1093/nar/28.1.257. PMC 102479 . PMID  10592240. 
  6. ^ Andreeva A, Howorth D, Brenner SE, Hubbard TJ, Chothia C, Murzin AG (enero de 2004). "Base de datos SCOP en 2004: las mejoras integran datos de familia de secuencia y estructura". Investigación de ácidos nucleicos . 32 (Problema de base de datos): D226-9. doi : 10.1093/nar/gkh039. PMC 308773 . PMID  14681400. 
  7. ^ ab Andreeva A, Kulesha E, Gough J, Murzin AG (enero de 2020). "Base de datos SCOP en 2020: clasificación ampliada de dominios representativos de familias y superfamilias de estructuras proteicas conocidas". Investigación de ácidos nucleicos . 48 (Problema de la base de datos): D376 – D382. doi : 10.1093/nar/gkz1064 . PMC 7139981 . PMID  31724711. 
  8. ^ Murzin AG, Brenner SE , Hubbard T , Chothia C (abril de 1995). "SCOP: una base de datos de clasificación estructural de proteínas para la investigación de secuencias y estructuras" (PDF) . Revista de biología molecular . 247 (4): 536–40. doi :10.1016/S0022-2836(05)80134-2. PMID  7723011. Archivado desde el original (PDF) el 26 de abril de 2012.
  9. ^ AP : 2DN1 ​; Park SY, Yokoyama T, Shibayama N, Shiro Y, Tame JR (julio de 2006). "1.25 Estructuras cristalinas de resolución de la hemoglobina humana en las formas oxi, desoxi y monoxi carbono". Revista de biología molecular . 360 (3): 690–701. doi :10.1016/j.jmb.2006.05.036. PMID  16765986.
  10. ^ Lo Conte L, Brenner SE, Hubbard TJ, Chothia C, Murzin AG (enero de 2002). "Base de datos SCOP en 2002: los refinamientos se adaptan a la genómica estructural". Investigación de ácidos nucleicos . 30 (1): 264–7. doi :10.1093/nar/30.1.264. PMC 99154 . PMID  11752311. 
  11. ^ "¿Cuál es la relación entre SCOP, SCOPe y SCOP2?". scop.berkeley.edu . Consultado el 22 de agosto de 2015 .
  12. ^ Andreeva A, Howorth D, Chothia C, Kulesha E, Murzin AG (enero de 2014). "Prototipo SCOP2: un nuevo enfoque para la extracción de estructuras de proteínas". Investigación de ácidos nucleicos . 42 (Problema de base de datos): D310-4. doi : 10.1093/nar/gkt1242. PMC 3964979 . PMID  24293656. 
  13. ^ Cheng H, Schaeffer RD, Liao Y, Kinch LN, Pei J, Shi S, Kim BH, Grishin NV (diciembre de 2014). "ECOD: una clasificación evolutiva de dominios proteicos". PLOS Biología Computacional . 10 (12): e1003926. Código Bib : 2014PLSCB..10E3926C. doi : 10.1371/journal.pcbi.1003926 . PMC 4256011 . PMID  25474468. 
  14. ^ "Clasificación evolutiva de dominios de proteínas". prodata.swmed.edu . Consultado el 18 de mayo de 2019 .
  15. ^ El-Gebali S, Mistry J, Bateman A, Eddy SR, Luciani A, Potter SC, Qureshi M, Richardson LJ, Salazar GA, Smart A, Sonnhammer EL, Hirsh L, Paladin L, Piovesan D, Tosatto SC, Finn RD (Enero de 2019). "La base de datos de familias de proteínas Pfam en 2019". Investigación de ácidos nucleicos . 47 (D1): D427–D432. doi : 10.1093/nar/gky995. PMC 6324024 . PMID  30357350. 

enlaces externos