La base de datos de Clasificación Estructural de Proteínas (SCOP) es una clasificación en gran parte manual de los dominios estructurales de las proteínas basada en las similitudes de sus estructuras y secuencias de aminoácidos . Una motivación para esta clasificación es determinar la relación evolutiva entre las proteínas. Las proteínas con las mismas formas pero que tienen poca similitud de secuencia o funcional se colocan en diferentes superfamilias y se supone que solo tienen un ancestro común muy lejano. Las proteínas que tienen la misma forma y cierta similitud de secuencia y/o función se colocan en "familias" y se supone que tienen un ancestro común más cercano.
Similar a las bases de datos CATH y Pfam , SCOP proporciona una clasificación de dominios estructurales individuales de proteínas, en lugar de una clasificación de las proteínas completas que pueden incluir una cantidad significativa de dominios diferentes.
La base de datos SCOP es de libre acceso en Internet. SCOP fue creada en 1994 en el Centro de Ingeniería de Proteínas y el Laboratorio de Biología Molecular . [3] Fue mantenida por Alexey G. Murzin y sus colegas en el Centro de Ingeniería de Proteínas hasta su cierre en 2010 y posteriormente en el Laboratorio de Biología Molecular en Cambridge, Inglaterra. [4] [5] [6] [1]
El trabajo sobre SCOP 1.75 se interrumpió en 2014. Desde entonces, el equipo SCOPe de la Universidad de California en Berkeley ha sido responsable de actualizar la base de datos de manera compatible, con una combinación de métodos automatizados y manuales. A fecha de abril de 2019 [actualizar], la última versión es SCOPe 2.07 (marzo de 2018). [2]
La nueva versión 2 de la base de datos de Clasificación estructural de proteínas (SCOP2) se publicó a principios de 2020. La nueva actualización incluía un esquema de base de datos mejorado, una nueva API y una interfaz web modernizada. Esta fue la actualización más importante del grupo de Cambridge desde SCOP 1.75 y se basa en los avances en el esquema del prototipo SCOP 2. [7]
La fuente de las estructuras de las proteínas es el Protein Data Bank . La unidad de clasificación de la estructura en SCOP es el dominio de la proteína . Lo que los autores de SCOP quieren decir con "dominio" se sugiere por su afirmación de que las proteínas pequeñas y la mayoría de las de tamaño mediano tienen solo un dominio, [8] y por la observación de que la hemoglobina humana, [9] que tiene una estructura α 2 β 2 , tiene asignados dos dominios SCOP, uno para la subunidad α y otro para la β.
Las formas de los dominios se denominan "pliegues" en SCOP. Los dominios que pertenecen al mismo pliegue tienen las mismas estructuras secundarias principales en la misma disposición con las mismas conexiones topológicas. En la versión 1.75 de SCOP se dan 1195 pliegues. Se dan descripciones breves de cada pliegue. Por ejemplo, el pliegue "similar a la globina" se describe como núcleo: 6 hélices; hoja plegada, parcialmente abierta . El pliegue al que pertenece un dominio se determina mediante inspección, en lugar de mediante software.
Los niveles de la versión 1.75 de SCOP son los siguientes.
Los grupos más amplios de la versión 1.75 de SCOP son las clases de plegamiento de proteínas . Estas clases agrupan estructuras con una composición de estructura secundaria similar, pero con estructuras terciarias generales y orígenes evolutivos diferentes. Esta es la "raíz" de nivel superior de la clasificación jerárquica de SCOP.
El número entre paréntesis, llamado "sunid", es un identificador de identificación entero único de S COP para cada nodo en la jerarquía de SCOP. El número entre paréntesis indica cuántos elementos hay en cada categoría. Por ejemplo, hay 284 pliegues en la clase "All alpha proteins". Cada miembro de la jerarquía es un enlace al siguiente nivel de la jerarquía.
Cada clase contiene una serie de pliegues distintos. Este nivel de clasificación indica una estructura terciaria similar, pero no necesariamente una relación evolutiva. Por ejemplo, la clase "All-α proteins" contiene >280 pliegues distintos, entre ellos: similar a la globina (núcleo: 6 hélices; hoja plegada, parcialmente abierta), horquilla alfa larga (2 hélices; horquilla antiparalela, giro hacia la izquierda) y dominios dockerin tipo I (repetición en tándem de dos motivos de hélice en bucle que se unen al calcio, distintos de la mano EF).
Los dominios dentro de un pliegue se clasifican además en superfamilias . Se trata de la agrupación más grande de proteínas para las cuales la similitud estructural es suficiente para indicar una relación evolutiva y, por lo tanto, comparten un ancestro común. Sin embargo, se presume que este ancestro es distante, porque los diferentes miembros de una superfamilia tienen identidades de secuencia bajas . Por ejemplo, las dos superfamilias del pliegue "similar a la globina" son: la superfamilia de globinas y la superfamilia de ferredoxina alfa-helicoidal (contiene dos grupos Fe4-S4).
Las familias de proteínas están más relacionadas que las superfamilias. Los dominios se colocan en la misma familia si tienen:
La similitud en la secuencia y la estructura es evidencia de que estas proteínas tienen una relación evolutiva más cercana que las proteínas de la misma superfamilia. Las herramientas de secuencia, como BLAST , se utilizan para ayudar a colocar dominios en superfamilias y familias. Por ejemplo, las cuatro familias de la superfamilia "similar a la globina" del pliegue "similar a la globina" son la hemoglobina truncada (carece de la primera hélice), la minihemoglobina del tejido nervioso (carece de la primera hélice pero, por lo demás, es más similar a las globinas convencionales que las truncadas), las globinas (proteína de unión al hemo) y las proteínas del ficobilisoma similares a la ficocianina (oligómeros de dos tipos diferentes de subunidades similares a la globina que contienen dos hélices adicionales en el extremo N que se unen a un cromóforo de bilina ). A cada familia en SCOP se le asigna una cadena de clasificación concisa, sccs , donde la letra identifica la clase a la que pertenece el dominio; Los siguientes números enteros identifican el pliegue, la superfamilia y la familia, respectivamente (por ejemplo, a.1.1.2 para la familia "Globina"). [10]
Un "TaxId" es el número de identificación de la taxonomía y los enlaces al navegador de taxonomía del NCBI , que proporciona más información sobre la especie a la que pertenece la proteína. Al hacer clic en una especie o isoforma, aparece una lista de dominios. Por ejemplo, la proteína "Hemoglobina, cadena alfa de humano (Homo sapiens)" tiene >190 estructuras proteínicas resueltas, como 2dn3 (complejada con cmo) y 2dn1 (complejada con hem, mbn, oxy). Al hacer clic en los números PDB se supone que se muestra la estructura de la molécula, pero los enlaces están rotos actualmente (los enlaces funcionan en pre-SCOP).
La mayoría de las páginas de SCOP contienen un cuadro de búsqueda. Al ingresar "tripsina + humana", se obtienen varias proteínas, incluida la proteína tripsinógeno de los humanos. Al seleccionar esa entrada, se muestra una página que incluye el "linaje", que se encuentra en la parte superior de la mayoría de las páginas de SCOP.
La búsqueda de "Subtilisina" devuelve la proteína "Subtilisina de Bacillus subtilis, carlsberg", con el siguiente linaje.
Aunque ambas proteínas son proteasas, ni siquiera pertenecen al mismo pliegue, lo que es consistente con que sean un ejemplo de evolución convergente .
La clasificación SCOP depende más de decisiones manuales que la clasificación semiautomática de CATH , su principal rival. Se utiliza la experiencia humana para decidir si ciertas proteínas están relacionadas evolutivamente y, por lo tanto, deben asignarse a la misma superfamilia , o si su similitud es el resultado de restricciones estructurales y, por lo tanto, pertenecen al mismo pliegue . Otra base de datos, FSSP , se genera de forma puramente automática (incluidas las actualizaciones automáticas periódicas), pero no ofrece clasificación, lo que permite al usuario sacar sus propias conclusiones sobre la importancia de las relaciones estructurales basándose en las comparaciones por pares de estructuras de proteínas individuales.
En 2009, la base de datos SCOP original clasificaba manualmente 38.000 entradas PDB en una estructura estrictamente jerárquica. Con el ritmo acelerado de las publicaciones sobre la estructura de las proteínas, la limitada automatización de la clasificación no pudo seguir el ritmo, lo que dio lugar a un conjunto de datos no exhaustivo. La base de datos ampliada de clasificación estructural de proteínas (SCOPe) se publicó en 2012 con una automatización mucho mayor del mismo sistema jerárquico y es totalmente compatible con la versión 1.75 de SCOP. En 2014, se reintrodujo la curación manual en SCOPe para mantener la asignación precisa de la estructura. A febrero de 2015, SCOPe 2.05 clasificó 71.000 de las 110.000 entradas PDB totales. [11]
El prototipo SCOP2 fue una versión beta de la clasificación estructural de proteínas y el sistema de clasificación que tenía como objetivo abordar más la complejidad evolutiva inherente a la evolución de la estructura de las proteínas. [12] Por lo tanto, no es una jerarquía simple, sino una red de gráficos acíclicos dirigidos que conecta superfamilias de proteínas que representan relaciones estructurales y evolutivas como permutaciones circulares , fusión de dominios y desintegración de dominios. En consecuencia, los dominios no están separados por límites fijos estrictos, sino que se definen por sus relaciones con las otras estructuras más similares. El prototipo se utilizó para el desarrollo de la base de datos SCOP versión 2. [7] La versión 2 de SCOP, lanzada en enero de 2020, contiene 5134 familias y 2485 superfamilias en comparación con 3902 familias y 1962 superfamilias en SCOP 1.75. Los niveles de clasificación organizan más de 41 000 dominios no redundantes que representan más de 504 000 estructuras de proteínas.
La base de datos Evolutionary Classification of Protein Domains (ECOD) publicada en 2014 es una expansión similar a SCOPe de la versión 1.75 de SCOP. A diferencia de la SCOPe compatible, renombra la jerarquía de clase-plegamiento-superfamilia-familia en una agrupación de arquitectura-X-homología-topología-familia (A-XHTF), con el último nivel definido principalmente por Pfam y complementado por la agrupación HHsearch para secuencias no categorizadas. [13] ECOD tiene la mejor cobertura de PDB de los tres sucesores: cubre cada estructura de PDB y se actualiza quincenalmente. [14] El mapeo directo a Pfam ha demostrado ser útil para los curadores de Pfam que usan la categoría de nivel de homología para complementar su agrupación de "clan". [15]