La base de datos de clasificación de la estructura de proteínas CATH es un recurso en línea gratuito y de acceso público que proporciona información sobre las relaciones evolutivas de los dominios proteicos . Fue creada a mediados de la década de 1990 por la profesora Christine Orengo y colegas, entre ellos Janet Thornton y David Jones , [2] y continúa siendo desarrollada por el grupo Orengo en el University College de Londres . CATH comparte muchas características generales con el recurso SCOP , sin embargo, también hay muchas áreas en las que la clasificación detallada difiere en gran medida. [3] [4] [5] [6]
Las estructuras tridimensionales de proteínas determinadas experimentalmente se obtienen del banco de datos de proteínas y se dividen en sus cadenas polipeptídicas consecutivas , cuando corresponde. Los dominios de proteínas se identifican dentro de estas cadenas utilizando una combinación de métodos automáticos y curación manual. [7]
Los dominios se clasifican luego dentro de la jerarquía estructural CATH: en el nivel de Clase (C), los dominios se asignan de acuerdo con su contenido de estructura secundaria , es decir, todo alfa , todo beta , una mezcla de alfa y beta, o poca estructura secundaria; en el nivel de Arquitectura (A), se utiliza información sobre la disposición de la estructura secundaria en el espacio tridimensional para la asignación; en el nivel de Topología/pliegue (T), se utiliza información sobre cómo se conectan y organizan los elementos de la estructura secundaria; las asignaciones se realizan al nivel de superfamilia homóloga (H) si hay buena evidencia de que los dominios están relacionados por evolución [2], es decir, son homólogos.
El recurso hermano de CATH, Gene3D, proporciona datos de secuencias adicionales para dominios sin estructuras determinadas experimentalmente y se utilizan para poblar las superfamilias homólogas. Las secuencias de proteínas de UniProtKB y Ensembl se escanean en comparación con los HMM de CATH para predecir los límites de secuencia de dominios y realizar asignaciones de superfamilias homólogas.
El equipo de CATH publica nuevos datos en forma de instantáneas diarias y de publicaciones oficiales aproximadamente una vez al año. La última versión de CATH-Gene3D (v4.3) se publicó en diciembre de 2020 y consta de: [8]
CATH es un proyecto de software de código abierto , cuyos desarrolladores desarrollan y mantienen una serie de herramientas de código abierto, [9] que están disponibles públicamente en GitHub . [10]