HH-suite es un paquete de software de código abierto para la búsqueda sensible de secuencias de proteínas . Contiene programas que pueden buscar secuencias de proteínas similares en bases de datos de secuencias de proteínas. Las búsquedas de secuencias son una herramienta estándar en la biología moderna con la que se puede inferir la función de proteínas desconocidas a partir de las funciones de proteínas con secuencias similares. HHsearch y HHblits son dos programas principales del paquete y el punto de entrada a su función de búsqueda, siendo este último una iteración más rápida. [2] [3] HHpred es un servidor en línea para la predicción de la estructura de proteínas que utiliza información de homología de HH-suite. [4]
El HH-suite busca secuencias utilizando modelos ocultos de Markov (HMM). El nombre proviene del hecho de que realiza alineaciones HMM-HMM. Entre los métodos más populares para la comparación de secuencias de proteínas, los programas han sido citados más de 5000 veces en total según Google Scholar . [5]
Las proteínas son actores centrales en todos los procesos de la vida. Entenderlas es fundamental para entender los procesos moleculares en las células. Esto es particularmente importante para entender el origen de las enfermedades. Pero para una gran fracción de las aproximadamente 20 000 proteínas humanas, las estructuras y funciones siguen siendo desconocidas. Muchas proteínas se han investigado en organismos modelo, como muchas bacterias, levadura de panadería, moscas de la fruta, peces cebra o ratones, para los cuales los experimentos se pueden hacer a menudo más fácilmente que con células humanas. Para predecir la función, estructura u otras propiedades de una proteína para la cual solo se conoce su secuencia de aminoácidos, la secuencia de la proteína se compara con las secuencias de otras proteínas en bases de datos públicas. Si se encuentra una proteína con una secuencia suficientemente similar, es probable que las dos proteínas estén relacionadas evolutivamente ( "homólogas" ). En ese caso, es probable que compartan estructuras y funciones similares. Por lo tanto, si una proteína con una secuencia suficientemente similar y con funciones y/o estructura conocidas se puede encontrar mediante la búsqueda de secuencia, se pueden predecir las funciones, la estructura y la composición de dominios de la proteína desconocida. Estas predicciones facilitan enormemente la determinación de la función o estructura mediante experimentos de validación específicos.
Los biólogos realizan con frecuencia búsquedas de secuencias para inferir la función de una proteína desconocida a partir de su secuencia. Para ello, se compara la secuencia de la proteína con las secuencias de otras proteínas en bases de datos públicas y se deduce su función a partir de las secuencias más similares. A menudo, en dicha búsqueda no se pueden encontrar secuencias con funciones anotadas. En este caso, se requieren métodos más sensibles para identificar proteínas o familias de proteínas más remotamente relacionadas. A partir de estas relaciones, se pueden inferir hipótesis sobre las funciones, la estructura y la composición de dominios de la proteína . HHsearch realiza búsquedas con una secuencia de proteína a través de bases de datos. El servidor HHpred y el paquete de software HH-suite ofrecen muchas bases de datos populares y actualizadas periódicamente, como Protein Data Bank , así como las bases de datos InterPro , Pfam , COG y SCOP .
Los métodos modernos y sensibles para la búsqueda de proteínas utilizan perfiles de secuencias. Pueden utilizarse para comparar una secuencia con un perfil o, en casos más avanzados como HH-suite, para hacer coincidir entre perfiles. [2] [6] [7] [8] Los perfiles y alineamientos se derivan a su vez de coincidencias, utilizando por ejemplo PSI-BLAST o HHblits. Un perfil de matriz de puntuación específica de posición (PSSM) contiene para cada posición en la secuencia de consulta la puntuación de similitud para los 20 aminoácidos. Los perfiles se derivan de alineaciones de secuencias múltiples (MSA), en las que las proteínas relacionadas se escriben juntas (alineadas), de modo que las frecuencias de aminoácidos en cada posición se pueden interpretar como probabilidades de aminoácidos en nuevas proteínas relacionadas y se pueden utilizar para derivar las "puntuaciones de similitud". Debido a que los perfiles contienen mucha más información que una sola secuencia (por ejemplo, el grado de conservación específico de la posición), los métodos de comparación perfil-perfil son mucho más potentes que los métodos de comparación secuencia-secuencia como BLAST o los métodos de comparación perfil-secuencia como PSI-BLAST. [6]
HHpred y HHsearch representan las proteínas de consulta y de base de datos mediante modelos ocultos de Markov (HMM) de perfil, una extensión de los perfiles de secuencia PSSM que también registra las frecuencias de inserción y eliminación de aminoácidos en posiciones específicas. HHsearch busca en una base de datos de HMM con un HMM de consulta. Antes de iniciar la búsqueda en la base de datos real de HMM, HHsearch/HHpred crea una alineación de secuencias múltiples de secuencias relacionadas con la secuencia de consulta/MSA utilizando el programa HHblits. A partir de esta alineación, se calcula un HMM de perfil. Las bases de datos contienen HMM que se calculan previamente de la misma manera utilizando PSI-BLAST. El resultado de HHpred y HHsearch es una lista clasificada de coincidencias de la base de datos (incluidos los valores E y las probabilidades de una relación verdadera) y las alineaciones de secuencias de consulta-base de datos por pares.
HHblits, parte de la suite HH desde 2001, crea alineaciones de secuencias múltiples (MSA) de alta calidad a partir de una única secuencia de consulta o una MSA. Al igual que en PSI-BLAST, funciona de forma iterativa, construyendo repetidamente nuevos perfiles de consulta añadiendo los resultados encontrados en la ronda anterior. Compara con bases de datos HMM preconstruidas derivadas de bases de datos de secuencias de proteínas, cada una de las cuales representa un "grupo" de proteínas relacionadas. En el caso de HHblits, dichas comparaciones se realizan a nivel de perfiles HMM-HMM, lo que otorga una sensibilidad adicional. Su prefiltrado reduce las decenas de millones de HMM con los que se deben comparar a unos pocos miles de ellos, acelerando así el lento proceso de comparación HMM-HMM. [3]
La suite HH viene con una serie de HMM de perfil prediseñados que se pueden buscar utilizando HHblits y HHsearch, entre ellos una versión agrupada de la base de datos UniProt , del Protein Data Bank de proteínas con estructuras conocidas, de alineaciones de la familia de proteínas Pfam , de dominios de proteínas estructurales SCOP y muchos más. [9]
Las aplicaciones de HHpred y HHsearch incluyen la predicción de la estructura de proteínas, la predicción de estructuras complejas, la predicción de funciones, la predicción de dominios, la predicción de límites de dominios y la clasificación evolutiva de proteínas. [10]
HHsearch se utiliza a menudo para el modelado de homología , es decir, para construir un modelo de la estructura de una proteína de consulta para la que solo se conoce la secuencia: para ese propósito, se busca en una base de datos de proteínas con estructuras conocidas, como el banco de datos de proteínas, proteínas "plantilla" similares a la proteína de consulta. Si se encuentra dicha proteína plantilla, se puede predecir la estructura de la proteína de interés en función de una alineación de secuencia por pares de la consulta con la secuencia de la proteína plantilla. Por ejemplo, una búsqueda a través de la base de datos PDB de proteínas con estructura 3D resuelta lleva unos minutos. Si se encuentra una coincidencia significativa con una proteína de estructura conocida (una "plantilla") en la base de datos PDB, HHpred permite al usuario construir un modelo de homología utilizando el software MODELLER , comenzando desde la alineación por pares de consulta-plantilla.
Los servidores HHpred han sido clasificados entre los mejores servidores durante CASP 7, 8 y 9, para experimentos de predicción ciega de la estructura de proteínas. En CASP9, HHpredA, B y C ocuparon el primer, segundo y tercer lugar de los 81 servidores de predicción automática de la estructura participantes en el modelado basado en plantillas [11] y el sexto, séptimo y octavo lugar en los 147 objetivos, a la vez que eran mucho más rápidos que los 20 mejores servidores. [12] En CASP 8, HHpred ocupó el séptimo lugar en todos los objetivos y el segundo en el subconjunto de proteínas de dominio único, a la vez que seguía siendo más de 50 veces más rápido que los servidores mejor clasificados. [4]
Además de HHsearch y HHblits, la suite HH contiene programas y scripts de Perl para la conversión de formatos, el filtrado de MSA, la generación de HMM de perfil, la adición de predicciones de estructura secundaria a MSA, la extracción de alineaciones de la salida del programa y la generación de bases de datos personalizadas.
El algoritmo de alineación HMM-HMM de HHblits y HHsearch se aceleró significativamente utilizando instrucciones vectoriales en la versión 3 de HH-suite. [13]