Una matriz de repeticiones en tándem de proteínas se define como varias (al menos dos) copias adyacentes que tienen motivos de secuencia iguales o similares . Estas secuencias periódicas se generan por duplicaciones internas en secuencias genómicas codificantes y no codificantes. Las unidades repetitivas de repeticiones en tándem de proteínas son considerablemente diversas y varían desde la repetición de un solo aminoácido hasta dominios de 100 o más residuos. [1] [2]
"Repeticiones" en las proteínas
En proteínas , una "repetición" es cualquier bloque de secuencia que vuelve más de una vez en la secuencia , ya sea de forma idéntica o muy similar. El grado de similitud puede ser muy variable, y algunas repeticiones mantienen solo unas pocas posiciones de aminoácidos conservadas y una longitud característica. Las repeticiones muy degeneradas pueden ser muy difíciles de detectar a partir de la secuencia únicamente. La similitud estructural puede ayudar a identificar patrones repetitivos en la secuencia.
Estructura
La repetitividad en sí misma no indica nada sobre la estructura de la proteína. Como "regla general", las secuencias repetitivas cortas (por ejemplo, aquellas con una longitud inferior a 10 aminoácidos) pueden estar intrínsecamente desordenadas y no formar parte de ningún dominio proteico plegado . Las repeticiones que tienen al menos entre 30 y 40 aminoácidos de longitud tienen muchas más probabilidades de estar plegadas como parte de un dominio. Esas repeticiones tan largas suelen indicar la presencia de un dominio solenoide en la proteína.
Aproximadamente la mitad de las regiones de repetición en tándem tienen una conformación intrínsecamente desordenada al desplegarse naturalmente. [3] [4] [5] Los ejemplos de secuencias repetitivas desordenadas incluyen las repeticiones de péptidos de 7 meros que se encuentran en la subunidad RPB1 de la ARN polimerasa II , [6] o los motivos lineales de unión a beta-catenina o axina en APC (poliposis adenomatosa coli). [7] La otra mitad de las regiones con la estructura 3D estable tiene una gran cantidad de formas y funciones. [8] [9] Los ejemplos de repeticiones cortas que exhiben estructuras ordenadas incluyen la repetición de colágeno de tres residuos o la repetición de pentapéptido de cinco residuos que forma una estructura de hélice beta .
Clasificación
Dependiendo de la longitud de las unidades repetitivas, sus estructuras proteicas se pueden subdividir en cinco clases: [8] [9]
Estructuras fibrosas estabilizadas por interacciones entre cadenas con repeticiones de 3 a 7 residuos.
Estructuras alargadas con repeticiones de 5 a 40 residuos dominadas por proteínas solenoides.
estructuras cerradas (no alargadas) con repeticiones de 30-60 residuos como repeticiones toroidales
cuentas en estructuras de cuerda con un tamaño típico de repeticiones de más de 50 residuos, que ya son lo suficientemente grandes como para plegarse independientemente en dominios estables.
Función
Algunos ejemplos bien conocidos de proteínas con repeticiones en tándem son el colágeno , que desempeña un papel clave en la disposición de la matriz extracelular; las espirales alfa-helicoidales que tienen funciones estructurales y de oligomerización; las proteínas repetidas ricas en leucina , que se unen específicamente a algunas proteínas globulares por sus superficies cóncavas; y las proteínas con dedos de zinc , que regulan la expresión de los genes uniéndose al ADN .
Las proteínas repetidas en tándem funcionan frecuentemente como módulos de interacción proteína-proteína. La repetición WD40 es un excelente ejemplo de esta función. [10]
Distribución en proteomas
Las repeticiones en tándem son omnipresentes en los proteomas y se presentan en al menos el 14% de todas las proteínas. [11] Por ejemplo, están presentes en casi cada tercera proteína humana e incluso en cada segunda proteína de Plasmodium falciparum o Dictyostelium discoideum . [11] [12] Las repeticiones en tándem con unidades repetitivas cortas (especialmente homorrepeticiones) son más frecuentes que otras. [11]
Métodos de anotación
Las repeticiones en tándem de proteínas se pueden detectar a partir de la secuencia o anotar a partir de la estructura. Se han desarrollado métodos especializados para la identificación de proteínas repetidas. [13]
Las estrategias basadas en secuencias, basadas en la búsqueda de homología [14] o la asignación de dominios, [15] [16] en su mayoría subestiman los TR debido a la presencia de unidades repetidas altamente degeneradas. [17] Un estudio reciente para comprender y mejorar la cobertura de Pfam del proteoma humano [17] mostró que cinco de los diez grupos de secuencias más grandes no anotados con Pfam son regiones repetidas. Alternativamente, los métodos que no requieren conocimientos previos para la detección de subcadenas repetidas pueden basarse en autocomparación, [18] [19] agrupamiento [20] [21] o modelos ocultos de Markov. [22] [23] Algunos otros se basan en mediciones de complejidad [13] o aprovechan las metabúsquedas para combinar resultados de diferentes fuentes. [24] [25]
Los métodos basados en la estructura, en cambio, aprovechan la modularidad de las estructuras PDB disponibles para reconocer elementos repetitivos. [26] [27] [28] [29] [30]
Referencias
^ Heringa J (junio de 1998). "Detección de repeticiones internas: ¿cuán comunes son?". Current Opinion in Structural Biology . 8 (3): 338–45. doi :10.1016/s0959-440x(98)80068-7. PMID 9666330.
^ Andrade MA, Ponting CP, Gibson TJ, Bork P (mayo de 2000). "Método basado en homología para la identificación de repeticiones de proteínas utilizando estimaciones de significación estadística". Journal of Molecular Biology . 298 (3): 521–37. doi :10.1006/jmbi.2000.3684. PMID 10772867.
^ Tompa P (septiembre de 2003). "Las proteínas intrínsecamente no estructuradas evolucionan mediante expansión de repeticiones". BioEssays . 25 (9): 847–55. doi :10.1002/bies.10324. PMID 12938174. S2CID 32684524.
^ Simon M, Hancock JM (2009). "Las repeticiones de aminoácidos en tándem y crípticas se acumulan en regiones desordenadas de proteínas". Genome Biology . 10 (6): R59. doi : 10.1186/gb-2009-10-6-r59 . PMC 2718493 . PMID 19486509.
^ Jorda J, Xue B, Uversky VN, Kajava AV (junio de 2010). "Repeticiones en tándem de proteínas: cuanto más perfectas, menos estructuradas" (PDF) . The FEBS Journal . 277 (12): 2673–82. doi :10.1111/j.1742-4658.2010.07684.x. PMC 2928880. PMID 20553501 .
^ Meyer PA, Ye P, Zhang M, Suh MH, Fu J (junio de 2006). "Phasing RNA polymerase II using intrínsically bound Zn atoms: an updated structure model" (Phasing de la ARN polimerasa II utilizando átomos de Zn intrínsecamente unidos: un modelo estructural actualizado). Structure . 14 (6): 973–82. doi : 10.1016/j.str.2006.04.003 . PMID 16765890.
^ Liu J, Xing Y, Hinds TR, Zheng J, Xu W (junio de 2006). "La tercera repetición de 20 aminoácidos es el sitio de unión más estrecho de APC para beta-catenina". J. Mol. Biol . 360 (1): 133–44. doi :10.1016/j.jmb.2006.04.064. PMID 16753179.
^ ab Kajava AV (septiembre de 2012). "Repeticiones en tándem en proteínas: de la secuencia a la estructura". Journal of Structural Biology . 179 (3): 279–88. doi :10.1016/j.jsb.2011.08.009. PMID 21884799.
^ ab Paladin L, Hirsh L, Piovesan D, Andrade-Navarro MA, Kajava AV, Tosatto SC (enero de 2017). "RepeatsDB 2.0: mejora de la anotación, clasificación, búsqueda y visualización de estructuras de proteínas repetidas". Nucleic Acids Research . 45 (D1): D308–D312. doi :10.1093/nar/gkw1136. PMC 5210593 . PMID 27899671.
^ Stirnimann CU, Petsalaki E, Russell RB, Müller CW (octubre de 2010). "Las proteínas WD40 impulsan las redes celulares". Tendencias en ciencias bioquímicas . 35 (10): 565–74. doi :10.1016/j.tibs.2010.04.003. PMID 20451393.
^ abc Marcotte EM, Pellegrini M, Yeates TO, Eisenberg D (octubre de 1999). "Un censo de repeticiones de proteínas". Revista de biología molecular . 293 (1): 151–60. doi :10.1006/jmbi.1999.3136. PMID 10512723.
^ Pellegrini M (2015). "Repeticiones en tándem en proteínas: algoritmos de predicción y función biológica". Frontiers in Bioengineering and Biotechnology . 3 : 143. doi : 10.3389/fbioe.2015.00143 . PMC 4585158 . PMID 26442257.
^ ab Pellegrini M, Renda ME, Vecchio A (2012). "Detección ab initio de repeticiones en tándem de aminoácidos difusos en secuencias de proteínas". BMC Bioinformatics . 13 (Supl 3): S8. doi : 10.1186/1471-2105-13-S3-S8 . PMC 3402919 . PMID 22536906.{{cite journal}}: CS1 maint: varios nombres: lista de autores ( enlace )
^ Andrade MA, Ponting CP, Gibson TJ, Bork P (2000). "Método basado en homología para la identificación de repeticiones de proteínas utilizando estimaciones de significación estadística". J Mol Biol . 298 (3): 521–37. doi :10.1006/jmbi.2000.3684. PMID 10772867.{{cite journal}}: CS1 maint: varios nombres: lista de autores ( enlace )
^ El-Gebali S, Mistry J, Bateman A, Eddy SR, Luciani A, Potter SC; et al. (2019). "La base de datos de familias de proteínas Pfam en 2019". Nucleic Acids Res . 47 (D1): D427–D432. doi :10.1093/nar/gky995. PMC 6324024 . PMID 30357350.{{cite journal}}: CS1 maint: varios nombres: lista de autores ( enlace )
^ Mitchell AL, Attwood TK, Babbitt PC, Blum M, Bork P, Bridge A; et al. (2019). "InterPro en 2019: mejora de la cobertura, la clasificación y el acceso a las anotaciones de secuencias de proteínas". Nucleic Acids Res . 47 (D1): D351–D360. doi :10.1093/nar/gky1100. PMC 6323941 . PMID 30398656.{{cite journal}}: CS1 maint: varios nombres: lista de autores ( enlace )
^ ab Mistry J, Coggill P, Eberhardt RY, Deiana A, Giansanti A, Finn RD; et al. (2013). "El desafío de aumentar la cobertura de Pfam del proteoma humano". Base de datos (Oxford) . 2013 : bat023. doi :10.1093/database/bat023. PMC 3630804. PMID 23603847 .{{cite journal}}: CS1 maint: varios nombres: lista de autores ( enlace )
^ Heger A, Holm L (2000). "Detección y alineación automáticas rápidas de repeticiones en secuencias de proteínas". Proteins . 41 (2): 224–37. doi :10.1002/1097-0134(20001101)41:2<224::aid-prot70>3.0.co;2-z. PMID 10966575. S2CID 21757391.
^ Szklarczyk R, Heringa J (2004). "Seguimiento de repeticiones mediante significancia y transitividad". Bioinformática . 20 (Supl 1): i311-7. doi : 10.1093/bioinformatics/bth911 . PMID 15262814.
^ Newman AM, Cooper JB (2007). "XSTREAM: un algoritmo práctico para la identificación y modelado de la arquitectura de repeticiones en tándem en secuencias de proteínas". BMC Bioinformatics . 8 : 382. doi : 10.1186/1471-2105-8-382 . PMC 2233649 . PMID 17931424.
^ Jorda J, Kajava AV (2009). "T-REKS: identificación de repeticiones en tándem en secuencias con un algoritmo basado en K-meanS". Bioinformática . 25 (20): 2632–8. doi : 10.1093/bioinformatics/btp482 . PMID 19671691.
^ Söding J, Remmert M, Biegert A (2006). "HHrep: detección de repeticiones de proteínas de novo y el origen de los barriles TIM". Nucleic Acids Res . 34 (edición del servidor web): W137-42. doi :10.1093/nar/gkl130. PMC 1538828 . PMID 16844977.{{cite journal}}: CS1 maint: varios nombres: lista de autores ( enlace )
^ Biegert A, Söding J (2008). "Identificación de novo de repeticiones de proteínas altamente divergentes mediante consistencia probabilística". Bioinformática . 24 (6): 807–14. doi : 10.1093/bioinformatics/btn039 . hdl : 11858/00-001M-0000-0017-DADF-9 . PMID 18245125.
^ Gruber M, Söding J, Lupas AN (2005). "REPPER--repeticiones y sus periodicidades en proteínas fibrosas". Nucleic Acids Res . 33 (edición del servidor web): W239-43. doi :10.1093/nar/gki405. PMC 1160166 . PMID 15980460.{{cite journal}}: CS1 maint: varios nombres: lista de autores ( enlace )
^ Schaper E, Anisimova M (2015). "La evolución y función de las repeticiones en tándem de proteínas en plantas". New Phytol . 206 (1): 397–410. doi : 10.1111/nph.13184 . PMID 25420631. S2CID 20656455.
^ Abraham AL, Rocha EP, Pothier J (2008). "Swelfe: un detector de repeticiones internas en secuencias y estructuras". Bioinformática . 24 (13): 1536–7. doi :10.1093/bioinformatics/btn234. PMC 2718673 . PMID 18487242.{{cite journal}}: CS1 maint: varios nombres: lista de autores ( enlace )
^ Sabarinathan R, Basu R, Sekar K (2010). "ProSTRIP: Un método para encontrar repeticiones estructurales similares en estructuras proteicas tridimensionales". Comput Biol Chem . 34 (2): 126–30. doi :10.1016/j.compbiolchem.2010.03.006. PMID 20430700.{{cite journal}}: CS1 maint: varios nombres: lista de autores ( enlace )
^ Walsh I, Sirocco FG, Minervini G, Di Domenico T, Ferrari C, Tosatto SC (2012). "RAPHAEL: reconocimiento, periodicidad y asignación de inserción de estructuras de proteínas solenoides". Bioinformática . 28 (24): 3257–64. doi : 10.1093/bioinformatics/bts550 . PMID 22962341.{{cite journal}}: CS1 maint: varios nombres: lista de autores ( enlace )
^ Hrabe T, Godzik A (2014). "ConSole: uso de la modularidad de los mapas de contacto para localizar dominios de solenoides en estructuras proteínicas". BMC Bioinformatics . 15 : 119. doi : 10.1186/1471-2105-15-119 . PMC 4021314 . PMID 24766872.
^ Do Viet P, Roche DB, Kajava AV (2015). "TAPO: Un método combinado para la identificación de repeticiones en tándem en estructuras proteínicas". FEBS Lett . 589 (19 Pt A): 2611–9. doi : 10.1016/j.febslet.2015.08.025 . PMID 26320412. S2CID 28423787.{{cite journal}}: CS1 maint: varios nombres: lista de autores ( enlace )
Enlaces externos
RepeatsDB: una base de datos de estructuras de proteínas repetidas en tándem anotadas