stringtranslate.com

Repeticiones en tándem de proteínas

Ejemplos comunes de estructuras de repetición en tándem de proteínas: el dominio de repetición WD40 de beta-TrCP (verde), el dominio de repetición rico en leucina de TLR2 (rojo), el dominio de repetición de armadillo de beta-catenina (azul), el dominio de repetición de anquirina de ANKRA2 (naranja) , dominio de repetición kelch de Keap1 (amarillo) y dominio de repetición HEAT de una subunidad reguladora R1a de PP2A (magenta).

Una serie de repeticiones en tándem de proteínas se define como varias (al menos dos) copias adyacentes que tienen motivos de secuencia iguales o similares . Estas secuencias periódicas se generan mediante duplicaciones internas en secuencias genómicas codificantes y no codificantes. Las unidades repetitivas de repeticiones en tándem de proteínas son considerablemente diversas y van desde la repetición de un solo aminoácido hasta dominios de 100 o más residuos. [1] [2]

Representación esquemática de una secuencia repetida en tándem.

"Se repite" en proteínas

Ejemplo de alineación de secuencia múltiple de una repetición de pentapéptido que conduce a una estructura de repetición en tándem

En las proteínas , una "repetición" es cualquier bloque de secuencia que regresa más de una vez en la secuencia , ya sea en una forma idéntica o muy similar. El grado de similitud puede ser muy variable, y algunas repeticiones mantienen sólo unas pocas posiciones de aminoácidos conservadas y una longitud característica. Las repeticiones altamente degeneradas pueden ser muy difíciles de detectar únicamente a partir de la secuencia. La similitud estructural puede ayudar a identificar patrones repetitivos en secuencia.

Estructura

La repetitividad no indica en sí misma nada sobre la estructura de la proteína. Como "regla general", las secuencias repetitivas cortas (por ejemplo, aquellas con una longitud inferior a 10 aminoácidos) pueden estar intrínsecamente desordenadas y no formar parte de ningún dominio proteico plegado . Las repeticiones que tienen al menos 30 a 40 aminoácidos de longitud tienen muchas más probabilidades de plegarse como parte de un dominio. Estas repeticiones largas son frecuentemente indicativas de la presencia de un dominio solenoide en la proteína.

Aproximadamente la mitad de las regiones repetidas en tándem tienen una conformación intrínsecamente desordenada que se despliega de forma natural. [3] [4] [5] Ejemplos de secuencias repetitivas desordenadas incluyen las repeticiones peptídicas de 7 unidades que se encuentran en la subunidad RPB1 de la ARN polimerasa II , [6] o los motivos lineales de unión de beta-catenina o axina en tándem en APC (poliposis adenomatosa coli). [7] La ​​otra mitad de las regiones con la estructura 3D estable tiene una gran cantidad de formas y funciones. [8] [9] Ejemplos de repeticiones cortas que exhiben estructuras ordenadas incluyen la repetición de colágeno de tres residuos o la repetición de pentapéptido de cinco residuos que forma una estructura de hélice beta .

Clasificación

Dependiendo de la longitud de las unidades repetitivas, sus estructuras proteicas se pueden subdividir en cinco clases: [8] [9]

  1. agregados cristalinos formados por regiones con 1 o 2 residuos de repeticiones largas, regiones arquetípicas de baja complejidad
  2. estructuras fibrosas estabilizadas por interacciones entre cadenas con repeticiones de 3 a 7 residuos
  3. estructuras alargadas con repeticiones de 5 a 40 residuos dominados por proteínas solenoides
  4. Estructuras cerradas (no alargadas) con repeticiones de 30 a 60 residuos como repeticiones toroidales.
  5. cuentas en estructuras de cadena con un tamaño típico de repeticiones de más de 50 residuos, que ya son lo suficientemente grandes como para plegarse de forma independiente en dominios estables.

Función

Algunos ejemplos bien conocidos de proteínas con repeticiones en tándem son el colágeno , que juega un papel clave en la disposición de la matriz extracelular; bobinas helicoidales alfa que tienen funciones estructurales y de oligomerización; proteínas repetidas ricas en leucina , que se unen específicamente a algunas proteínas globulares por sus superficies cóncavas; y proteínas con dedos de zinc , que regulan la expresión de genes uniéndose al ADN .

Las proteínas repetidas en tándem funcionan frecuentemente como módulos de interacción proteína-proteína. La repetición WD40 es un excelente ejemplo de esta función. [10]

Distribución en proteomas.

Las repeticiones en tándem son omnipresentes en los proteomas y ocurren en al menos el 14% de todas las proteínas. [11] Por ejemplo, están presentes en casi una de cada tres proteínas humanas e incluso en una de cada dos proteínas de Plasmodium falciparum o Dictyostelium discoideum . [11] [12] Las repeticiones en tándem con unidades repetitivas cortas (especialmente homorepeticiones) son más frecuentes que otras. [11]

Métodos de anotación

Las repeticiones en tándem de proteínas pueden detectarse a partir de la secuencia o anotarse a partir de la estructura. Se construyeron métodos especializados para la identificación de proteínas repetidas. [13]

Las estrategias basadas en secuencias, basadas en la búsqueda de homología [14] o la asignación de dominio, [15] [16] en su mayoría subestiman los TR debido a la presencia de unidades repetitivas altamente degeneradas. [17] Un estudio reciente para comprender y mejorar la cobertura de Pfam del proteoma humano [17] mostró que cinco de los diez grupos de secuencias más grandes no anotados con Pfam son regiones repetidas. Alternativamente, los métodos que no requieren conocimientos previos para la detección de subcadenas repetidas pueden basarse en la autocomparación, [18] [19] agrupamiento [20] [21] o modelos ocultos de Markov. [22] [23] Algunos otros se basan en mediciones de complejidad [13] o aprovechan las metabúsquedas para combinar resultados de diferentes fuentes. [24] [25]

En cambio, los métodos basados ​​en estructuras aprovechan la modularidad de las estructuras PDB disponibles para reconocer elementos repetitivos. [26] [27] [28] [29] [30]

Referencias

  1. ^ Heringa J (junio de 1998). "Detección de repeticiones internas: ¿qué tan comunes son?". Opinión actual en biología estructural . 8 (3): 338–45. doi :10.1016/s0959-440x(98)80068-7. PMID  9666330.
  2. ^ Andrade MA, Ponting CP, Gibson TJ, Bork P (mayo de 2000). "Método basado en homología para la identificación de repeticiones de proteínas mediante estimaciones de significación estadística". Revista de biología molecular . 298 (3): 521–37. doi :10.1006/jmbi.2000.3684. PMID  10772867.
  3. ^ Tompa P (septiembre de 2003). "Las proteínas intrínsecamente no estructuradas evolucionan mediante expansión repetida". Bioensayos . 25 (9): 847–55. doi :10.1002/bies.10324. PMID  12938174. S2CID  32684524.
  4. ^ Simon M, Hancock JM (2009). "Las repeticiones de aminoácidos crípticas y en tándem se acumulan en regiones desordenadas de proteínas". Biología del genoma . 10 (6): R59. doi : 10.1186/gb-2009-10-6-r59 . PMC 2718493 . PMID  19486509. 
  5. ^ Jorda J, Xue B, Uversky VN, Kajava AV (junio de 2010). "Repeticiones en tándem de proteínas: cuanto más perfectas, menos estructuradas" (PDF) . El Diario FEBS . 277 (12): 2673–82. doi :10.1111/j.1742-4658.2010.07684.x. PMC 2928880 . PMID  20553501. 
  6. ^ Meyer PA, Ye P, Zhang M, Suh MH, Fu J (junio de 2006). "Fase de la ARN polimerasa II utilizando átomos de Zn intrínsecamente unidos: un modelo estructural actualizado". Estructura . 14 (6): 973–82. doi : 10.1016/j.str.2006.04.003 . PMID  16765890.
  7. ^ Liu J, Xing Y, Hinds TR, Zheng J, Xu W (junio de 2006). "La tercera repetición de 20 aminoácidos es el sitio de unión más estrecho de APC para la beta-catenina". J. Mol. Biol . 360 (1): 133–44. doi :10.1016/j.jmb.2006.04.064. PMID  16753179.
  8. ^ ab Kajava AV (septiembre de 2012). "Repeticiones en tándem en proteínas: de la secuencia a la estructura". Revista de biología estructural . 179 (3): 279–88. doi :10.1016/j.jsb.2011.08.009. PMID  21884799.
  9. ^ ab Paladin L, Hirsh L, Piovesan D, Andrade-Navarro MA, Kajava AV, Tosatto SC (enero de 2017). "RepeatsDB 2.0: anotación, clasificación, búsqueda y visualización mejoradas de estructuras de proteínas repetidas". Investigación de ácidos nucleicos . 45 (D1): D308–D312. doi :10.1093/nar/gkw1136. PMC 5210593 . PMID  27899671. 
  10. ^ Stirnimann CU, Petsalaki E, Russell RB, Müller CW (octubre de 2010). "Las proteínas WD40 impulsan las redes celulares". Tendencias en Ciencias Bioquímicas . 35 (10): 565–74. doi :10.1016/j.tibs.2010.04.003. PMID  20451393.
  11. ^ abc Marcotte EM, Pellegrini M, Yeates TO, Eisenberg D (octubre de 1999). "Un censo de repeticiones de proteínas". Revista de biología molecular . 293 (1): 151–60. doi :10.1006/jmbi.1999.3136. PMID  10512723.
  12. ^ Pellegrini M (2015). "Repeticiones en tándem en proteínas: algoritmos de predicción y función biológica". Fronteras en Bioingeniería y Biotecnología . 3 : 143. doi : 10.3389/fbioe.2015.00143 . PMC 4585158 . PMID  26442257. 
  13. ^ ab Pellegrini M, Renda ME, Vecchio A (2012). "Detección ab initio de repeticiones en tándem de aminoácidos difusos en secuencias de proteínas". Bioinformática BMC . 13 (Suplemento 3): T8. doi : 10.1186/1471-2105-13-S3-S8 . PMC 3402919 . PMID  22536906. {{cite journal}}: Mantenimiento CS1: varios nombres: lista de autores ( enlace )
  14. ^ Andrade MA, Ponting CP, Gibson TJ, Bork P (2000). "Método basado en homología para la identificación de repeticiones de proteínas mediante estimaciones de significación estadística". J Mol Biol . 298 (3): 521–37. doi :10.1006/jmbi.2000.3684. PMID  10772867.{{cite journal}}: Mantenimiento CS1: varios nombres: lista de autores ( enlace )
  15. ^ El-Gebali S, Mistry J, Bateman A, Eddy SR, Luciani A, Potter SC; et al. (2019). "La base de datos de familias de proteínas Pfam en 2019". Ácidos nucleicos Res . 47 (D1): D427–D432. doi : 10.1093/nar/gky995. PMC 6324024 . PMID  30357350. {{cite journal}}: Mantenimiento CS1: varios nombres: lista de autores ( enlace )
  16. ^ Mitchell AL, Attwood TK, Babbitt PC, Blum M, Bork P, Puente A; et al. (2019). "InterPro en 2019: mejora de la cobertura, clasificación y acceso a anotaciones de secuencias de proteínas". Ácidos nucleicos Res . 47 (D1): D351-D360. doi : 10.1093/nar/gky1100. PMC 6323941 . PMID  30398656. {{cite journal}}: Mantenimiento CS1: varios nombres: lista de autores ( enlace )
  17. ^ ab Mistry J, Coggill P, Eberhardt RY, Deiana A, Giansanti A, Finn RD; et al. (2013). "El desafío de incrementar la cobertura de Pfam del proteoma humano". Base de datos (Oxford) . 2013 : bat023. doi : 10.1093/database/bat023. PMC 3630804 . PMID  23603847. {{cite journal}}: Mantenimiento CS1: varios nombres: lista de autores ( enlace )
  18. ^ Heger A, Holm L (2000). "Detección automática rápida y alineación de repeticiones en secuencias de proteínas". Proteínas . 41 (2): 224–37. doi :10.1002/1097-0134(20001101)41:2<224::aid-prot70>3.0.co;2-z. PMID  10966575. S2CID  21757391.
  19. ^ Szklarczyk R, Heringa J (2004). "Seguimiento de repeticiones utilizando significado y transitividad". Bioinformática . 20 (Suplemento 1): i311-7. doi : 10.1093/bioinformática/bth911 . PMID  15262814.
  20. ^ Newman AM, Cooper JB (2007). "XSTREAM: un algoritmo práctico para la identificación y modelado de arquitectura de repeticiones en tándem en secuencias de proteínas". Bioinformática BMC . 8 : 382. doi : 10.1186/1471-2105-8-382 . PMC 2233649 . PMID  17931424. 
  21. ^ Jorda J, Kajava AV (2009). "T-REKS: identificación de Tandem REpeats en secuencias con un algoritmo basado en K-meanS". Bioinformática . 25 (20): 2632–8. doi : 10.1093/bioinformática/btp482 . PMID  19671691.
  22. ^ Söding J, Remmert M, Biegert A (2006). "HHrep: detección de repetición de proteínas de novo y el origen de los barriles TIM". Ácidos nucleicos Res . 34 (problema del servidor web): W137-42. doi :10.1093/nar/gkl130. PMC 1538828 . PMID  16844977. {{cite journal}}: Mantenimiento CS1: varios nombres: lista de autores ( enlace )
  23. ^ Biegert A, Söding J (2008). "Identificación de novo de repeticiones de proteínas altamente divergentes por consistencia probabilística". Bioinformática . 24 (6): 807–14. doi : 10.1093/bioinformática/btn039 . hdl : 11858/00-001M-0000-0017-DADF-9 . PMID  18245125.
  24. ^ Gruber M, Söding J, Lupas AN (2005). "REPPER - repeticiones y sus periodicidades en proteínas fibrosas". Ácidos nucleicos Res . 33 (problema del servidor web): W239-43. doi : 10.1093/nar/gki405. PMC 1160166 . PMID  15980460. {{cite journal}}: Mantenimiento CS1: varios nombres: lista de autores ( enlace )
  25. ^ Schaper E, Anisimova M (2015). "La evolución y función de las repeticiones en tándem de proteínas en las plantas". Nuevo Fitol . 206 (1): 397–410. doi : 10.1111/nph.13184 . PMID  25420631. S2CID  20656455.
  26. ^ Abraham AL, Rocha EP, Pothier J (2008). "Swelfe: un detector de repeticiones internas en secuencias y estructuras". Bioinformática . 24 (13): 1536–7. doi : 10.1093/bioinformática/btn234. PMC 2718673 . PMID  18487242. {{cite journal}}: Mantenimiento CS1: varios nombres: lista de autores ( enlace )
  27. ^ Sabarinathan R, Basu R, Sekar K (2010). "ProSTRIP: un método para encontrar repeticiones estructurales similares en estructuras de proteínas tridimensionales". Computación Bioquímica . 34 (2): 126–30. doi :10.1016/j.compbiolchem.2010.03.006. PMID  20430700.{{cite journal}}: Mantenimiento CS1: varios nombres: lista de autores ( enlace )
  28. ^ Walsh I, Sirocco FG, Minervini G, Di Domenico T, Ferrari C, Tosatto SC (2012). "RAPHAEL: reconocimiento, periodicidad y asignación de inserción de estructuras proteicas solenoides". Bioinformática . 28 (24): 3257–64. doi : 10.1093/bioinformática/bts550 . PMID  22962341.{{cite journal}}: Mantenimiento CS1: varios nombres: lista de autores ( enlace )
  29. ^ Hrabe T, Godzik A (2014). "ConSole: uso de modularidad de mapas de contacto para localizar dominios de solenoides en estructuras de proteínas". Bioinformática BMC . 15 : 119. doi : 10.1186/1471-2105-15-119 . PMC 4021314 . PMID  24766872. 
  30. ^ Do Viet P, Roche DB, Kajava AV (2015). "TAPO: un método combinado para la identificación de repeticiones en tándem en estructuras proteicas". FEBS Lett . 589 (19 parte A): 2611–9. doi : 10.1016/j.febslet.2015.08.025 . PMID  26320412. S2CID  28423787.{{cite journal}}: Mantenimiento CS1: varios nombres: lista de autores ( enlace )

enlaces externos