Una familia de proteínas es un grupo de proteínas relacionadas evolutivamente . En muchos casos, una familia de proteínas tiene una familia de genes correspondiente , en la que cada gen codifica una proteína correspondiente con una relación 1:1. El término "familia de proteínas" no debe confundirse con el término familia tal como se utiliza en taxonomía.
Las proteínas de una familia descienden de un ancestro común y normalmente tienen estructuras tridimensionales y funciones similares, y una similitud de secuencia significativa . [1] [2] La similitud de secuencia (normalmente la secuencia de aminoácidos) es uno de los indicadores más comunes de homología o ascendencia evolutiva común. [3] [4] Algunos marcos para evaluar la importancia de la similitud entre secuencias utilizan métodos de alineamiento de secuencias . Es poco probable que las proteínas que no comparten un ancestro común muestren una similitud de secuencia estadísticamente significativa, lo que hace que el alineamiento de secuencias sea una herramienta poderosa para identificar a los miembros de las familias de proteínas. [3] [4] Las familias a veces se agrupan en clados más grandes llamados superfamilias en función de la similitud estructural, incluso si no hay una homología de secuencia identificable.
Actualmente, se han definido más de 60.000 familias de proteínas, [5] aunque la ambigüedad en la definición de "familia de proteínas" lleva a distintos investigadores a utilizar cifras muy variables.
Terminología y uso
El término familia de proteínas tiene un uso amplio y puede aplicarse a grandes grupos de proteínas con similitud de secuencia apenas detectable, así como a grupos estrechos de proteínas con secuencia, función y estructura casi idénticas. Para distinguir entre estos casos, se utiliza una terminología jerárquica. En el nivel más alto de clasificación se encuentran las superfamilias de proteínas , que agrupan proteínas distantemente relacionadas, a menudo en función de su similitud estructural. [6] [7] [8] [9] A continuación están las familias de proteínas, que se refieren a proteínas con un origen evolutivo compartido exhibido por una similitud de secuencia significativa . [2] [10] Las subfamilias se pueden definir dentro de las familias para denotar proteínas estrechamente relacionadas que tienen funciones similares o idénticas. [11] Por ejemplo, una superfamilia como el clan PA de proteasas tiene menos conservación de secuencia que la familia C04 dentro de ella.
Las familias de proteínas se reconocieron por primera vez cuando la mayoría de las proteínas que se entendían estructuralmente eran proteínas pequeñas de un solo dominio, como la mioglobina , la hemoglobina y el citocromo c . Desde entonces, se han encontrado muchas proteínas con múltiples unidades estructurales y funcionales independientes llamadas dominios . Debido a la reorganización evolutiva, los diferentes dominios de una proteína han evolucionado de forma independiente. Esto ha llevado a centrarse en las familias de dominios de proteínas. Varios recursos en línea están dedicados a identificar y catalogar estos dominios. [12] [13]
Las distintas regiones de una proteína tienen distintas limitaciones funcionales. Por ejemplo, el sitio activo de una enzima requiere que ciertos residuos de aminoácidos estén orientados con precisión. Una interfaz de unión proteína-proteína puede consistir en una gran superficie con limitaciones en la hidrofobicidad o polaridad de los residuos de aminoácidos. Las regiones funcionalmente restringidas de las proteínas evolucionan más lentamente que las regiones sin restricciones, como los bucles de superficie, lo que da lugar a bloques de secuencia conservada cuando se comparan las secuencias de una familia de proteínas (véase alineamiento de secuencias múltiples ). Estos bloques se denominan más comúnmente motivos, aunque se utilizan muchos otros términos (bloques, firmas, huellas dactilares, etc.). Varios recursos en línea están dedicados a identificar y catalogar motivos de proteínas. [14]
Evolución de las familias de proteínas
Según el consenso actual, las familias de proteínas surgen de dos maneras. En primer lugar, la separación de una especie progenitora en dos especies descendientes genéticamente aisladas permite que un gen/proteína acumule variaciones ( mutaciones ) de forma independiente en estos dos linajes. Esto da como resultado una familia de proteínas ortólogas , generalmente con motivos de secuencia conservados. En segundo lugar, una duplicación genética puede crear una segunda copia de un gen (denominada parálogo ). Debido a que el gen original aún puede realizar su función, el gen duplicado es libre de divergir y puede adquirir nuevas funciones (por mutación aleatoria).
Ciertas familias de genes/proteínas, especialmente en eucariotas , experimentan expansiones y contracciones extremas en el curso de la evolución, a veces en concierto con duplicaciones de todo el genoma . Las expansiones son menos probables, y las pérdidas más probables, para proteínas intrínsecamente desordenadas y para dominios proteicos cuyos aminoácidos hidrofóbicos están más lejos del grado óptimo de dispersión a lo largo de la secuencia primaria. [15] Esta expansión y contracción de las familias de proteínas es una de las características sobresalientes de la evolución del genoma , pero su importancia y ramificaciones actualmente no están claras.
Uso e importancia de las familias de proteínas
A medida que aumenta el número total de proteínas secuenciadas y aumenta el interés en el análisis del proteoma , se está trabajando para organizar las proteínas en familias y describir sus dominios y motivos componentes. La identificación confiable de las familias de proteínas es fundamental para el análisis filogenético , la anotación funcional y la exploración de la diversidad de funciones de las proteínas en una rama filogenética dada. La Iniciativa de Función Enzimática utiliza familias y superfamilias de proteínas como base para el desarrollo de una estrategia basada en la secuencia/estructura para la asignación funcional a gran escala de enzimas de función desconocida. [16] Los medios algorítmicos para establecer familias de proteínas a gran escala se basan en una noción de similitud.
Recursos sobre la familia de las proteínas
Muchas bases de datos biológicas catalogan familias de proteínas y permiten a los usuarios hacer coincidir las secuencias de consulta con familias conocidas. Entre ellas se incluyen:
PASS2 - Alineamiento de proteínas como superfamilias estructurales v2 - PASS2@NCBS [17]
SUPERFAMILIA - Biblioteca de HMM que representan superfamilias y base de datos de anotaciones (de superfamilias y familias) para todos los organismos completamente secuenciados
SCOP y CATH - Clasificaciones de estructuras de proteínas en superfamilias, familias y dominios
De manera similar, existen muchos algoritmos de búsqueda en bases de datos, por ejemplo:
BLAST - Búsqueda de similitud de secuencias de ADN
BLASTp - Búsqueda de similitud de secuencias de proteínas
OrthoFinder - Método para agrupar proteínas en familias (ortogrupos) [18] [19]
^ "¿Qué son las familias de proteínas? Clasificación de proteínas". EMBL-EBI . Consultado el 14 de noviembre de 2023 .
^ ab Orengo, Christine; Bateman, Alex (2013). "Introducción". En Orengo, Christine; Bateman, Alex (eds.). Familias de proteínas: relación entre la secuencia, la estructura y la función de las proteínas . Hoboken, Nueva Jersey: John Wiley & Sons, Inc. pp. vii–xi. doi :10.1002/9781118743089.fmatter. ISBN9781118743089.
^ ab Pearson, William R. (2013). "Introducción a la búsqueda de similitud ("homología") de secuencias". Protocolos actuales en bioinformática . 3 : 3.1.1–3.1.8. doi :10.1002/0471250953.bi0301s42. ISSN 1934-3396. PMC 3820096. PMID 23749753 .
^ ab Chen, Junjie; Guo, Mingyue; Wang, Xiaolong; Liu, Bin (1 de marzo de 2018). "Una revisión exhaustiva y una comparación de diferentes métodos computacionales para la detección remota de homología de proteínas". Briefings in Bioinformatics . 19 (2): 231–244. doi :10.1093/bib/bbw108. ISSN 1477-4054. PMID 27881430.
^ Kunin, Víctor; Casos, Ildefonso; Bien, Antón J.; de Lorenzo, Víctor; Ouzounis, Christos A. (2003). "Miríadas de familias de proteínas, y seguimos contando". Biología del genoma . 4 (2): 401. doi : 10.1186/gb-2003-4-2-401 . ISSN 1474-760X. PMC 151299 . PMID 12620116.
^ Dayhoff, MO (diciembre de 1974). "Análisis informático de secuencias de proteínas". Actas de la Federación . 33 (12): 2314–6. PMID 4435228.
^ Dayhoff, Missouri; McLaughlin, PJ; Barker, WC; Cazar, LT (1975). "Evolución de secuencias dentro de superfamilias de proteínas". Die Naturwissenschaften . 62 (4): 154-161. Código bibliográfico : 1975NW.....62..154D. doi :10.1007/BF00608697. S2CID 40304076.
^ Dayhoff, MO (agosto de 1976). "El origen y la evolución de las superfamilias de proteínas". Actas de la Federación . 35 (10): 2132–8. PMID 181273.
^ Orengo, Christine A.; Thornton, Janet M. (1 de junio de 2005). "Familias de proteínas y su evolución: una perspectiva estructural". Revista anual de bioquímica . 74 (1): 867–900. doi :10.1146/annurev.biochem.74.082803.133029. ISSN 0066-4154. PMID 15954844.
^ Veeramachaneni, Vamsi; Makałowski, Wojciech (2004). "Visualización de la similitud de secuencias de familias de proteínas". Genome Research . 14 (6): 1160–1169. doi : 10.1101/gr.2079204 . ISSN 1088-9051. PMC 419794 . PMID 15140831.
^ Holm, Liisa; Heger, Andreas (2013). "Enfoques automatizados basados en secuencias para identificar familias de dominios". En Orengo, Christine; Bateman, Alex (eds.). Familias de proteínas: relación entre secuencia, estructura y función de proteínas . Hoboken, Nueva Jersey: John Wiley & Sons, Inc. págs. 1–24. doi :10.1002/9781118743089.ch1. ISBN9781118743089.S2CID85641264 .
^ Wang, Yan; Zhang, Hang; Zhong, Haolin; Xue, Zhidong (1 de enero de 2021). "Métodos de identificación de dominios proteicos y recursos en línea". Revista de biotecnología estructural y computacional . 19 : 1145–1153. doi : 10.1016/j.csbj.2021.01.041 . ISSN 2001-0370. PMC 7895673 . PMID 33680357.
^ Bateman, Alex (2013). "Clasificación de secuencias de familias de proteínas: Pfam y otros recursos". En Orengo, Christine; Bateman, Alex (eds.). Familias de proteínas: relación entre secuencia, estructura y función de las proteínas . Hoboken, Nueva Jersey: John Wiley & Sons, Inc. págs. 25–36. doi :10.1002/9781118743089.ch2. ISBN9781118743089.
^ Mulder, Nicola J.; Apweiler, Rolf (19 de diciembre de 2001). "Herramientas y recursos para identificar familias de proteínas, dominios y motivos". Genome Biology . 3 (1): reviews2001.1. doi : 10.1186/gb-2001-3-1-reviews2001 . ISSN 1474-760X. PMC 150457 . PMID 11806833.
^ James, Jennifer E; Nelson, Paul G; Masel, Joanna (4 de abril de 2023). "La retención diferencial de los dominios Pfam contribuye a las tendencias evolutivas a largo plazo". Biología molecular y evolución . 40 (4): msad073. doi :10.1093/molbev/msad073. PMC 10089649 . PMID 36947137.
^ Gerlt, John A.; Allen, Karen N.; Almo, Steven C.; Armstrong, Richard N.; Babbitt, Patricia C.; Cronan, John E.; Dunaway-Mariano, Debra; Imker, Heidi J.; Jacobson, Matthew P.; Minor, Wladek; Poulter, C. Dale; Raushel, Frank M.; Sali, Andrej; Shoichet, Brian K.; Sweedler, Jonathan V. (2011-11-22). "La iniciativa de la función enzimática". Bioquímica . 50 (46): 9950–9962. doi :10.1021/bi201312u. ISSN 0006-2960. PMC 3238057 . PMID 21999478.
^ Gandhimathi, A.; Nair, Anu G.; Sowdhamini, R. (2012). "PASS2 versión 4: Una actualización de la base de datos de alineaciones de secuencias basadas en la estructura de superfamilias de dominios estructurales". Investigación de ácidos nucleicos . 40 (D1): D531–D534. doi :10.1093/nar/gkr1096. ISSN 1362-4962. PMC 3245109 . PMID 22123743.
^ Emms, David M.; Kelly, Steven (6 de agosto de 2015). "OrthoFinder: la resolución de sesgos fundamentales en las comparaciones de todo el genoma mejora drásticamente la precisión de la inferencia de ortogrupos". Genome Biology . 16 (1): 157. doi : 10.1186/s13059-015-0721-2 . ISSN 1474-760X. PMC 4531804 . PMID 26243257.
^ Emms, David M.; Kelly, Steven (14 de noviembre de 2019). "OrthoFinder: inferencia de ortología filogenética para genómica comparativa". Biología del genoma . 20 (1): 238. doi : 10.1186/s13059-019-1832-y . ISSN 1474-760X. PMC 6857279 . PMID 31727128.
Enlaces externos
Medios relacionados con Familias de proteínas en Wikimedia Commons