familia de proteínas

Una familia de proteínas es un grupo de proteínas relacionadas evolutivamente . En muchos casos, una familia de proteínas tiene una familia de genes correspondiente , en la que cada gen codifica una proteína correspondiente con una relación 1:1. El término "familia de proteínas" no debe confundirse con familia tal como se utiliza en taxonomía.

Las proteínas de una familia descienden de un ancestro común y normalmente tienen estructuras tridimensionales similares , funciones y similitud de secuencia significativa . ^[1]^[2] La similitud de secuencia (generalmente secuencia de aminoácidos) es uno de los indicadores más comunes de homología o ascendencia evolutiva común. ^[3]^[4] Existe un marco bastante bien desarrollado para evaluar la importancia de la similitud entre un grupo de secuencias utilizando métodos de alineación de secuencias . Es poco probable que las proteínas que no comparten un ancestro común muestren una similitud de secuencia estadísticamente significativa, lo que hace que la alineación de secuencias sea una herramienta poderosa para identificar a los miembros de familias de proteínas. ^[3]^[4] Las familias a veces se agrupan en clados más grandes llamados superfamilias basándose en la similitud estructural, incluso si no existe una homología de secuencia identificable.

Actualmente, se han definido más de 60.000 familias de proteínas, ^[5] aunque la ambigüedad en la definición de "familia de proteínas" lleva a diferentes investigadores a cifras muy variables.

Terminología y uso

Como ocurre con muchos términos biológicos, el uso de la familia de proteínas depende en cierta medida del contexto; puede indicar grandes grupos de proteínas con el nivel más bajo posible de similitud de secuencia detectable, o grupos muy estrechos de proteínas con secuencia, función y estructura tridimensional casi idénticas, o cualquier tipo de grupo intermedio. Para distinguir entre estas situaciones, el término superfamilia de proteínas se utiliza a menudo para proteínas lejanamente relacionadas cuya relación no es detectable por similitud de secuencia, sino solo por características estructurales compartidas. ^[6]^[7]^[8] Estos términos se utilizan jerárquicamente. En el nivel más alto de clasificación se encuentran las superfamilias, que agrupan proteínas lejanamente relacionadas, a menudo basándose en su similitud estructural. ^[9] Las siguientes superfamilias son familias que agrupan proteínas con un origen evolutivo compartido y tienen una similitud de secuencia significativa . ^[2]^[10] En algunos casos, las proteínas se agrupan además en subfamilias , que son pequeños grupos de proteínas estrechamente relacionadas que a menudo tienen funciones similares o idénticas. ^[11] Por lo tanto, una superfamilia, como el clan de proteasas PA , tiene una conservación de secuencia mucho menor que una de las familias que contiene, la familia C04.

Arriba, conservación de secuencia de 250 miembros de las proteasas del clan PA ( superfamilia ). A continuación, conservación de la secuencia de 70 miembros de la familia de proteasas C04: las flechas indican residuos de la tríada catalítica , alineados según la estructura mediante DALI .

Dominios y motivos de proteínas.

El concepto de familia de proteínas se concibió cuando se conocían muy pocas estructuras o secuencias de proteínas. En ese momento, la mayoría de las proteínas que se conocían estructuralmente eran proteínas pequeñas de dominio único, como la mioglobina , la hemoglobina y el citocromo c . Desde entonces, se han encontrado muchas proteínas con múltiples unidades o dominios estructurales y funcionales independientes . Debido a la mezcla evolutiva, diferentes dominios de una proteína han evolucionado de forma independiente. Esto ha llevado a centrarse en familias de dominios de proteínas. Varios recursos en línea están dedicados a identificar y catalogar dichos dominios. ^[12]^[13]

Las diferentes regiones de una proteína tienen diferentes limitaciones funcionales (características críticas para la estructura y función de la proteína). Por ejemplo, el sitio activo de una enzima requiere que ciertos residuos de aminoácidos estén orientados con precisión en tres dimensiones. Sin embargo, una interfaz de unión proteína-proteína puede consistir en una gran superficie con limitaciones en la hidrofobicidad o polaridad de los residuos de aminoácidos. Las regiones de proteínas funcionalmente restringidas evolucionan más lentamente que las regiones no restringidas, como los bucles de superficie, dando lugar a bloques discernibles de secuencia conservada cuando se comparan las secuencias de una familia de proteínas (ver alineación de secuencias múltiples ). Estos bloques se denominan más comúnmente motivos, aunque se utilizan muchos otros términos (bloques, firmas, huellas dactilares, etc.). Nuevamente, muchos recursos en línea están dedicados a identificar y catalogar motivos proteicos. ^[14]

Evolución de las familias de proteínas.

Según el consenso actual, las familias de proteínas surgen de dos maneras. En primer lugar, la separación de una especie parental en dos especies descendientes genéticamente aisladas permite que un gen/proteína acumule de forma independiente variaciones ( mutaciones ) en estos dos linajes. Esto da como resultado una familia de proteínas ortólogas , generalmente con motivos de secuencia conservados. En segundo lugar, la duplicación de un gen puede crear una segunda copia de un gen (denominada parálogo ). Debido a que el gen original aún puede realizar su función, el gen duplicado puede divergir y adquirir nuevas funciones (mediante mutación aleatoria).

Ciertas familias de genes/proteínas, especialmente en eucariotas , sufren expansiones y contracciones extremas en el curso de la evolución, a veces junto con duplicaciones del genoma completo . Las expansiones son menos probables, y las pérdidas más probables, para proteínas intrínsecamente desordenadas y para dominios proteicos cuyos aminoácidos hidrófobos están más alejados del grado óptimo de dispersión a lo largo de la secuencia primaria. ^[15] Esta expansión y contracción de familias de proteínas es una de las características más destacadas de la evolución del genoma , pero su importancia y ramificaciones no están claras actualmente.

Árbol filogenético de la superfamilia RAS: este árbol se creó con FigTree (software gratuito en línea).

Uso e importancia de las familias de proteínas.

A medida que aumenta el número total de proteínas secuenciadas y se expande el interés en el análisis de proteomas , se está realizando un esfuerzo para organizar las proteínas en familias y describir los dominios y motivos que las componen. La identificación confiable de familias de proteínas es fundamental para el análisis filogenético , la anotación funcional y la exploración de la diversidad de la función de las proteínas en una rama filogenética determinada. La Iniciativa de Función Enzimática utiliza familias y superfamilias de proteínas como base para el desarrollo de una estrategia basada en secuencia/estructura para la asignación funcional a gran escala de enzimas de función desconocida. ^[16] Los medios algorítmicos para establecer familias de proteínas a gran escala se basan en una noción de similitud.

Recursos de la familia de proteínas

Muchas bases de datos biológicas registran ejemplos de familias de proteínas y permiten a los usuarios identificar si las proteínas recién identificadas pertenecen a una familia conocida. Aquí están algunos ejemplos:

Pfam : base de datos de alineamientos y HMM de familias de proteínas
PROSITE - Base de datos de dominios, familias y sitios funcionales de proteínas
PIRSF - Sistema de clasificación de superfamilias
PASS2 - Alineación de proteínas como superfamilias estructurales v2 - PASS2@NCBS ^[17]
SUPERFAMILIA : Biblioteca de HMM que representan superfamilias y base de datos de anotaciones (superfamilias y familias) para todos los organismos completamente secuenciados.
SCOP y CATH : clasificaciones de estructuras de proteínas en superfamilias, familias y dominios

De manera similar, existen muchos algoritmos de búsqueda en bases de datos, por ejemplo:

BLAST - Búsqueda de similitud de secuencia de ADN
BLASTp - Búsqueda de similitud de secuencia de proteínas
OrthoFinder : método para agrupar proteínas en familias (ortogrupos) ^[18]^[19]

Ver también

Familias de proteínas

Referencias

^ "¿Qué son las familias de proteínas? Clasificación de proteínas". EMBL-EBI . Consultado el 14 de noviembre de 2023 .
^ ab Orengo, Christine; Bateman, Álex (2013). "Introducción". En Orengo, Cristina; Bateman, Alex (eds.). Familias de proteínas: relación de la secuencia, estructura y función de las proteínas . Hoboken, Nueva Jersey: John Wiley & Sons, Inc. págs. vii-xi. doi :10.1002/9781118743089.fmatter. ISBN 9781118743089.
^ ab Pearson, William R. (2013). "Una introducción a la búsqueda de similitud de secuencia (" homología ")". Protocolos Actuales en Bioinformática . 3 . doi :10.1002/0471250953.bi0301s42. ISSN 1934-3396. PMC 3820096 . PMID 23749753.
^ ab Chen, Junjie; Guo, Mingyue; Wang, Xiaolong; Liu, Bin (1 de marzo de 2018). "Una revisión exhaustiva y comparación de diferentes métodos computacionales para la detección remota de homología de proteínas". Sesiones informativas en Bioinformática . 19 (2): 231–244. doi : 10.1093/babero/bbw108. ISSN 1477-4054. PMID 27881430.
^ Kunin, Víctor; Casos, Ildefonso; Bien, Antón J.; de Lorenzo, Víctor; Ouzounis, Christos A. (2003). "Miríadas de familias de proteínas, y seguimos contando". Biología del genoma . 4 (2): 401. doi : 10.1186/gb-2003-4-2-401 . ISSN 1474-760X. PMC 151299 . PMID 12620116.
^ Dayhoff, MO (diciembre de 1974). "Análisis informático de secuencias de proteínas". Actas de Federación . 33 (12): 2314–6. PMID 4435228.
^ Dayhoff, Missouri; McLaughlin, PJ; Barker, WC; Cazar, LT (1975). "Evolución de secuencias dentro de superfamilias de proteínas". Die Naturwissenschaften . 62 (4): 154-161. Código bibliográfico : 1975NW.....62..154D. doi :10.1007/BF00608697. S2CID 40304076.
^ Dayhoff, MO (agosto de 1976). "El origen y evolución de las superfamilias de proteínas". Actas de Federación . 35 (10): 2132–8. PMID 181273.
^ Orengo, Christine A.; Thornton, Janet M. (1 de junio de 2005). "Familias de proteínas y su evolución: una perspectiva estructural". Revista Anual de Bioquímica . 74 (1): 867–900. doi : 10.1146/annurev.biochem.74.082803.133029. ISSN 0066-4154. PMID 15954844.
^ Veeramachaneni, Vamsi; Makałowski, Wojciech (2004). "Visualización de similitud de secuencias de familias de proteínas". Investigación del genoma . 14 (6): 1160-1169. doi : 10.1101/gr.2079204 . ISSN 1088-9051. PMC 419794 . PMID 15140831.
^ Holm, Liisa; Heger, Andreas (2013). "Enfoques automatizados basados en secuencias para identificar familias de dominios". En Orengo, Cristina; Bateman, Alex (eds.). Familias de proteínas: relación de la secuencia, estructura y función de las proteínas . Hoboken, Nueva Jersey: John Wiley & Sons, Inc. págs. 1–24. doi :10.1002/9781118743089.ch1. ISBN 9781118743089. S2CID 85641264.
^ Wang, Yan; Zhang, colgar; Zhong, Haolin; Xue, Zhidong (1 de enero de 2021). "Métodos de identificación de dominios de proteínas y recursos en línea". Revista de Biotecnología Computacional y Estructural . 19 : 1145-1153. doi : 10.1016/j.csbj.2021.01.041 . ISSN 2001-0370. PMC 7895673 . PMID 33680357.
^ Bateman, Alex (2013). "Clasificación de secuencias de familias de proteínas: Pfam y otros recursos". En Orengo, Cristina; Bateman, Alex (eds.). Familias de proteínas: relación de la secuencia, estructura y función de las proteínas . Hoboken, Nueva Jersey: John Wiley & Sons, Inc. págs. doi :10.1002/9781118743089.ch2. ISBN 9781118743089.
^ Mulder, Nicola J.; Apweiler, Rolf (19 de diciembre de 2001). "Herramientas y recursos para identificar familias, dominios y motivos de proteínas". Biología del genoma . 3 (1): revisiones 2001.1. doi : 10.1186/gb-2001-3-1-reviews2001 . ISSN 1474-760X. PMC 150457 . PMID 11806833.
^ James, Jennifer E; Nelson, Paul G; Masel, Joanna (4 de abril de 2023). "La retención diferencial de dominios Pfam contribuye a tendencias evolutivas a largo plazo". Biología Molecular y Evolución . 40 (4). doi :10.1093/molbev/msad073. PMC 10089649 .
^ Gerlt, John A.; Allen, Karen N.; Almo, Steven C.; Armstrong, Richard N.; Babbitt, Patricia C.; Cronan, John E.; Dunaway-Mariano, Debra; Imker, Heidi J.; Jacobson, Mateo P.; Menor, Wladek; Poulter, C. Dale; Raushel, Frank M.; Sali, Andrej; Shoichet, Brian K.; Sweedler, Jonathan V. (22 de noviembre de 2011). "La iniciativa de la función enzimática". Bioquímica . 50 (46): 9950–9962. doi :10.1021/bi201312u. ISSN 0006-2960. PMC 3238057 . PMID 21999478.
^ Gandhimathi, A.; Nair, Anu G.; Sowdhamini, R. (2012). "PASS2 versión 4: una actualización de la base de datos de alineamientos de secuencias basadas en estructuras de superfamilias de dominios estructurales". Investigación de ácidos nucleicos . 40 (D1): D531–D534. doi : 10.1093/nar/gkr1096. ISSN 1362-4962. PMC 3245109 . PMID 22123743.
^ Emms, David M.; Kelly, Steven (6 de agosto de 2015). "OrthoFinder: resolver sesgos fundamentales en las comparaciones del genoma completo mejora drásticamente la precisión de la inferencia de ortogrupos". Biología del genoma . 16 (1): 157. doi : 10.1186/s13059-015-0721-2 . ISSN 1474-760X. PMC 4531804 . PMID 26243257.
^ Emms, David M.; Kelly, Steven (14 de noviembre de 2019). "OrthoFinder: inferencia de ortología filogenética para genómica comparada". Biología del genoma . 20 (1): 238. doi : 10.1186/s13059-019-1832-y . ISSN 1474-760X. PMC 6857279 . PMID 31727128.

enlaces externos

Medios relacionados con las familias de proteínas en Wikimedia Commons