Pfam

Pfam es una base de datos de familias de proteínas que incluye sus anotaciones y múltiples alineaciones de secuencias generadas utilizando modelos ocultos de Markov . ^[1]^[2]^[3] La última versión de Pfam, 37.0, se lanzó en junio de 2024 y contiene 21.979 familias. ^[4] Actualmente se proporciona a través del sitio web de InterPro .

Usos

El objetivo general de la base de datos Pfam es proporcionar una clasificación completa y precisa de las familias y dominios de proteínas. ^[5] Originalmente, la razón detrás de la creación de la base de datos era tener un método semiautomatizado de conservación de información sobre familias de proteínas conocidas para mejorar la eficiencia de la anotación de genomas. ^[6] La clasificación Pfam de familias de proteínas ha sido ampliamente adoptada por los biólogos debido a su amplia cobertura de proteínas y convenciones de nomenclatura sensatas. ^[7]

Lo utilizan los biólogos experimentales que investigan proteínas específicas, los biólogos estructurales para identificar nuevos objetivos para la determinación de la estructura, los biólogos computacionales para organizar secuencias y los biólogos evolutivos que rastrean los orígenes de las proteínas. ^[8] Los primeros proyectos genómicos, como el humano y el de la mosca, utilizaron Pfam ampliamente para la anotación funcional de datos genómicos. ^[9]^[10]^[11]

El sitio web InterPro permite a los usuarios enviar secuencias de proteínas o ADN para buscar coincidencias con familias en la base de datos Pfam. Si se envía ADN, se realiza una traducción de seis marcos y luego se busca cada marco. ^[12] En lugar de realizar una búsqueda BLAST típica , Pfam utiliza modelos de Markov ocultos de perfil , que dan mayor peso a las coincidencias en sitios conservados , lo que permite una mejor detección de homología remota, lo que los hace más adecuados para anotar genomas de organismos sin parientes cercanos bien anotados. ^[13]

Pfam también se ha utilizado en la creación de otros recursos como iPfam, que cataloga las interacciones dominio-dominio dentro y entre proteínas, basándose en información de bases de datos de estructura y en el mapeo de los dominios Pfam sobre estas estructuras. ^[14]

Características

Para cada familia de Pfam se puede:

Ver una descripción de la familia
Observar múltiples alineaciones
Ver arquitecturas de dominios de proteínas
Examinar la distribución de las especies
Siga los enlaces a otras bases de datos
Ver estructuras de proteínas conocidas

Las entradas pueden ser de varios tipos: familia, dominio, repetición o motivo. La familia es la clase predeterminada, que simplemente indica que los miembros están relacionados. Los dominios se definen como una unidad estructural autónoma o una unidad de secuencia reutilizable que se puede encontrar en múltiples contextos proteicos. Las repeticiones no suelen ser estables de forma aislada, sino que suelen ser necesarias para formar repeticiones en tándem con el fin de formar un dominio o una estructura extendida. Los motivos suelen ser unidades de secuencia más cortas que se encuentran fuera de los dominios globulares. ^[9]

Las descripciones de las familias Pfam son administradas por el público en general mediante Wikipedia (ver #Curación de la comunidad).

A partir de la versión 29.0, el 76,1 % de las secuencias de proteínas en UniprotKB coincidían con al menos un dominio Pfam. ^[15]

Creación de nuevas entradas

Las nuevas familias provienen de una variedad de fuentes, principalmente el PDB y el análisis de proteomas completos para encontrar genes sin coincidencia con Pfam. ^[16]

Para cada familia, un subconjunto representativo de secuencias se alinea en una alineación de semillas de alta calidad. Las secuencias para la alineación de semillas se toman principalmente de pfamseq (una base de datos no redundante de proteomas de referencia) con algún complemento de UniprotKB . ^[15] Esta alineación de semillas se utiliza luego para construir un modelo de Markov oculto de perfil utilizando HMMER . Luego, este HMM se busca en bases de datos de secuencias y todos los resultados que alcanzan un umbral de recopilación curado se clasifican como miembros de la familia de proteínas. Luego, la colección de miembros resultante se alinea con el HMM de perfil para generar una alineación completa.

Para cada familia, se asigna un umbral de recopilación seleccionado manualmente que maximiza la cantidad de coincidencias verdaderas con la familia y excluye cualquier coincidencia falsa positiva. Los falsos positivos se estiman observando las superposiciones entre coincidencias de la familia Pfam que no pertenecen al mismo clan. Este umbral se utiliza para evaluar si una coincidencia con un HMM de la familia debe incluirse en la familia de proteínas. En cada actualización de Pfam, se vuelven a evaluar los umbrales de recopilación para evitar superposiciones entre familias nuevas y existentes. ^[16]

Dominios de función desconocida

Los dominios de función desconocida (DUF) representan una fracción creciente de la base de datos Pfam. Las familias se denominan así porque se ha descubierto que están conservadas en todas las especies, pero desempeñan un papel desconocido. Cada DUF recién añadido se nombra en el orden en que se agregó. Los nombres de estas entradas se actualizan a medida que se identifican sus funciones. Normalmente, cuando se ha determinado la función de al menos una proteína perteneciente a un DUF, se actualiza la función de todo el DUF y se cambia el nombre de la familia. Algunas familias nombradas siguen siendo dominios de función desconocida, que reciben el nombre de una proteína representativa, por ejemplo, YbbR. Se espera que la cantidad de DUF continúe aumentando a medida que se sigan identificando secuencias conservadas de función desconocida en los datos de secuencias. Se espera que los DUF eventualmente superen en número a las familias de función conocida. ^[16]

Clanes

Con el tiempo, tanto la cobertura de secuencias como la de residuos han aumentado y, a medida que las familias han crecido, se han descubierto más relaciones evolutivas, lo que permite la agrupación de familias en clanes. ^[8] Los clanes se introdujeron por primera vez en la base de datos Pfam en 2005. Son agrupaciones de familias relacionadas que comparten un único origen evolutivo, como lo confirman las comparaciones estructurales, funcionales, de secuencia y HMM. ^[5] A partir de la versión 29.0, aproximadamente un tercio de las familias de proteínas pertenecían a un clan. ^[15] Esta porción ha crecido a alrededor de tres cuartas partes en 2019 (versión 32.0). ^[17]

Para identificar posibles relaciones de clanes, los curadores de Pfam utilizan el Programa de comparación simple de resultados (SCOOP), así como información de la base de datos ECOD . ^[17] ECOD es una base de datos jerárquica semiautomatizada de familias de proteínas con estructuras conocidas, con familias que se asignan fácilmente a las entradas de Pfam y niveles de homología que generalmente se asignan a clanes de Pfam. ^[18]

Historia

Pfam fue fundada en 1995 por Erik Sonnhammer, Sean Eddy y Richard Durbin como una colección de dominios proteicos de ocurrencia común que podrían usarse para anotar los genes codificadores de proteínas de animales multicelulares. ^[6] Uno de sus principales objetivos al inicio era ayudar en la anotación del genoma de C. elegans . ^[6] El proyecto fue impulsado en parte por la afirmación en 'Mil familias para el biólogo molecular' de Cyrus Chothia de que había alrededor de 1500 familias diferentes de proteínas y que la mayoría de las proteínas se incluían en solo 1000 de ellas. ^[5]^[19] En contra de esta afirmación, la base de datos Pfam contiene actualmente 16.306 entradas correspondientes a dominios y familias de proteínas únicos. Sin embargo, muchas de estas familias contienen similitudes estructurales y funcionales que indican un origen evolutivo compartido (ver Clanes). ^[5]

Una de las principales diferencias entre Pfam y otras bases de datos en el momento de su creación fue el uso de dos tipos de alineamiento para las entradas: un alineamiento de semillas más pequeño, controlado manualmente, así como un alineamiento completo creado alineando secuencias con un modelo de Markov oculto de perfil creado a partir del alineamiento de semillas. Este alineamiento de semillas más pequeño era más fácil de actualizar a medida que salían nuevas versiones de bases de datos de secuencias y, por lo tanto, representaba una solución prometedora al dilema de cómo mantener la base de datos actualizada a medida que la secuenciación del genoma se volvía más eficiente y se necesitaba procesar más datos con el tiempo. Una mejora adicional en la velocidad a la que se podía actualizar la base de datos llegó en la versión 24.0, con la introducción de HMMER3, que es aproximadamente 100 veces más rápido que HMMER2 y más sensible. ^[8]

Debido a que las entradas en Pfam-A no cubren todas las proteínas conocidas, se proporcionó un suplemento generado automáticamente llamado Pfam-B. Pfam-B contenía una gran cantidad de familias pequeñas derivadas de grupos producidos por un algoritmo llamado ADDA. ^[20] Aunque de menor calidad, las familias Pfam-B podrían ser útiles cuando no se encontraron familias Pfam-A. Pfam-B se suspendió a partir de la versión 28.0, ^[21] luego se reintrodujo en la versión 33.1 utilizando un nuevo algoritmo de agrupamiento, MMSeqs2. ^[22]

Pfam se alojaba originalmente en tres sitios espejo en todo el mundo para preservar la redundancia. Sin embargo, entre 2012 y 2014, el recurso Pfam se trasladó a EMBL-EBI , lo que permitió alojar el sitio web desde un dominio (xfam.org), utilizando centros de datos independientes duplicados. Esto permitió una mejor centralización de las actualizaciones y la agrupación con otros proyectos Xfam como Rfam , TreeFam , iPfam y otros, al tiempo que se conservaba la resiliencia crítica proporcionada por el alojamiento desde múltiples centros. ^[23]

Entre 2014 y 2016, Pfam experimentó una reorganización sustancial para reducir aún más el esfuerzo manual involucrado en la curación y permitir actualizaciones más frecuentes. ^[15] Alrededor de 2022, Pfam se integró en InterPro en el Instituto Europeo de Bioinformática . ^[24]

Curación comunitaria

La conservación de una base de datos tan grande presentó problemas en términos de mantenerse al día con el volumen de nuevas familias y la información actualizada que se necesitaba agregar. Para acelerar los lanzamientos de la base de datos, los desarrolladores iniciaron una serie de iniciativas para permitir una mayor participación de la comunidad en la gestión de la base de datos.

Un paso crítico para mejorar el ritmo de actualización y mejora de las entradas fue abrir la anotación funcional de los dominios Pfam a la comunidad de Wikipedia en la versión 26.0. ^[16] Para las entradas que ya tenían una entrada en Wikipedia, esta se vinculó a la página de Pfam, y para aquellas que no la tenían, se invitó a la comunidad a crear una e informar a los curadores, para que se vinculara. Se anticipa que, si bien la participación de la comunidad mejorará en gran medida el nivel de anotación de estas familias, algunas seguirán siendo insuficientemente notables para su inclusión en Wikipedia, en cuyo caso mantendrán su descripción original de Pfam. Algunos artículos de Wikipedia cubren múltiples familias, como el artículo Zinc finger . También se ha implementado un procedimiento automatizado para generar artículos basados en datos de InterPro y Pfam, que llena una página con información y enlaces a bases de datos, así como imágenes disponibles, luego, una vez que un curador ha revisado un artículo, se mueve del Sandbox a Wikipedia propiamente dicha. Para proteger contra el vandalismo de los artículos, los curadores revisan cada revisión de Wikipedia antes de que se muestre en el sitio web de Pfam. Sin embargo, casi todos los casos de vandalismo han sido corregidos por la comunidad antes de que llegaran a los curadores. ^[16]

Pfam está a cargo de un consorcio internacional de tres grupos. En las versiones anteriores de Pfam, las entradas de las familias solo se podían modificar en el sitio de Cambridge, Reino Unido, lo que limitaba la capacidad de los miembros del consorcio de contribuir a la curación del sitio. En la versión 26.0, los desarrolladores se trasladaron a un nuevo sistema que permitía a los usuarios registrados en cualquier parte del mundo agregar o modificar familias de Pfam. ^[16]

Véase también

Lista de bases de datos biológicas
PANDIT , una base de datos biológica que cubre dominios proteicos
Base de datos Rfam para familias de ARN no codificantes conservadas
Base de datos TreeFam de árboles filogenéticos de genes animales
Base de datos TrEMBL que realiza una anotación automatizada de secuencias de proteínas
Integración de bases de datos de dominios de proteínas y familias de proteínas con InterPro
PDBfam: asignación exhaustiva de dominios Pfam a secuencias en el Banco de Datos de Proteínas (PDB) ^[25]^[26]

Referencias

^ Finn RD, Tate J, Mistry J, Coggill PC, Sammut SJ, Hotz HR, Ceric G, Forslund K, Eddy SR, Sonnhammer EL, Bateman A (2008). "Base de datos de familias de proteínas Pfam". Nucleic Acids Res . 36 (número de la base de datos): D281–8. doi :10.1093/nar/gkm960. PMC 2238907 . PMID 18039703.
^ Finn, RD; Mistry, J.; Schuster-Böckler, B.; Griffiths-Jones, S.; Hollich, V.; Lassmann, T.; Moxon, S.; Marshall, M.; Khanna, A.; Durbin, R.; Eddy, SR; Sonnhammer, EL; Bateman, A. (enero de 2006). "Pfam: clanes, herramientas web y servicios" (Texto completo gratuito) . Nucleic Acids Research . 34 (Número de base de datos): D247–D251. doi :10.1093/nar/gkj149. ISSN 0305-1048. PMC 1347511. PMID 16381856 .
^ Bateman, A .; Coin, L.; Durbin, R .; Finn, RD; Hollich, V.; Griffiths-Jones, S.; Khanna, A.; Marshall, M.; Moxon, S.; Sonnhammer, EL; Studholme, DJ; Yeats, C.; Eddy, SR (2004). "Base de datos de familias de proteínas Pfam". Nucleic Acids Research . 32 (número de la base de datos): 138D–1141. doi :10.1093/nar/gkh121. ISSN 0305-1048. PMC 308855 . PMID 14681378.
^ "Blog de Xfam". Blog de Xfam . Consultado el 10 de septiembre de 2024 .
^ abcd Sammut, Stephen; Finn, Robert D.; Bateman, Alex (2008). "Pfam 10 años después: 10 000 familias y seguimos creciendo". Briefings in Bioinformatics . 9 (3): 210–219. doi : 10.1093/bib/bbn010 . PMID 18344544.
^ abc Sonnhammer, Erik LL; Eddy, Sean R.; Durbin, Richard (1997). "Pfam: una base de datos completa de familias de dominios proteicos basada en alineaciones de semillas". Proteins . 28 (3): 405–420. doi :10.1002/(sici)1097-0134(199707)28:3<405::aid-prot10>3.0.co;2-l. PMID 9223186. S2CID 9569028.
^ Xu, Qifang; Dunbrack, Roland L. (2012). "Asignación de secuencias de proteínas a sistemas de clasificación de dominios y familias existentes: Pfam y PDB". Bioinformática . 28 (21): 2763–2772. doi :10.1093/bioinformatics/bts533. PMC 3476341 . PMID 22942020.
^ abc Finn, RD; Mistry, J.; Tate, J.; Coggill, P.; Heger, A.; Pollington, JE; Gavin, OL; Gunasekaran, P.; Ceric, G.; Forslund, K.; Holm, L.; Sonnhammer, ELL; Eddy, SR; Bateman, A. (2009). "Base de datos de familias de proteínas Pfam". Investigación de ácidos nucleicos . 38 (Base de datos): D211–D222. doi :10.1093/nar/gkp985. ISSN 0305-1048. PMC 2808889 . PMID 19920124.
^ ab Bateman A, Birney E, Cerruti L, Durbin R, Etwiller L, Eddy SR, Griffiths-Jones S, Howe KL, Marshall M, Sonnhammer EL (2002). "Base de datos de familias de proteínas Pfam". Nucleic Acids Res . 30 (1): 276–80. doi :10.1093/nar/30.1.276. PMC 99071. PMID 11752314 .
^ Adams MD, Celniker SE, Holt RA, Evans CA, Gocayne JD y col. (2000). "La secuencia del genoma de Drosophila melanogaster". Ciencia . 287 (5461): 2185–95. Código bibliográfico : 2000Sci...287.2185.. CiteSeerX 10.1.1.549.8639 . doi : 10.1126/ciencia.287.5461.2185. PMID 10731132.
^ Lander, Eric S.; Linton, Lauren M.; Birren, Bruce; Nusbaum, Chad; Zody, Michael C.; et al. (2001). "Secuenciación inicial y análisis del genoma humano". Nature . 409 (6822): 860–921. doi : 10.1038/35057062 . hdl : 2027.42/62798 . ISSN 0028-0836. PMID 11237011.
^ Finn, Robert D.; Bateman, Alex; Clements, Jody; Coggill, Penelope; Eberhardt, Ruth Y.; Eddy, Sean R.; Heger, Andreas; Hetherington, Kirstie; Holm, Liisa; Mistry, Jaina; Sonnhammer, Erik LL; Tate, John; Punta, Marco (2014). "Pfam: la base de datos de familias de proteínas". Investigación de ácidos nucleicos . 42 (D1): D222–D230. doi :10.1093/nar/gkt1223. ISSN 0305-1048. PMC 3965110 . PMID 24288371.
^ Sonnhammer EL, Eddy SR, Birney E, Bateman A, Durbin R (1998). "Pfam: alineaciones de secuencias múltiples y perfiles HMM de dominios proteicos". Nucleic Acids Res . 26 (1): 320–2. doi :10.1093/nar/26.1.320. PMC 147209 . PMID 9399864.
^ Finn, RD; Marshall, M.; Bateman, A. (2004). "iPfam: visualización de interacciones proteína-proteína en PDB en resoluciones de dominio y aminoácidos". Bioinformática . 21 (3): 410–412. doi : 10.1093/bioinformatics/bti011 . ISSN 1367-4803. PMID 15353450.
^ abcd Finn, Robert D.; Coggill, Penelope; Eberhardt, Ruth Y.; Eddy, Sean R.; Mistry, Jaina; Mitchell, Alex L.; Potter, Simon C.; Punta, Marco; Qureshi, Matloob; Sangrador-Vegas, Amaia; Salazar, Gustavo A.; Tate, John; Bateman, Alex (2016). "La base de datos de familias de proteínas Pfam: hacia un futuro más sostenible". Investigación en ácidos nucleicos . 44 (D1): D279–D285. doi :10.1093/nar/gkv1344. ISSN 0305-1048. PMC 4702930 . PMID 26673716.
^ abcdef Punta, M.; Coggill, PC; Eberhardt, RY; Mistry, J.; Tate, J.; Boursnell, C.; Pang, N.; Forslund, K.; Ceric, G.; Clements, J.; Heger, A.; Holm, L.; Sonnhammer, ELL; Eddy, SR; Bateman, A.; Finn, RD (2011). "Base de datos de familias de proteínas Pfam". Investigación de ácidos nucleicos . 40 (D1): D290–D301. doi :10.1093/nar/gkr1065. ISSN 0305-1048. PMC 3245129 . PMID 22127870.
^ ab El-Gebali, Sara; Mistry, Jaina; Bateman, Alex; Eddy, Sean R; Luciani, Aurélien; Potter, Simon C; Qureshi, Matloob; Richardson, Lorna J; Salazar, Gustavo A; Smart, Alfredo; Sonnhammer, Erik LL; Hirsh, Layla; Paladin, Lisanna; Piovesan, Damiano; Tosatto, Silvio CE; Finn, Robert D (8 de enero de 2019). "La base de datos de familias de proteínas Pfam en 2019". Investigación de ácidos nucleicos . 47 (D1): D427–D432. doi :10.1093/nar/gky995. PMC 6324024 . PMID 30357350.
^ "Clasificación evolutiva de dominios proteicos". prodata.swmed.edu . Consultado el 18 de mayo de 2019 .
^ Chothia, Cyrus (1992). "Mil familias para el biólogo molecular". Nature . 357 (6379): 543–544. Bibcode :1992Natur.357..543C. doi : 10.1038/357543a0 . ISSN 0028-0836. PMID 1608464. S2CID 4355476.
^ Heger, A.; Wilton, CA; Sivakumar, A.; Holm, L. (enero de 2005). "ADDA: una base de datos de dominio con cobertura global del universo proteico" (Texto completo gratuito) . Nucleic Acids Research . 33 (Número de base de datos): D188–D191. doi :10.1093/nar/gki096. ISSN 0305-1048. PMC 540050. PMID 15608174 .
^ "Notas de la versión de Pfam 28.0" . Consultado el 30 de junio de 2015 .
^ "Se lanza un nuevo Pfam-B". Blog de Xfam . 30 de junio de 2020.
^ "Pasando a xfam.org" . Consultado el 25 de noviembre de 2016 .
^ name=""> Paysan-Lafosse, Typhaine (2023). "InterPro en 2022". Investigación en ácidos nucleicos . 51 (D1): D418–D427. doi :10.1093/nar/gkac993. PMC 9825450 .
^ Dunbrack, Roland. "PDBfam". Fox Chase Cancer Center . Consultado el 9 de marzo de 2013 .
^ Xu, Qifang; Dunbrack, Roland (2012). "Asignación de secuencias de proteínas a sistemas de clasificación de dominios y familias existentes: Pfam y PDB". Bioinformática . 28 (21): 2763–72. doi :10.1093/bioinformatics/bts533. PMC 3476341 . PMID 22942020.

Enlaces externos

Pfam - Base de datos de familias de proteínas en EMBL-EBI , Reino Unido
PDBfam - Asignaciones de dominios Pfam a secuencias en el PDB en Fox Chase Cancer Center , EE. UU.