stringtranslate.com

Pfam

Pfam es una base de datos de familias de proteínas que incluye sus anotaciones y múltiples alineamientos de secuencias generados utilizando modelos ocultos de Markov . [1] [2] [3] La versión más reciente, Pfam 36.0, se lanzó en septiembre de 2023 y contiene 20.795 familias. [4]

Usos

El objetivo general de la base de datos Pfam es proporcionar una clasificación completa y precisa de familias y dominios de proteínas. [5] Originalmente, la razón detrás de la creación de la base de datos era tener un método semiautomático para curar información sobre familias de proteínas conocidas para mejorar la eficiencia de la anotación de genomas. [6] La clasificación Pfam de familias de proteínas ha sido ampliamente adoptada por los biólogos debido a su amplia cobertura de proteínas y convenciones de nomenclatura sensatas. [7]

Lo utilizan los biólogos experimentales que investigan proteínas específicas, los biólogos estructurales para identificar nuevos objetivos para la determinación de estructuras, los biólogos computacionales para organizar secuencias y los biólogos evolutivos que rastrean los orígenes de las proteínas. [8] Los primeros proyectos de genoma, como el de humanos y moscas, utilizaron Pfam ampliamente para la anotación funcional de datos genómicos. [9] [10] [11]

El sitio web de Pfam permite a los usuarios enviar secuencias de proteínas o ADN para buscar coincidencias con familias en la base de datos. Si se envía ADN, se realiza una traducción de seis cuadros y luego se busca en cada cuadro. [12] En lugar de realizar una búsqueda BLAST típica, Pfam utiliza modelos de perfil oculto de Markov , que dan mayor peso a las coincidencias en sitios conservados , lo que permite una mejor detección remota de homología, lo que los hace más adecuados para anotar genomas de organismos sin parientes cercanos bien anotados. . [13]

Pfam también se ha utilizado en la creación de otros recursos como iPfam, que cataloga las interacciones dominio-dominio dentro y entre proteínas, basándose en información en bases de datos de estructuras y mapeo de dominios Pfam en estas estructuras. [14]

Características

Para cada familia de Pfam se puede:

Las entradas pueden ser de varios tipos: familia, dominio, repetición o motivo. Familia es la clase predeterminada, que simplemente indica que los miembros están relacionados. Los dominios se definen como una unidad estructural autónoma o una unidad de secuencia reutilizable que se puede encontrar en múltiples contextos proteicos. Las repeticiones no suelen ser estables de forma aislada, sino que suelen ser necesarias para formar repeticiones en tándem para formar un dominio o una estructura extendida. Los motivos suelen ser unidades de secuencia más cortas que se encuentran fuera de los dominios globulares. [9]

Las descripciones de las familias Pfam son gestionadas por el público en general a través de Wikipedia (ver #Comisariado comunitario).

A partir de la versión 29.0, el 76,1 % de las secuencias de proteínas en UniprotKB coincidían con al menos un dominio Pfam. [15]

Creación de nuevas entradas.

Las nuevas familias provienen de una variedad de fuentes, principalmente el PDB y el análisis de proteomas completos para encontrar genes sin Pfam. [dieciséis]

Para cada familia, se alinea un subconjunto representativo de secuencias en una alineación de semillas de alta calidad. Las secuencias para la alineación de semillas se toman principalmente de pfamseq (una base de datos no redundante de proteomas de referencia) con algunos complementos de UniprotKB . [15] Esta alineación inicial se utiliza luego para construir un modelo de Markov de perfil oculto utilizando HMMER . Luego, este HMM se busca en bases de datos de secuencias y todos los resultados que alcanzan un umbral de recopilación seleccionado se clasifican como miembros de la familia de proteínas. Luego, la colección resultante de miembros se alinea con el perfil HMM para generar una alineación completa.

Para cada familia, se asigna un umbral de recopilación seleccionado manualmente que maximiza el número de coincidencias verdaderas con la familia y excluye cualquier coincidencia falsa positiva. Los falsos positivos se estiman observando superposiciones entre los éxitos de la familia Pfam que no pertenecen al mismo clan. Este umbral se utiliza para evaluar si una coincidencia con una HMM familiar debe incluirse en la familia de proteínas. Tras cada actualización de Pfam, los umbrales de reunión se reevalúan para evitar superposiciones entre familias nuevas y existentes. [dieciséis]

Dominios de función desconocida

Los dominios de función desconocida (DUF) representan una fracción cada vez mayor de la base de datos de Pfam. Las familias reciben ese nombre porque se ha descubierto que se conservan en todas las especies, pero desempeñan un papel desconocido. Cada DUF recién agregado se nombra en orden de adición. Los nombres de estas entradas se actualizan a medida que se identifican sus funciones. Normalmente, cuando se ha determinado la función de al menos una proteína perteneciente a un DUF, se actualiza la función de todo el DUF y se cambia el nombre de la familia. Algunas familias nombradas son todavía dominios de función desconocida, que llevan el nombre de una proteína representativa, por ejemplo, YbbR. Se espera que el número de DUF siga aumentando a medida que se sigan identificando secuencias conservadas de función desconocida en los datos de secuencia. Se espera que con el tiempo los DUF superen en número a las familias de función conocida. [dieciséis]

clanes

Con el tiempo, tanto la cobertura de secuencias como de residuos han aumentado y, a medida que las familias han crecido, se han descubierto más relaciones evolutivas, lo que ha permitido la agrupación de familias en clanes. [8] Los clanes se introdujeron por primera vez en la base de datos de Pfam en 2005. Son agrupaciones de familias relacionadas que comparten un único origen evolutivo, como lo confirman comparaciones estructurales, funcionales, de secuencia y HMM. [5] A partir de la versión 29.0, aproximadamente un tercio de las familias de proteínas pertenecían a un clan. [15] Esta porción ha aumentado a alrededor de tres cuartas partes en 2019 (versión 32.0). [17]

Para identificar posibles relaciones de clan, los curadores de Pfam utilizan el Programa de Comparación Simple de Resultados (SCOOP), así como información de la base de datos ECOD. [17] ECOD es una base de datos jerárquica semiautomática de familias de proteínas con estructuras conocidas, con familias que se asignan fácilmente a las entradas de Pfam y niveles de homología que generalmente se asignan a clanes de Pfam. [18]

Historia

Pfam fue fundada en 1995 por Erik Sonnhammer, Sean Eddy y Richard Durbin como una colección de dominios proteicos comunes que podrían usarse para anotar los genes codificantes de proteínas de animales multicelulares. [6] Uno de sus principales objetivos al inicio fue ayudar en la anotación del genoma de C. elegans . [6] El proyecto fue impulsado en parte por la afirmación de Cyrus Chothia en 'Mil familias para el biólogo molecular' de que había alrededor de 1500 familias diferentes de proteínas y que la mayoría de las proteínas pertenecían a sólo 1000 de ellas. [5] [19] En contra de esta afirmación, la base de datos Pfam contiene actualmente 16.306 entradas correspondientes a dominios y familias de proteínas únicos. Sin embargo, muchas de estas familias contienen similitudes estructurales y funcionales que indican un origen evolutivo compartido (ver Clanes). [5]

Un punto importante de diferencia entre Pfam y otras bases de datos en el momento de su creación fue el uso de dos tipos de alineación para las entradas: una alineación de semillas más pequeña, verificada manualmente, así como una alineación completa construida alineando secuencias con un modelo de Markov de perfil oculto. construido a partir de la alineación de semillas. Esta alineación de semillas más pequeña fue más fácil de actualizar a medida que aparecieron nuevas versiones de bases de datos de secuencias y, por lo tanto, representó una solución prometedora al dilema de cómo mantener la base de datos actualizada a medida que la secuenciación del genoma se volvió más eficiente y fue necesario procesar más datos con el tiempo. . Una mejora adicional en la velocidad a la que se podía actualizar la base de datos se produjo en la versión 24.0, con la introducción de HMMER3, que es ~100 veces más rápido que HMMER2 y más sensible. [8]

Debido a que las entradas en Pfam-A no cubren todas las proteínas conocidas, se proporcionó un suplemento generado automáticamente llamado Pfam-B. Pfam-B contenía una gran cantidad de familias pequeñas derivadas de grupos producidos por un algoritmo llamado ADDA. [20] Aunque son de menor calidad, las familias Pfam-B podrían ser útiles cuando no se encontraron familias Pfam-A. Pfam-B se suspendió a partir de la versión 28.0, [21] y luego se reintrodujo en la versión 33.1 utilizando un nuevo algoritmo de agrupación, MMSeqs2. [22]

Pfam se alojó originalmente en tres sitios espejo en todo el mundo para preservar la redundancia. Sin embargo, entre 2012 y 2014, el recurso de Pfam se trasladó a EMBL-EBI , lo que permitió alojar el sitio web desde un dominio (xfam.org), utilizando centros de datos independientes duplicados. Esto permitió una mejor centralización de las actualizaciones y la agrupación con otros proyectos de Xfam como Rfam , TreeFam , iPfam y otros, manteniendo al mismo tiempo la resiliencia crítica proporcionada por el alojamiento desde múltiples centros. [23]

Pfam ha experimentado una reorganización sustancial en los últimos dos años para reducir aún más el esfuerzo manual involucrado en la curación y permitir actualizaciones más frecuentes. [15]

Curación comunitaria

La conservación de una base de datos tan grande presentaba problemas en términos de mantenerse al día con el volumen de nuevas familias y la información actualizada que debía agregarse. Para acelerar los lanzamientos de la base de datos, los desarrolladores iniciaron una serie de iniciativas para permitir una mayor participación de la comunidad en la gestión de la base de datos.

Un paso fundamental para mejorar el ritmo de actualización y mejora de las entradas fue abrir la anotación funcional de los dominios de Pfam a la comunidad de Wikipedia en la versión 26.0. [16] Para las entradas que ya tenían una entrada de Wikipedia, esta se vinculó a la página de Pfam, y para aquellas que no la tenían, se invitó a la comunidad a crear una e informar a los curadores para que se vinculara. Anticipamos que si bien la participación de la comunidad mejorará en gran medida el nivel de anotación de estas familias, algunas seguirán siendo insuficientemente notables para su inclusión en Wikipedia, en cuyo caso conservarán su descripción original de Pfam. Algunos artículos de Wikipedia cubren varias familias, como el artículo sobre el dedo de zinc . También se implementó un procedimiento automatizado para generar artículos basado en datos de InterPro y Pfam, que llena una página con información y enlaces a bases de datos, así como imágenes disponibles, luego, una vez que un curador ha revisado un artículo, se mueve del Sandbox a Wikipedia propiamente dicha. Para protegerse contra el vandalismo de los artículos, los curadores revisan cada revisión de Wikipedia antes de mostrarla en el sitio web de Pfam. Sin embargo, casi todos los casos de vandalismo han sido corregidos por la comunidad antes de que lleguen a los curadores. [dieciséis]

Pfam está dirigida por un consorcio internacional de tres grupos. En las versiones anteriores de Pfam, las entradas de familia solo podían modificarse en el sitio de Cambridge, Reino Unido, lo que limitaba la capacidad de los miembros del consorcio de contribuir a la curación del sitio. En la versión 26.0, los desarrolladores pasaron a un nuevo sistema que permitía a los usuarios registrados en cualquier parte del mundo agregar o modificar familias de Pfam. [dieciséis]

Ver también

Referencias

  1. ^ Finn RD, Tate J, Mistry J, Coggill PC, Sammut SJ, Hotz HR, Ceric G, Forslund K, Eddy SR, Sonnhammer EL, Bateman A (2008). "La base de datos de familias de proteínas Pfam". Ácidos nucleicos Res . 36 (Problema de la base de datos): D281–8. doi : 10.1093/nar/gkm960. PMC 2238907 . PMID  18039703. 
  2. ^ Finlandés, RD; Mistry, J.; Schuster-Böckler, B.; Griffiths-Jones, S.; Hollich, V.; Lassmann, T.; Moxón, S.; Marshall, M.; Khanna, A.; Durbin, R.; Eddy, SR; Sonnhammer, EL; Bateman, A. (enero de 2006). «Pfam: clanes, herramientas y servicios web» (Texto completo gratuito) . Investigación de ácidos nucleicos . 34 (Problema de la base de datos): D247 – D251. doi : 10.1093/nar/gkj149. ISSN  0305-1048. PMC 1347511 . PMID  16381856. 
  3. ^ Bateman, A .; Moneda, L.; Durbin, R .; Finn, RD; Hollich, V.; Griffiths-Jones, S.; Khanna, A.; Marshall, M.; Moxón, S.; Sonnhammer, EL; Studholme, DJ; Yeats, C.; Eddy, SR (2004). "La base de datos de familias de proteínas Pfam". Investigación de ácidos nucleicos . 32 (Problema de la base de datos): 138D–1141. doi : 10.1093/nar/gkh121. ISSN  0305-1048. PMC 308855 . PMID  14681378.  Icono de acceso abierto
  4. ^ "Lanzamiento de Pfam 36.0". Blog de Xfam . 18 de septiembre de 2023 . Consultado el 24 de noviembre de 2023 .
  5. ^ abcd Sammut, Stephen; Finn, Robert D.; Bateman, Álex (2008). "Pfam 10 años después: 10.000 familias y sigue creciendo". Sesiones informativas en Bioinformática . 9 (3): 210–219. doi : 10.1093/bib/bbn010 . PMID  18344544.
  6. ^ abc Sonnhammer, Erik LL; Eddy, Sean R.; Durbin, Richard (1997). "Pfam: una base de datos completa de familias de dominios de proteínas basada en alineaciones de semillas". Proteínas . 28 (3): 405–420. doi :10.1002/(sici)1097-0134(199707)28:3<405::aid-prot10>3.0.co;2-l. PMID  9223186. S2CID  9569028.
  7. ^ Xu, Qifang; Dunbrack, Roland L. (2012). "Asignación de secuencias de proteínas a sistemas de clasificación de familias y dominios existentes: Pfam y PDB". Bioinformática . 28 (21): 2763–2772. doi : 10.1093/bioinformática/bts533. PMC 3476341 . PMID  22942020. 
  8. ^ abc finlandés, RD; Mistry, J.; Tate, J.; Coggill, P.; Heger, A.; Pollington, JE; Gavín, OL; Gunasekaran, P.; Ceric, G.; Forslund, K.; Holm, L.; Sonnhammer, ELL; Eddy, SR; Bateman, A. (2009). "La base de datos de familias de proteínas Pfam". Investigación de ácidos nucleicos . 38 (Base de datos): D211 – D222. doi :10.1093/nar/gkp985. ISSN  0305-1048. PMC 2808889 . PMID  19920124. 
  9. ^ ab Bateman A, Birney E, Cerruti L, Durbin R, Etwiller L, Eddy SR, Griffiths-Jones S, Howe KL, Marshall M, Sonnhammer EL (2002). "La base de datos de familias de proteínas Pfam". Ácidos nucleicos Res . 30 (1): 276–80. doi :10.1093/nar/30.1.276. PMC 99071 . PMID  11752314. 
  10. ^ Adams MD, Celniker SE, Holt RA, Evans CA, Gocayne JD y col. (2000). "La secuencia del genoma de Drosophila melanogaster". Ciencia . 287 (5461): 2185–95. Código bibliográfico : 2000Sci...287.2185.. CiteSeerX 10.1.1.549.8639 . doi : 10.1126/ciencia.287.5461.2185. PMID  10731132. 
  11. ^ Lander, Eric S.; Linton, Lauren M.; Birren, Bruce; Nusbaum, Chad; Zody, Michael C.; et al. (2001). "Secuenciación inicial y análisis del genoma humano". Naturaleza . 409 (6822): 860–921. doi : 10.1038/35057062 . hdl : 2027.42/62798 . ISSN  0028-0836. PMID  11237011.
  12. ^ Finn, Robert D.; Bateman, Alex; Clementos, Jody; Coggill, Penélope; Eberhardt, Ruth Y.; Eddy, Sean R.; Heger, Andreas; Hetherington, Kirstie; Holm, Liisa; Mistry, Jaina; Sonnhammer, Erik LL; Tate, Juan; Punta, Marco (2014). "Pfam: la base de datos de familias de proteínas". Investigación de ácidos nucleicos . 42 (D1): D222-D230. doi : 10.1093/nar/gkt1223. ISSN  0305-1048. PMC 3965110 . PMID  24288371. 
  13. ^ Sonnhammer EL, Eddy SR, Birney E, Bateman A, Durbin R (1998). "Pfam: múltiples alineamientos de secuencias y perfiles HMM de dominios proteicos". Ácidos nucleicos Res . 26 (1): 320–2. doi :10.1093/nar/26.1.320. PMC 147209 . PMID  9399864. 
  14. ^ Finlandés, RD; Marshall, M.; Bateman, A. (2004). "iPfam: visualización de interacciones proteína-proteína en PDB en resoluciones de dominio y aminoácidos". Bioinformática . 21 (3): 410–412. doi : 10.1093/bioinformática/bti011 . ISSN  1367-4803. PMID  15353450.
  15. ^ abcd Finn, Robert D.; Coggill, Penélope; Eberhardt, Ruth Y.; Eddy, Sean R.; Mistry, Jaina; Mitchell, Alex L.; Potter, Simón C.; Punta, Marco; Qureshi, Matloob; Sangrador-Vegas, Amaia; Salazar, Gustavo A.; Tate, Juan; Bateman, Alex (2016). "La base de datos de familias de proteínas Pfam: hacia un futuro más sostenible". Investigación de ácidos nucleicos . 44 (D1): D279-D285. doi : 10.1093/nar/gkv1344. ISSN  0305-1048. PMC 4702930 . PMID  26673716. 
  16. ^ abcdef Punta, M.; Coggill, PC; Eberhardt, RY; Mistry, J.; Tate, J.; Boursnell, C.; Pang, N.; Forslund, K.; Ceric, G.; Clementes, J.; Heger, A.; Holm, L.; Sonnhammer, ELL; Eddy, SR; Bateman, A.; Finn, RD (2011). "La base de datos de familias de proteínas Pfam". Investigación de ácidos nucleicos . 40 (D1): D290–D301. doi : 10.1093/nar/gkr1065. ISSN  0305-1048. PMC 3245129 . PMID  22127870. 
  17. ^ ab El-Gebali, Sara; Mistry, Jaina; Bateman, Alex; Eddy, Sean R; Luciani, Aurélien; Potter, Simón C; Qureshi, Matloob; Richardson, Lorna J; Salazar, Gustavo A; Inteligente, Alfredo; Sonnhammer, Erik LL; Hirsh, Layla; Paladín, Lisanna; Piovesan, Damián; Tosatto, Silvio CE; Finn, Robert D (8 de enero de 2019). "La base de datos de familias de proteínas Pfam en 2019". Investigación de ácidos nucleicos . 47 (D1): D427–D432. doi : 10.1093/nar/gky995. PMC 6324024 . PMID  30357350. 
  18. ^ "Clasificación evolutiva de dominios de proteínas". prodata.swmed.edu . Consultado el 18 de mayo de 2019 .
  19. ^ Chothia, Ciro (1992). "Mil familias para el biólogo molecular". Naturaleza . 357 (6379): 543–544. Código Bib :1992Natur.357..543C. doi : 10.1038/357543a0 . ISSN  0028-0836. PMID  1608464. S2CID  4355476.
  20. ^ Heger, A.; Wilton, California; Sivakumar, A.; Holm, L. (enero de 2005). «ADDA: una base de datos de dominio con cobertura global del universo proteico» (Texto completo gratuito) . Investigación de ácidos nucleicos . 33 (Problema de la base de datos): D188 – D191. doi : 10.1093/nar/gki096. ISSN  0305-1048. PMC 540050 . PMID  15608174. 
  21. ^ "Notas de la versión de Pfam 28.0" . Consultado el 30 de junio de 2015 .
  22. ^ "Se lanza un nuevo Pfam-B". Blog de Xfam . 30 de junio de 2020.
  23. ^ "Pasar a xfam.org" . Consultado el 25 de noviembre de 2016 .
  24. ^ Dunbrack, Roland. "PDBfam". Centro Oncológico Fox Chase . Consultado el 9 de marzo de 2013 .
  25. ^ Xu, Qifang; Dunbrack, Roland (2012). "Asignación de secuencias de proteínas a sistemas de clasificación de familias y dominios existentes: Pfam y PDB". Bioinformática . 28 (21): 2763–72. doi : 10.1093/bioinformática/bts533. PMC 3476341 . PMID  22942020. 

enlaces externos