stringtranslate.com

RFAM

Rfam es una base de datos que contiene información sobre familias de ARN no codificante (ncRNA) y otros elementos de ARN estructurado. Es una base de datos anotada de acceso abierto desarrollada originalmente en el Wellcome Trust Sanger Institute en colaboración con Janelia Farm , [1] [2] [3] [4] y actualmente alojada en el Instituto Europeo de Bioinformática . [5] Rfam está diseñada para ser similar a la base de datos Pfam para anotar familias de proteínas.

A diferencia de las proteínas , los ncRNA suelen tener una estructura secundaria similar sin compartir mucha similitud en la secuencia primaria . Rfam divide los ncRNA en familias basándose en la evolución a partir de un ancestro común. La producción de alineamientos de secuencias múltiples (MSA) de estas familias puede proporcionar información sobre su estructura y función, similar al caso de las familias de proteínas. Estos MSA se vuelven más útiles con la adición de información de la estructura secundaria. Los investigadores de Rfam también contribuyen al WikiProject de ARN de Wikipedia . [4] [6]

Usos

La base de datos Rfam se puede utilizar para diversas funciones. Para cada familia de ARNnc, la interfaz permite a los usuarios: ver y descargar múltiples alineaciones de secuencias; leer anotaciones; y examinar la distribución de especies de los miembros de la familia. También se proporcionan enlaces a referencias bibliográficas y otras bases de datos de ARN. Rfam también proporciona enlaces a Wikipedia para que los usuarios puedan crear o editar entradas.

La interfaz del sitio web de Rfam permite a los usuarios buscar ncRNA por palabra clave, nombre de familia o genoma, así como buscar por secuencia de ncRNA o número de acceso EMBL . [7] La ​​información de la base de datos también está disponible para descarga, instalación y uso utilizando el paquete de software INFERNAL. [8] [9] [10] El paquete INFERNAL también se puede utilizar con Rfam para anotar secuencias (incluidos genomas completos) para homólogos de ncRNA conocidos.

Métodos

Alineamiento teórico de ncRNA de 6 especies. Los pares de bases de la estructura secundaria están coloreados en bloques e identificados en la secuencia de consenso de la estructura secundaria (línea inferior) mediante los símbolos < y >.

En la base de datos, la información de la estructura secundaria y la secuencia primaria , representada por el MSA , se combina en modelos estadísticos llamados gramáticas libres de contexto estocásticas de perfil (SCFG), también conocidos como modelos de covarianza. Estos son análogos a los modelos ocultos de Markov utilizados para la anotación de familias de proteínas en la base de datos Pfam . [1] Cada familia en la base de datos está representada por dos alineaciones de secuencias múltiples en formato Estocolmo y un SCFG.

El primer MSA es la alineación "semilla". Es una alineación seleccionada manualmente que contiene miembros representativos de la familia ncRNA y está anotada con información estructural. Esta alineación semilla se utiliza para crear el SCFG, que se utiliza con el software Rfam INFERNAL para identificar miembros adicionales de la familia y agregarlos a la alineación. Se elige un valor umbral específico de la familia para evitar falsos positivos.

Hasta la versión 12, Rfam utilizaba un paso de filtrado BLAST inicial porque los SCFG de perfil eran demasiado costosos desde el punto de vista computacional. Sin embargo, las últimas versiones de INFERNAL son lo suficientemente rápidas [10] como para que el paso BLAST ya no sea necesario. [11]

El segundo MSA es la alineación “completa” y se crea como resultado de una búsqueda utilizando el modelo de covarianza en la base de datos de secuencias. Todos los homólogos detectados se alinean con el modelo, lo que da como resultado la alineación completa producida automáticamente.

Historia

La versión 1.0 de Rfam se lanzó en 2003 y contenía 25 familias de ARNnc y anotaba alrededor de 50 000 genes de ARNnc. En 2005, se lanzó la versión 6.1 y contenía 379 familias que anotaban más de 280 000 genes. En agosto de 2012, la versión 11.0 contenía 2208 familias de ARN, mientras que la versión actual (14.9, lanzada en noviembre de 2022) anota 4108 [7] familias.

Principales lanzamientos y publicaciones

Problemas

  1. Los genomas de los eucariotas superiores contienen muchos pseudogenes y repeticiones derivados del ARNnc . Distinguir estas copias no funcionales del ARNnc funcional es un desafío enorme. [2]
  2. Los intrones no se modelan mediante modelos de covarianza.

Referencias

  1. ^ abc Griffiths-Jones S, Bateman A, Marshall M, Khanna A, Eddy SR (2003). "Rfam: una base de datos de familias de ARN". Nucleic Acids Res . 31 (1): 439–41. doi :10.1093/nar/gkg006. PMC 165453 . PMID  12520045. 
  2. ^ abc Griffiths-Jones S, Moxon S, Marshall M, Khanna A, Eddy SR, Bateman A (2005). "Rfam: anotación de ARN no codificantes en genomas completos". Nucleic Acids Res . 33 (número de la base de datos): D121–4. doi :10.1093/nar/gki081. PMC 540035 . PMID  15608160. 
  3. ^ abc Gardner PP, Daub J, Tate JG, et al. (octubre de 2008). "Rfam: actualizaciones de la base de datos de familias de ARN". Nucleic Acids Research . 37 (número de la base de datos): D136–D140. doi :10.1093/nar/gkn766. PMC 2686503 . PMID  18953034. 
  4. ^ abc Gardner PP, Daub J, Tate J, Moore BL, Osuch IH, Griffiths-Jones S, Finn RD, Nawrocki EP, Kolbe DL, Eddy SR, Bateman A (2011). "Rfam: Wikipedia, clanes y la publicación "decimal"". Nucleic Acids Res . 39 (número de la base de datos): D141–5. doi :10.1093/nar/gkq1129. PMC 3013711 . PMID  21062808. 
  5. ^ "Pasando a xfam.org". Blog de Xfam . Consultado el 3 de mayo de 2014 .
  6. ^ ab Daub J, Gardner PP, Tate J, Ramsköld D, Manske M, Scott WG, Weinberg Z, Griffiths-Jones S, Bateman A (diciembre de 2008). "El RNA WikiProject: anotación comunitaria de familias de ARN". ARN . 14 (12): 2462–4. doi : 10.1261/rna.1200508 . PMC 2590952 . PMID  18945806. 
  7. ^ ab "Familias Rfam". rfam.xfam.org .
  8. ^ Eddy SR, Durbin R (junio de 1994). "Análisis de secuencias de ARN utilizando modelos de covarianza". Nucleic Acids Research . 22 (11): 2079–88. doi :10.1093/nar/22.11.2079. PMC 308124 . PMID  8029015. 
  9. ^ Eddy SR (2002). "Un algoritmo de programación dinámica con uso eficiente de la memoria para la alineación óptima de una secuencia con una estructura secundaria de ARN". BMC Bioinformatics . 3 : 18. doi : 10.1186/1471-2105-3-18 . PMC 119854 . PMID  12095421. 
  10. ^ ab Nawrocki EP, Eddy SR (2013). "Infernal 1.1: búsquedas de homología de ARN 100 veces más rápidas". Bioinformática . 29 (22): 2933–5. doi :10.1093/bioinformatics/btt509. PMC 3810854 . PMID  24008419. 
  11. ^ Nawrocki EP, Burge SW, Bateman A, Daub J, Eberhardt RY, Eddy SR, Floden EW, Gardner PP, Jones TA, Tate J, Finn RD (enero de 2015). "Rfam 12.0: actualizaciones de la base de datos de familias de ARN". Nucleic Acids Res . 43 (número de la base de datos): D130–7. doi :10.1093/nar/gku1063. PMC 4383904 . PMID  25392425. 
  12. ^ Burge SW, Daub J, Eberhardt R, Tate J, Barquist L, Nawrocki EP, Eddy SR, Gardner PP, Bateman A (enero de 2013). "Rfam 11.0: 10 años de familias de ARN". Nucleic Acids Res . 41 (número de la base de datos): D226–32. doi : 10.1093/nar/gks1005 . PMC 3531072 . PMID  23125362. 
  13. ^ Kalvari I, Argasinska J, Quinones-Olvera N, Nawrocki EP, Rivas E, Eddy SR, Bateman A, Finn RD, Petrov AI (enero de 2018). "Rfam 13.0: cambio a un recurso centrado en el genoma para familias de ARN no codificantes". Nucleic Acids Res . 46 (D1): D335–D342. doi :10.1093/nar/gkx1038. PMC 5753348 . PMID  29112718. 
  14. ^ Kalvari I, Nawrocki EP, Ontiveros-Palacios N, Argasinska J, Lamkiewicz K, Marz M, Griffiths-Jones S, Toffano-Nioche C, Gautheret D, Weinberg Z, Rivas E, Eddy SR, Finn RD, Bateman A, Petrov AI (enero de 2021). "Rfam 14: cobertura ampliada de familias metagenómicas, virales y de microARN". Nucleic Acids Res . 49 (D1): D192–D200. doi : 10.1093/nar/gkaa1047 . PMC 7779021 . PMID  33211869. 

Enlaces externos