Formato de Estocolmo

El formato de Estocolmo es un formato de alineamiento de secuencias múltiples utilizado por Pfam , Rfam y Dfam para difundir alineamientos de secuencias de proteínas, ARN y ADN. ^[1]^[2]^[3] Los editores de alineamiento Ralee, ^[4] Belvu y Jalview admiten el formato de Estocolmo, al igual que las herramientas de búsqueda de bases de datos probabilísticas , Infernal y HMMER , y la herramienta de análisis filogenético Xrate . Los archivos de formato de Estocolmo a menudo tienen la extensión de nombre de archivo .sto o .stk. ^[5]

Sintaxis

Un archivo de Estocolmo bien formado siempre contiene un encabezado que indica el formato y el identificador de la versión, actualmente " # STOCKHOLM 1.0". El encabezado va seguido de varias líneas, una combinación de marcado (que comienza con # ) y secuencias. Por último, la línea " " indica el final de la alineación.//

Un ejemplo sin marcado se ve así:

#ESTOCOLMO 1.0#=EJEMPLO DE IDENTIFICACIÓN DE GF<seqname> <secuencia alineada><seqname> <secuencia alineada><seqname> <secuencia alineada>//

Las secuencias se escriben una por línea. El nombre de la secuencia se escribe primero y, después de cualquier cantidad de espacios en blanco, se escribe la secuencia. Los nombres de secuencia suelen tener el formato "nombre/inicio-fin" o simplemente "nombre". Las letras de la secuencia pueden incluir cualquier carácter excepto espacios en blanco. Los espacios en blanco se pueden indicar con " . " o " - ".

Las líneas de marcado comienzan con # . Los "parámetros" están separados por espacios en blanco, por lo que se debe utilizar un guión bajo ("_") en lugar de un espacio para los marcados de 1 carácter por columna. Los tipos de marcado definidos incluyen:

#=GF <característica> <Anotación genérica por archivo, texto libre>#=GC <característica> <Anotación genérica por columna, exactamente 1 carácter por columna>#=GS <seqname> <feature> <Anotación genérica por secuencia, texto libre>#=GR <seqname> <feature> <Anotación genérica por residuo, exactamente 1 carácter por residuo>

Características recomendadas

Pfam y Rfam utilizan estos nombres de características para tipos específicos de anotaciones. (Consulte la documentación de Pfam y Rfam en "Descripción de campos")

#=Novia

Pfam y Rfam pueden utilizar las siguientes etiquetas:

 Campos obligatorios: ------------------ Número de acceso AC: Número de acceso en formato PFxxxxx (Pfam) o RFxxxxx (Rfam). ID Identificación: Nombre de una palabra para la familia. DE Definición: Breve descripción de la familia. AU Autor: Autores de la entrada. SE Fuente de la semilla: La fuente que sugiere que los miembros de la semilla pertenecen a una familia. SS Fuente de la estructura: La fuente (predicción o publicación) de la estructura secundaria del ARN de consenso utilizada por Rfam. Método de construcción de BM: Línea de comandos utilizada para generar el modelo Método de búsqueda SM: Línea de comando utilizada para realizar la búsqueda Umbral de reunión de GA: Umbral de búsqueda para construir la alineación completa. Punto de corte confiable de TC: puntuación de secuencia más baja (y puntuación de dominio para Pfam) de coincidencia en la alineación completa. Corte de ruido de NC: la puntuación de secuencia más alta (y puntuación de dominio para Pfam) de la coincidencia no está en alineación completa. Tipo de TP: Tipo de familia: actualmente Familia, Dominio, Motivo o Repetición para Pfam. -- un árbol con raíces Gen, Intrón o Cis-reg para Rfam. Secuencia SQ: Número de secuencias en alineación. Campos opcionales: ---------------- Comentario de la base de datos de DC: Comentario sobre la referencia de la base de datos. Referencia de base de datos DR: Referencia a base de datos externa. Comentario de referencia RC: Comentario sobre la referencia literaria. Número de referencia RN: Número de referencia. Referencia RM Medline: Número de UI de Medline de ocho dígitos. RT Título de referencia: Título de referencia. Autor de referencia de RA: Autor de referencia Ubicación de referencia RL: Ubicación de la revista. PI Identificador anterior: Registro de todas las líneas de identificación anteriores. Palabras clave KW: Palabras clave. Comentario CC: Comentarios. Adhesión NE Pfam: Indica un dominio anidado. NL Ubicación: Ubicación de los dominios anidados: ID de secuencia, inicio y final de la inserción. Enlace de Wikipedia de WK: Página de Wikipedia CL Clan: Adhesión al clan Membresía de MB: se utiliza para enumerar la membresía del clan. Para incrustar árboles: ---------------- NH New Hampshire Un árbol en formato extendido de New Hampshire. ID de árbol TN Un identificador único para el próximo árbol. Otro: ------ FR Tasa de falsos descubrimientos: Un método utilizado para establecer el umbral de puntuación de bits en función de la relación falsos positivos esperados a verdaderos positivos. Número de punto flotante entre 0 y 1. Método de calibración de CB: Línea de comando utilizada para calibrar el modelo (solo Rfam, versión 12.0 y posteriores)

Notas: Un árbol puede almacenarse en varias líneas #=GF NH.
Si se almacenan varios árboles en el mismo archivo, cada árbol debe ir precedido de una línea #=GF TN con un identificador de árbol único. Si solo se incluye un árbol, se puede omitir la línea #=GF TN.

#=GS

Rfam y Pfam pueden utilizar estas funciones:

 Descripción de la función --------------------- ----------- AC <accession> Número de acceso DE <texto libre> DEscripción DR <db>; <accession>; Referencia de base de datos OS <organismo> Organismo (especie) OC <clade> Clasificación de organismos (clado, etc.) LO <mirar> Mirar (Color, etc.)

#=GRACIAS

 Descripción de la característica Letras de marcado ------- ----------- -------------- Estructura secundaria SS para ARN [.,;<>(){}[]AaBb.-_] --admite pseudonudos y marcado de estructura adicional (consulte la documentación de WUSS) Para proteínas [HGIEBTSCX] Accesibilidad de superficies SA [0-9X] (0=0%-10%; ...; 9=90%-100%) TM TransMembrana [Mio] Probabilidad posterior de PP [0-9*] (0=0,00-0,05; 1=0,05-0,15; *=0,95-1,00) Enlace de ligando LI [*] Sitio activo de AS [*] pAS AS - Pfam pronosticó [*] sAS AS - de SwissProt [*] EN INtron (dentro o después) [0-2]  Para interacciones terciarias de ARN: ------------------------------ tWW WC/WC en trans Para pares de bases: [<>AaBb...Zz] Para no apareados: [.] cWH WC/Hoogsteen en cis cWS WC/SugarEdge en cis tWS WC/SugarEdge en trans notas: (1) {c,t}{W,H,S}{W,H,S} para formato general. (2) cWW es equivalente a SS.

#= GC

La lista de características válidas incluye las que se muestran a continuación, así como las mismas características que para #=GR con "_cons" añadido, que significa "consenso". Ejemplo: "SS_cons".

 Descripción de la característica Descripción ------- ----------- -------------- Anotación de referencia de RF A menudo, la secuencia de ARN o proteína de consenso se utiliza como referencia. Cualquier carácter que no sea un espacio (por ejemplo, x) puede indicar columnas de consenso/conservadas/coincidentes Los .'s o -'s indican columnas de inserción Los ~ indican inserciones no alineadas Se pueden utilizar mayúsculas y minúsculas para discriminar entre conservaciones fuertes y débilmente conservadas. residuos respectivamente Máscara de modelo MM Indica qué columnas de una alineación deben enmascararse, como que las probabilidades de emisión para los estados coincidentes correspondientes a Esas columnas serán la distribución de fondo.

Notas

No utilice varias líneas con la misma etiqueta #=GC.
Para una sola secuencia, no utilice varias líneas con la misma etiqueta #=GR. Solo se puede realizar una asignación de característica única para cada secuencia.
"X" en SA y SS significa "residuo con estructura desconocida".
Las letras SS de la proteína se toman de DSSP : H = hélice alfa, G = hélice 3/10, I = hélice p, E = cadena extendida, B = residuo en puente b aislado, T = giro, S = curvatura, C = bobina/bucle.
Las letras SS del ARN se toman de la notación WUSS (Washington University Secondary Structure). Los caracteres de paréntesis anidados coincidentes <>, (), [] o {} indican un par de bases. Los símbolos '.', ',' y ';' indican regiones no apareadas. Los caracteres en mayúsculas y minúsculas coincidentes del alfabeto inglés indican interacciones de pseudonudos . El nucleótido 5' dentro del nudo debe estar en mayúscula y el nucleótido 3' en minúscula.

Ubicaciones recomendadas

#=GF Por encima de la alineación
#=GC Debajo de la alineación
#=GS Por encima de la alineación o justo debajo de la secuencia correspondiente
#=GR Justo debajo de la secuencia correspondiente

Límites de tamaño

No existen límites de tamaño explícitos para ningún campo. Sin embargo, un analizador simple que utilice tamaños de campo fijos debería funcionar de manera segura en alineaciones Pfam y Rfam con estos límites:

Longitud de línea: 10000.
<nombre de secuencia>: 255.
<característica>: 255.

Ejemplos

A continuación se muestra un ejemplo simple de una alineación Rfam ( ARN UPSK ) con un pseudonudo en formato de Estocolmo: ^[6]

#ESTOCOLMO 1.0#=ID de GF UPSK#=GF SE Predicho; Infernal#=GF SS Publicado; PMID 9223489#=Nombre de la empresa RN [1]#=Novia RM 9223489#=GF RT El papel del pseudonudo en el extremo 3' del mosaico amarillo del nabo#=ARN del virus GF RT en síntesis de cadena negativa por el ARN dependiente del ARN viral#=GF RT polimerasa.#=GF RA Deiman BA, Kortlever RM, Pleij CW;#=GF RL J Virol 1997;71:5990-5996.AF035635.1/619-641 UGAGUUCUCGAUCUCUAAAAAUCGM24804.1/82-104 UGAGUUCUCUUAUCUCUAAAAUCGJ04373.1/6212-6234 UAAGUUCUCGAUCUUUAAAAUCGM24803.1/1-23 UAAGUUCUCGAUCUCUAAAAUCG#=GC SS_cons .AAA....<<<<aaa....>>>>//

A continuación se muestra un ejemplo un poco más complejo que muestra el dominio Pfam CBS :

#ESTOCOLMO 1.0#=ID de novia CBS#=GF-CA PF00571#=Dominio GF DE CBS#=GF AU Bateman A#=Los dominios GF CC CBS son pequeños módulos intracelulares que se encuentran principalmente#=GF CC en 2 o cuatro copias dentro de una proteína.#=GF cuadrado 5#=GS O31698/18-71 CA O31698#=GS O83071/192-246 CA O83071#=GS O83071/259-312 CA O83071#=GS O31698/88-139 CA O31698#=GS O31698/88-139 SO Bacillus subtilisO83071/192-246 TERCEROS DE SEGURIDAD#=GR O83071/192-246 SA 9998877564535242525515252536463774777O83071/259-312 MQHVSAPVFVFECTRLAYVQHKLRAHSRAVAIVLDEY#=GR O83071/259-312 SS CCCCCHHHHHHHHHHHHHHHHEEEEEEEEEEEEEEEEEEEO31698/18-71 MIEADKVAHVQVGNNLEHALLVLTKTGYTAIPVLDPS#=GR O31698/18-71 SS CCCHHHHHHHHHHHHHHHHHEEEEEEEEEEEEEEEEHHHO31698/88-139 EVMLTDIPRLHINDPIMKGFGMVINN..GFVCVENDE#=GR O31698/88-139 SS CCHHHHHHHHHHHHHEEEEEEEEEEEEEEEEEH#=GC SS_cons CCCCCHHHHHHHHHHHHHHHEEEEEEEEEEEEEEEEEEHO31699/88-139 EVMLTDIPRLHINDPIMKGFGMVINN..GFVCVENDE#=GR O31699/88-139 AS ________________*____________________#=GR O31699/88-139 EN ____________1____________2______0____//

Véase también

Formato FASTA
RFAM
Pfam

Referencias

^ Gardner PP, Daub J, Tate JG, Nawrocki EP, Kolbe DL, Lindgreen S, et al. (enero de 2009). "Rfam: actualizaciones de la base de datos de familias de ARN". Nucleic Acids Research . 37 (número de la base de datos): D136–D140. doi :10.1093/nar/gkn766. PMC 2686503 . PMID 18953034.
^ Finn RD, Tate J, Mistry J, Coggill PC, Sammut SJ, Hotz HR, et al. (enero de 2008). "Base de datos de familias de proteínas Pfam". Nucleic Acids Research . 36 (número de la base de datos): D281–D288. doi :10.1093/nar/gkm960. PMC 2238907 . PMID 18039703.
^ Storer J, Hubley R, Rosen J, Wheeler TJ, Smit AF (enero de 2021). "El recurso comunitario Dfam de familias de elementos transponibles, modelos de secuencia y anotaciones genómicas". ADN móvil . 12 (1): 2. doi : 10.1186/s13100-020-00230-y . PMC 7805219 . PMID 33436076.
^ Griffiths-Jones S (enero de 2005). "RALEE--Editor de alineación de ARN en Emacs". Bioinformática . 21 (2): 257–259. doi : 10.1093/bioinformatics/bth489 . PMID 15377506.
^ "Formatos de archivo de alineación". 22 de mayo de 2019. Consultado el 22 de mayo de 2019 .
^ Deiman BA, Kortlever RM, Pleij CW (agosto de 1997). "El papel del pseudonudo en el extremo 3' del ARN del virus del mosaico amarillo del nabo en la síntesis de la cadena negativa por la ARN polimerasa dependiente del ARN viral". Journal of Virology . 71 (8): 5990–5996. doi :10.1128/JVI.71.8.5990-5996.1997. PMC 191855 . PMID 9223489.

Enlaces externos

Definición del formato de Estocolmo según Erik Sonnhammers