El formato de Estocolmo es un formato de alineamiento de secuencias múltiples utilizado por Pfam , Rfam y Dfam para difundir alineamientos de secuencias de proteínas, ARN y ADN. [1] [2] [3] Los editores de alineamiento Ralee, [4] Belvu y Jalview admiten el formato de Estocolmo, al igual que las herramientas de búsqueda de bases de datos probabilísticas , Infernal y HMMER , y la herramienta de análisis filogenético Xrate . Los archivos de formato de Estocolmo a menudo tienen la extensión de nombre de archivo .sto
o .stk
. [5]
Un archivo de Estocolmo bien formado siempre contiene un encabezado que indica el formato y el identificador de la versión, actualmente " # STOCKHOLM 1.0
". El encabezado va seguido de varias líneas, una combinación de marcado (que comienza con # ) y secuencias. Por último, la línea " " indica el final de la alineación.//
Un ejemplo sin marcado se ve así:
#ESTOCOLMO 1.0#=EJEMPLO DE IDENTIFICACIÓN DE GF<seqname> <secuencia alineada><seqname> <secuencia alineada><seqname> <secuencia alineada>//
Las secuencias se escriben una por línea. El nombre de la secuencia se escribe primero y, después de cualquier cantidad de espacios en blanco, se escribe la secuencia. Los nombres de secuencia suelen tener el formato "nombre/inicio-fin" o simplemente "nombre". Las letras de la secuencia pueden incluir cualquier carácter excepto espacios en blanco. Los espacios en blanco se pueden indicar con " . " o " - ".
Las líneas de marcado comienzan con # . Los "parámetros" están separados por espacios en blanco, por lo que se debe utilizar un guión bajo ("_") en lugar de un espacio para los marcados de 1 carácter por columna. Los tipos de marcado definidos incluyen:
#=GF <característica> <Anotación genérica por archivo, texto libre>#=GC <característica> <Anotación genérica por columna, exactamente 1 carácter por columna>#=GS <seqname> <feature> <Anotación genérica por secuencia, texto libre>#=GR <seqname> <feature> <Anotación genérica por residuo, exactamente 1 carácter por residuo>
Pfam y Rfam utilizan estos nombres de características para tipos específicos de anotaciones. (Consulte la documentación de Pfam y Rfam en "Descripción de campos")
Pfam y Rfam pueden utilizar las siguientes etiquetas:
Campos obligatorios: ------------------ Número de acceso AC: Número de acceso en formato PFxxxxx (Pfam) o RFxxxxx (Rfam). ID Identificación: Nombre de una palabra para la familia. DE Definición: Breve descripción de la familia. AU Autor: Autores de la entrada. SE Fuente de la semilla: La fuente que sugiere que los miembros de la semilla pertenecen a una familia. SS Fuente de la estructura: La fuente (predicción o publicación) de la estructura secundaria del ARN de consenso utilizada por Rfam. Método de construcción de BM: Línea de comandos utilizada para generar el modelo Método de búsqueda SM: Línea de comando utilizada para realizar la búsqueda Umbral de reunión de GA: Umbral de búsqueda para construir la alineación completa. Punto de corte confiable de TC: puntuación de secuencia más baja (y puntuación de dominio para Pfam) de coincidencia en la alineación completa. Corte de ruido de NC: la puntuación de secuencia más alta (y puntuación de dominio para Pfam) de la coincidencia no está en alineación completa. Tipo de TP: Tipo de familia: actualmente Familia, Dominio, Motivo o Repetición para Pfam. -- un árbol con raíces Gen, Intrón o Cis-reg para Rfam. Secuencia SQ: Número de secuencias en alineación. Campos opcionales: ---------------- Comentario de la base de datos de DC: Comentario sobre la referencia de la base de datos. Referencia de base de datos DR: Referencia a base de datos externa. Comentario de referencia RC: Comentario sobre la referencia literaria. Número de referencia RN: Número de referencia. Referencia RM Medline: Número de UI de Medline de ocho dígitos. RT Título de referencia: Título de referencia. Autor de referencia de RA: Autor de referencia Ubicación de referencia RL: Ubicación de la revista. PI Identificador anterior: Registro de todas las líneas de identificación anteriores. Palabras clave KW: Palabras clave. Comentario CC: Comentarios. Adhesión NE Pfam: Indica un dominio anidado. NL Ubicación: Ubicación de los dominios anidados: ID de secuencia, inicio y final de la inserción. Enlace de Wikipedia de WK: Página de Wikipedia CL Clan: Adhesión al clan Membresía de MB: se utiliza para enumerar la membresía del clan. Para incrustar árboles: ---------------- NH New Hampshire Un árbol en formato extendido de New Hampshire. ID de árbol TN Un identificador único para el próximo árbol. Otro: ------ FR Tasa de falsos descubrimientos: Un método utilizado para establecer el umbral de puntuación de bits en función de la relación falsos positivos esperados a verdaderos positivos. Número de punto flotante entre 0 y 1. Método de calibración de CB: Línea de comando utilizada para calibrar el modelo (solo Rfam, versión 12.0 y posteriores)
Rfam y Pfam pueden utilizar estas funciones:
Descripción de la función --------------------- ----------- AC <accession> Número de acceso DE <texto libre> DEscripción DR <db>; <accession>; Referencia de base de datos OS <organismo> Organismo (especie) OC <clade> Clasificación de organismos (clado, etc.) LO <mirar> Mirar (Color, etc.)
Descripción de la característica Letras de marcado ------- ----------- -------------- Estructura secundaria SS para ARN [.,;<>(){}[]AaBb.-_] --admite pseudonudos y marcado de estructura adicional (consulte la documentación de WUSS) Para proteínas [HGIEBTSCX] Accesibilidad de superficies SA [0-9X] (0=0%-10%; ...; 9=90%-100%) TM TransMembrana [Mio] Probabilidad posterior de PP [0-9*] (0=0,00-0,05; 1=0,05-0,15; *=0,95-1,00) Enlace de ligando LI [*] Sitio activo de AS [*] pAS AS - Pfam pronosticó [*] sAS AS - de SwissProt [*] EN INtron (dentro o después) [0-2] Para interacciones terciarias de ARN: ------------------------------ tWW WC/WC en trans Para pares de bases: [<>AaBb...Zz] Para no apareados: [.] cWH WC/Hoogsteen en cis cWS WC/SugarEdge en cis tWS WC/SugarEdge en trans notas: (1) {c,t}{W,H,S}{W,H,S} para formato general. (2) cWW es equivalente a SS.
La lista de características válidas incluye las que se muestran a continuación, así como las mismas características que para #=GR con "_cons" añadido, que significa "consenso". Ejemplo: "SS_cons".
Descripción de la característica Descripción ------- ----------- -------------- Anotación de referencia de RF A menudo, la secuencia de ARN o proteína de consenso se utiliza como referencia. Cualquier carácter que no sea un espacio (por ejemplo, x) puede indicar columnas de consenso/conservadas/coincidentes Los .'s o -'s indican columnas de inserción Los ~ indican inserciones no alineadas Se pueden utilizar mayúsculas y minúsculas para discriminar entre conservaciones fuertes y débilmente conservadas. residuos respectivamente Máscara de modelo MM Indica qué columnas de una alineación deben enmascararse, como que las probabilidades de emisión para los estados coincidentes correspondientes a Esas columnas serán la distribución de fondo.
No existen límites de tamaño explícitos para ningún campo. Sin embargo, un analizador simple que utilice tamaños de campo fijos debería funcionar de manera segura en alineaciones Pfam y Rfam con estos límites:
A continuación se muestra un ejemplo simple de una alineación Rfam ( ARN UPSK ) con un pseudonudo en formato de Estocolmo: [6]
#ESTOCOLMO 1.0#=ID de GF UPSK#=GF SE Predicho; Infernal#=GF SS Publicado; PMID 9223489#=Nombre de la empresa RN [1]#=Novia RM 9223489#=GF RT El papel del pseudonudo en el extremo 3' del mosaico amarillo del nabo#=ARN del virus GF RT en síntesis de cadena negativa por el ARN dependiente del ARN viral#=GF RT polimerasa.#=GF RA Deiman BA, Kortlever RM, Pleij CW;#=GF RL J Virol 1997;71:5990-5996.AF035635.1/619-641 UGAGUUCUCGAUCUCUAAAAAUCGM24804.1/82-104 UGAGUUCUCUUAUCUCUAAAAUCGJ04373.1/6212-6234 UAAGUUCUCGAUCUUUAAAAUCGM24803.1/1-23 UAAGUUCUCGAUCUCUAAAAUCG#=GC SS_cons .AAA....<<<<aaa....>>>>//
A continuación se muestra un ejemplo un poco más complejo que muestra el dominio Pfam CBS :
#ESTOCOLMO 1.0#=ID de novia CBS#=GF-CA PF00571#=Dominio GF DE CBS#=GF AU Bateman A#=Los dominios GF CC CBS son pequeños módulos intracelulares que se encuentran principalmente#=GF CC en 2 o cuatro copias dentro de una proteína.#=GF cuadrado 5#=GS O31698/18-71 CA O31698#=GS O83071/192-246 CA O83071#=GS O83071/259-312 CA O83071#=GS O31698/88-139 CA O31698#=GS O31698/88-139 SO Bacillus subtilisO83071/192-246 TERCEROS DE SEGURIDAD#=GR O83071/192-246 SA 9998877564535242525515252536463774777O83071/259-312 MQHVSAPVFVFECTRLAYVQHKLRAHSRAVAIVLDEY#=GR O83071/259-312 SS CCCCCHHHHHHHHHHHHHHHHEEEEEEEEEEEEEEEEEEEO31698/18-71 MIEADKVAHVQVGNNLEHALLVLTKTGYTAIPVLDPS#=GR O31698/18-71 SS CCCHHHHHHHHHHHHHHHHHEEEEEEEEEEEEEEEEHHHO31698/88-139 EVMLTDIPRLHINDPIMKGFGMVINN..GFVCVENDE#=GR O31698/88-139 SS CCHHHHHHHHHHHHHEEEEEEEEEEEEEEEEEH#=GC SS_cons CCCCCHHHHHHHHHHHHHHHEEEEEEEEEEEEEEEEEEHO31699/88-139 EVMLTDIPRLHINDPIMKGFGMVINN..GFVCVENDE#=GR O31699/88-139 AS ________________*____________________#=GR O31699/88-139 EN ____________1____________2______0____//