stringtranslate.com

Formato de funciones generales

En bioinformática , el formato de características generales ( formato de búsqueda de genes , formato de características genéricas , GFF ) es un formato de archivo utilizado para describir genes y otras características de secuencias de ADN , ARN y proteínas .

Versiones de GFF

Existen las siguientes versiones de GFF:

GFF2/GTF tenía una serie de deficiencias, en particular que solo puede representar jerarquías de características de dos niveles y, por lo tanto, no puede manejar la jerarquía de tres niveles de gen → transcripción → exón. GFF3 soluciona esta y otras deficiencias. Por ejemplo, admite una cantidad arbitraria de niveles jerárquicos y otorga significados específicos a ciertas etiquetas en el campo de atributos.

El GTF es idéntico al GFF, versión 2. [1]

Estructura general del GFF

Todos los formatos GFF (GFF2, GFF3 y GTF) están delimitados por tabuladores con 9 campos por línea. Todos ellos comparten la misma estructura para los primeros 7 campos, mientras que difieren en el contenido y formato del noveno campo . Algunos nombres de campo se han cambiado en GFF3 para evitar confusiones. Por ejemplo, el campo "seqid" antes se denominaba "secuencia", que puede confundirse con una cadena de nucleótidos o aminoácidos. La estructura general es la siguiente:

El campo 8: fase de características del CDS

En términos simples, CDS significa "secuencia de codificación". El significado exacto del término está definido por la ontología de secuencias (SO). Según la especificación GFF3 : [2] [3]

En el caso de las características del tipo "CDS", la fase indica dónde comienza la característica con respecto al marco de lectura. La fase es uno de los números enteros 0, 1 o 2, que indica la cantidad de bases que se deben eliminar desde el comienzo de esta característica para alcanzar la primera base del siguiente codón.

Directivas meta

En los archivos GFF, se puede incluir información meta adicional que aparece después de la directiva ##. Esta información meta puede detallar la versión de GFF, la región de la secuencia o la especie (la lista completa de tipos de metadatos se puede encontrar en las especificaciones de Sequence Ontology).

Programa GFF

Servidores

Servidores que generan este formato:

Clientela

Clientes que utilizan este formato:

Validación

El proyecto modENCODE alberga una herramienta de validación GFF3 en línea con generosos límites de 286,10 MB y 15 millones de líneas.

La colección de software Genome Tools contiene una herramienta gff3validator que se puede utilizar sin conexión para validar y, posiblemente, ordenar archivos GFF3. También está disponible un servicio de validación en línea.

Véase también

Referencias

  1. ^ "Formato de archivo GFF/GTF". Ensembl . Archivado desde el original el 2022-06-15 . Consultado el 2023-11-04 .
  2. ^ "Especificación GFF3". GitHub . 2018-11-24. Archivado desde el original el 2023-07-04.
  3. ^ "GFF3". GMOD . 12 de julio de 2016. Archivado desde el original el 25 de agosto de 2023.