En bioinformática , el formato de características generales ( formato de búsqueda de genes , formato de características genéricas , GFF ) es un formato de archivo utilizado para describir genes y otras características de secuencias de ADN , ARN y proteínas .
Existen las siguientes versiones de GFF:
GFF2/GTF tenía una serie de deficiencias, en particular que solo puede representar jerarquías de características de dos niveles y, por lo tanto, no puede manejar la jerarquía de tres niveles de gen → transcripción → exón. GFF3 soluciona esta y otras deficiencias. Por ejemplo, admite una cantidad arbitraria de niveles jerárquicos y otorga significados específicos a ciertas etiquetas en el campo de atributos.
El GTF es idéntico al GFF, versión 2. [1]
Todos los formatos GFF (GFF2, GFF3 y GTF) están delimitados por tabuladores con 9 campos por línea. Todos ellos comparten la misma estructura para los primeros 7 campos, mientras que difieren en el contenido y formato del noveno campo . Algunos nombres de campo se han cambiado en GFF3 para evitar confusiones. Por ejemplo, el campo "seqid" antes se denominaba "secuencia", que puede confundirse con una cadena de nucleótidos o aminoácidos. La estructura general es la siguiente:
En términos simples, CDS significa "secuencia de codificación". El significado exacto del término está definido por la ontología de secuencias (SO). Según la especificación GFF3 : [2] [3]
En el caso de las características del tipo "CDS", la fase indica dónde comienza la característica con respecto al marco de lectura. La fase es uno de los números enteros 0, 1 o 2, que indica la cantidad de bases que se deben eliminar desde el comienzo de esta característica para alcanzar la primera base del siguiente codón.
En los archivos GFF, se puede incluir información meta adicional que aparece después de la directiva ##. Esta información meta puede detallar la versión de GFF, la región de la secuencia o la especie (la lista completa de tipos de metadatos se puede encontrar en las especificaciones de Sequence Ontology).
Servidores que generan este formato:
Clientes que utilizan este formato:
El proyecto modENCODE alberga una herramienta de validación GFF3 en línea con generosos límites de 286,10 MB y 15 millones de líneas.
La colección de software Genome Tools contiene una herramienta gff3validator que se puede utilizar sin conexión para validar y, posiblemente, ordenar archivos GFF3. También está disponible un servicio de validación en línea.