[2] El resultado será una recopilación de anotaciones, que incluirá todos los loci que codifican para proteínas con variantes transcritas alternativamente,[3] loci no codificantes[4] con tránscritos encontrados y pseudogenes.[5] Los genes de GENCODE se utilizan como genes de referencia en todo el consorcio ENCODE, además de en otros muchos proyectos, como es el caso de: el Human Cell Atlas (HCA), Genotype-Tissue Expression (GTEx), The Cancer Genome Atlas (TCGA), International Cancer Genome Consortium (ICGC), NIH Roadmap Epigenomics Mapping Consortium, Blueprint Epigenome Project, Exome Aggregation Consortium (EXAC), Genome Aggregation Database (gnomAD) y 1000 Genomes Project.Estos descubrimientos resaltaron el éxito de dicho proyecto en crear una plataforma y nuevas tecnologías para caracterizar elementos funcionales en el genoma humano, abriendo un camino para la investigación en estudios del genoma completo.[8] El NHGRI concedió una subvención al Wellcome Trust Sanger Institute por sus buenos resultados en la fase piloto con el 1% del genoma.También se da información sobre potenciales sitios de unión inespecífica para cada secuencia guía, según el número de mismatches que haya entre el sitio inespecífico y la secuencia guía.[9] El proceso general para crear una anotación de GENCODE incluye trabajo manual, análisis computacionales y enfoques experimentales específicos.La secuencia genómica final se analiza usando datos de Ensembl modificados.Esta información se devuelve a los anotadores manuales usando el sistema de seguimiento AnnoTrack.A continuación, esta biblioteca fue secuenciada en una plataforma Genome Analyzer 2 de Illumina.APPRIS es un sistema que presenta un rango de métodos computacionales para proporcionar valor a las anotaciones del genoma humano.La información de la anotación se traslada a cromosomas de referencia y se almacena en archivos separados que incluyen: anotación genética, características PolyA anotadas por HAVANA, pseudogenes (retrotranspuestos o no) predichos por las herramientas de Yale y UCSC pero no por HAVANA, lncRNAs, y estructuras tRNA predichas por tRNA-Scan.Con la llegada del proyecto ENCODE/GENCODE, se han ido desvelando aspectos incluso más problemáticos, como el splicing alternativo y las transcripciones intergénicas, los patrones complejos de regulación dispersa, junto con la conservación no génica y la abundancia de RNAs no codificantes.GENCODE se dedica a construir una enciclopedia de genes y variantes genéticas, por lo que encontrar una noción actualizada del concepto de “gen” se presenta como un reto para el proyecto.La meta de ENCODE es construir una lista exhaustiva de elementos funcionales en el genoma humano, incluyendo elementos que actúan a nivel de las proteínas y el RNA, y elementos regulatorios que controlan las células y las circunstancias en las que un gen determinado se encuentra activo.Los resultados a partir de 2013 se encuentran libremente disponibles para ser descargados y analizados en el portal del proyecto ENCODE.Para anotar toda la evidencia basada en rasgos genéticos (genes, tránscritos, secuencias codificantes, etc.) en la totalidad del genoma humano con gran precisión, el consorcio ENCODE creó el subproyecto GENCODE.El Proyecto Genoma Humano empezó formalmente en 1990 y fue completado en 2003, 2 años antes de lo previsto.[23] Tras la publicación de la secuencia completa del genoma humano en abril del 2003, la comunidad científica aumentó sus esfuerzos para explorar toda la información disponible, buscando pistas para entender cómo funciona el cuerpo humano en un estado fisiológico y patológico.Un requerimiento básico para la comprensión de la biología humana es la habilidad para identificar y caracterizar los elementos funcionales basados en la secuencia a través de la experimentación y el análisis computacional.Para la anotación del genoma humano, Ensembl utiliza los datos de GENCODE.[24] Una investigación clave en el área del proyecto GENCODE fue la significancia biológica de los lncRNA.Además, una tercera ronda de talleres RGASP se llevó a cabo en 2014 para centrarse en el mapeado del genoma.
Diagrama de las herramientas de GENCODE. Se muestra el flujo de datos entre la anotación manual y la anotación automática a través de herramientas de predicción especializadas. Los modelos genéticos anotados están sujetos a validación experimental, y el sistema de seguimiento AnnoTrack contiene información de todas esas fuentes y se usa para resaltar las diferencias, coordinar los controles de calidad y hacer el seguimiento de los resultados. Los procesos de anotación manual y automática son los que producen la base de datos de GENCODE, y se usan para el control de calidad de la anotación completa.