La Enciclopedia de Elementos del ADN ( ENCODE ) es un proyecto de investigación público cuyo objetivo es "construir una lista completa de elementos funcionales del genoma humano ". [2]
ENCODE también apoya la investigación biomédica adicional al "generar recursos comunitarios de datos genómicos, software, herramientas y métodos para el análisis de datos genómicos, y productos resultantes de análisis e interpretaciones de datos". [3] [2]
La fase actual de ENCODE (2016-2019) está agregando profundidad a sus recursos al aumentar la cantidad de tipos de células, tipos de datos, ensayos y ahora incluye soporte para el examen del genoma del ratón. [3]
ENCODE fue lanzado por el Instituto Nacional de Investigación del Genoma Humano (NHGRI) de EE. UU. en septiembre de 2003. [4] [5] [6] [7] [8] Diseñado como seguimiento del Proyecto Genoma Humano , el proyecto ENCODE tiene como objetivo Identificar todos los elementos funcionales del genoma humano . [9]
El proyecto involucra un consorcio mundial de grupos de investigación, y se puede acceder a los datos generados a partir de este proyecto a través de bases de datos públicas. El lanzamiento inicial de ENCODE fue en 2013 y desde entonces ha ido cambiando según las recomendaciones de los miembros del consorcio y la comunidad más amplia de científicos que utilizan el Portal para acceder a los datos de ENCODE. El objetivo de dos partes de ENCODE es servir como una base de datos de acceso público para "protocolos experimentales, procedimientos analíticos y los datos mismos", y "la misma interfaz debe servir metadatos cuidadosamente seleccionados que registren la procedencia de los datos y justifiquen su interpretación". en términos biológicos." [10] El proyecto inició su cuarta fase (ENCODE 4) en febrero de 2017. [11]
Se estima que los seres humanos tenemos aproximadamente 20.000 genes codificadores de proteínas , que representan aproximadamente el 1,5% del ADN del genoma humano. El objetivo principal del proyecto ENCODE es determinar el papel del componente restante del genoma, gran parte del cual tradicionalmente se consideraba "basura". La actividad y expresión de genes que codifican proteínas pueden ser moduladas por el reguloma : una variedad de elementos del ADN , como promotores , secuencias reguladoras transcripcionales y regiones de la estructura de la cromatina y modificación de histonas . Se cree que los cambios en la regulación de la actividad genética pueden alterar la producción de proteínas y los procesos celulares y provocar enfermedades. Determinar la ubicación de estos elementos reguladores y cómo influyen en la transcripción genética podría revelar vínculos entre las variaciones en la expresión de ciertos genes y el desarrollo de enfermedades. [12]
ENCODE también pretende ser un recurso integral que permita a la comunidad científica comprender mejor cómo el genoma puede afectar la salud humana y "estimular el desarrollo de nuevas terapias para prevenir y tratar estas enfermedades". [5]
El Consorcio ENCODE está compuesto principalmente por científicos financiados por el Instituto Nacional de Investigación del Genoma Humano (NHGRI) de EE. UU. Otros participantes que contribuyen al proyecto se incorporan al Consorcio o al Grupo de Trabajo de Análisis.
La fase piloto estuvo compuesta por ocho grupos de investigación y doce grupos que participaron en la Fase de Desarrollo Tecnológico ENCODE. Después de 2007, el número de participantes se amplió a 440 científicos ubicados en 32 laboratorios de todo el mundo cuando la fase piloto concluyó oficialmente. Actualmente el consorcio está formado por diferentes centros que realizan diferentes tareas.
ENCODE es miembro del Consorcio Internacional del Epigenoma Humano (IHEC). [14]
El principal requisito del NHGRI para que los productos de la investigación financiada por ENCODE se compartan de manera gratuita y altamente accesible para todos los investigadores para promover la investigación genómica. La investigación ENCODE permite la reproducibilidad y, por tanto, la transparencia del software, los métodos, los datos y otras herramientas relacionadas con el análisis genómico. [3]
ENCODE se implementa actualmente en cuatro fases: la fase piloto y la fase de desarrollo de tecnología, que se iniciaron simultáneamente; [15] y la fase de producción. La cuarta fase es una continuación de la tercera e incluye una caracterización funcional y un análisis integrador adicional para la enciclopedia.
El objetivo de la fase piloto era identificar un conjunto de procedimientos que, en combinación, podrían aplicarse de manera rentable y de alto rendimiento para caracterizar de manera precisa y completa grandes regiones del genoma humano . La fase piloto tenía que revelar lagunas en el conjunto actual de herramientas para detectar secuencias funcionales, y también se pensaba que revelaría si algunos métodos utilizados en ese momento eran ineficaces o inadecuados para su utilización a gran escala. Algunos de estos problemas tuvieron que abordarse en la fase de desarrollo de la tecnología ENCODE, cuyo objetivo era idear nuevos métodos computacionales y de laboratorio que mejoraran nuestra capacidad para identificar secuencias funcionales conocidas o descubrir nuevos elementos genómicos funcionales. Los resultados de las dos primeras fases determinaron el mejor camino a seguir para analizar el 99% restante del genoma humano en una fase de producción integral y rentable. [5]
La fase piloto probó y comparó métodos existentes para analizar rigurosamente una porción definida de la secuencia del genoma humano. Se organizó como un consorcio abierto y reunió a investigadores con diversos antecedentes y experiencia para evaluar los méritos relativos de cada uno de un conjunto diverso de técnicas, tecnologías y estrategias. La fase simultánea de desarrollo tecnológico del proyecto tenía como objetivo desarrollar nuevos métodos de alto rendimiento para identificar elementos funcionales. El objetivo de estos esfuerzos era identificar un conjunto de enfoques que permitieran la identificación integral de todos los elementos funcionales del genoma humano. A través del proyecto piloto ENCODE, el Instituto Nacional de Investigación del Genoma Humano (NHGRI) evaluó las capacidades de diferentes enfoques para ampliarlos en un esfuerzo por analizar todo el genoma humano y encontrar lagunas en la capacidad de identificar elementos funcionales en la secuencia genómica.
El proceso del proyecto piloto ENCODE implicó estrechas interacciones entre científicos computacionales y experimentales para evaluar una serie de métodos para anotar el genoma humano. Se seleccionó como objetivo para el proyecto piloto un conjunto de regiones que representan aproximadamente el 1% (30 Mb) del genoma humano y fueron analizados por todos los investigadores del proyecto piloto ENCODE. Todos los datos generados por los participantes de ENCODE en estas regiones se publicaron rápidamente en bases de datos públicas. [7] [16]
Para su uso en el proyecto piloto ENCODE, se seleccionaron regiones definidas del genoma humano (correspondientes a 30 Mb, aproximadamente el 1% del genoma humano total). Estas regiones sirvieron de base para probar y evaluar la eficacia y eficiencia de un conjunto diverso de métodos y tecnologías para encontrar diversos elementos funcionales en el ADN humano.
Antes de embarcarse en la selección del objetivo, se decidió que el 50% de los 30 Mb de secuencia se seleccionarían manualmente mientras que la secuencia restante se seleccionaría al azar. Los dos criterios principales para las regiones seleccionadas manualmente fueron: 1) la presencia de genes bien estudiados u otros elementos de secuencia conocidos, y 2) la existencia de una cantidad sustancial de datos de secuencia comparativos. Se seleccionó manualmente un total de 14,82 Mb de secuencia utilizando este enfoque, que consta de 14 objetivos que varían en tamaño desde 500 kb hasta 2 Mb.
El 50% restante de los 30 Mb de secuencia estaba compuesto por treinta regiones de 500 kb seleccionadas de acuerdo con una estrategia de muestreo aleatorio estratificado basada en la densidad genética y el nivel de conservación no exónica. La decisión de utilizar estos criterios particulares se tomó para garantizar un buen muestreo de regiones genómicas que varían ampliamente en su contenido de genes y otros elementos funcionales. El genoma humano se dividió en tres partes (20% superior, 30% medio y 50% inferior) a lo largo de cada uno de dos ejes: 1) densidad genética y 2) nivel de conservación no exónica con respecto a la secuencia genómica ortóloga del ratón ( ver más abajo), para un total de nueve estratos. De cada estrato, se eligieron tres regiones aleatorias para el proyecto piloto. Para aquellos estratos subrepresentados por las selecciones manuales, se eligió una cuarta región, lo que resultó en un total de 30 regiones. Para todos los estratos, se designó una región de "respaldo" para su uso en caso de problemas técnicos imprevistos.
En mayor detalle, los criterios de estratificación fueron los siguientes:
Las puntuaciones anteriores se calcularon dentro de ventanas de 500 kb no superpuestas de la secuencia terminada en todo el genoma y se utilizaron para asignar cada ventana a un estrato. [17]
La fase piloto finalizó con éxito y los resultados se publicaron en junio de 2007 en Nature [7] y en un número especial de Genome Research ; [18] Los resultados publicados en el primer artículo mencionado avanzaron en el conocimiento colectivo sobre la función del genoma humano en varias áreas importantes, incluidas las siguientes destacadas: [7]
En septiembre de 2007, el Instituto Nacional de Investigación del Genoma Humano (NHGRI) comenzó a financiar la fase de producción del proyecto ENCODE. En esta fase, el objetivo era analizar todo el genoma y realizar "estudios adicionales a escala piloto". [19]
Al igual que en el proyecto piloto, el esfuerzo de producción se organiza en forma de consorcio abierto. En octubre de 2007, NHGRI otorgó subvenciones por un total de más de 80 millones de dólares durante cuatro años. [20] La fase de producción también incluye un Centro de Coordinación de Datos, un Centro de Análisis de Datos y un Esfuerzo de Desarrollo Tecnológico. [21] En ese momento, el proyecto evolucionó hasta convertirse en una empresa verdaderamente global, en la que participaron 440 científicos de 32 laboratorios de todo el mundo. Una vez finalizada la fase piloto, el proyecto "se amplió" en 2007, beneficiándose enormemente de las máquinas de secuenciación de nueva generación. Y los datos eran, de hecho, grandes; Los investigadores generaron alrededor de 15 terabytes de datos sin procesar.
En 2010, el proyecto ENCODE había producido más de 1.000 conjuntos de datos de todo el genoma. En conjunto, estos conjuntos de datos muestran qué regiones se transcriben en ARN, qué regiones es probable que controlen los genes que se utilizan en un tipo particular de célula y qué regiones están asociadas con una amplia variedad de proteínas. Los ensayos principales utilizados en ENCODE son ChIP-seq , hipersensibilidad a la ADNasa I , RNA-seq y ensayos de metilación del ADN .
En septiembre de 2012, el proyecto publicó un conjunto de resultados mucho más extenso, en 30 artículos publicados simultáneamente en varias revistas, incluidos seis en Nature , seis en Genome Biology y un número especial con 18 publicaciones de Genome Research . [22]
Los autores describieron la producción y el análisis inicial de 1.640 conjuntos de datos diseñados para anotar elementos funcionales en todo el genoma humano, integrando resultados de diversos experimentos dentro de tipos de células, experimentos relacionados que involucran 147 tipos de células diferentes y todos los datos ENCODE con otros recursos, como como regiones candidatas de estudios de asociación de todo el genoma ( GWAS ) y regiones evolutivamente restringidas . En conjunto, estos esfuerzos revelaron características importantes sobre la organización y función del genoma humano, que se resumieron en un documento general como sigue: [23]
El hallazgo más sorprendente fue que la fracción de ADN humano que es biológicamente activa es considerablemente mayor que incluso las estimaciones anteriores más optimistas. En un artículo general, el consorcio ENCODE informó que sus miembros pudieron asignar funciones bioquímicas a más del 80% del genoma. [23] Se descubrió que gran parte de esto estaba involucrado en el control de los niveles de expresión del ADN codificante , que constituye menos del 1% del genoma.
Los elementos nuevos más importantes de la "enciclopedia" incluyen:
Capturar, almacenar, integrar y mostrar los diversos datos generados es un desafío. El Centro de Coordinación de Datos (DCC) de ENCODE organiza y muestra los datos generados por los laboratorios del consorcio y garantiza que los datos cumplan con estándares de calidad específicos cuando se hagan públicos. Antes de que un laboratorio envíe datos, el DCC y el laboratorio redactan un acuerdo de datos que define los parámetros experimentales y los metadatos asociados. El DCC valida los datos entrantes para garantizar la coherencia con el acuerdo. También garantiza que todos los datos estén anotados utilizando las ontologías adecuadas . [28] Luego carga los datos en un servidor de prueba para una inspección preliminar y se coordina con los laboratorios para organizar los datos en un conjunto consistente de pistas. Cuando las pistas están listas, el equipo de Garantía de Calidad de DCC realiza una serie de comprobaciones de integridad, verifica que los datos se presenten de manera coherente con otros datos del navegador y, quizás lo más importante, verifica que los metadatos y el texto descriptivo que los acompaña se presenten de forma coherente. manera que sea útil para nuestros usuarios. Los datos se publican en el sitio web público de UCSC Genome Browser solo después de que se hayan cumplido todas estas comprobaciones. Paralelamente, los datos son analizados por el Centro de análisis de datos ENCODE, un consorcio de equipos de análisis de varios laboratorios de producción y otros investigadores. Estos equipos desarrollan protocolos estandarizados para analizar datos de ensayos novedosos, determinar las mejores prácticas y producir un conjunto consistente de métodos analíticos, como generadores de picos estandarizados y generación de señales a partir de acumulaciones de alineamiento . [29]
El Instituto Nacional de Investigación del Genoma Humano (NHGRI) ha identificado a ENCODE como un "proyecto de recursos comunitarios". Este importante concepto fue definido en una reunión internacional celebrada en Ft. Lauderdale en enero de 2003 como un proyecto de investigación específicamente diseñado e implementado para crear un conjunto de datos, reactivos u otro material cuya utilidad principal será la de recurso para la amplia comunidad científica. En consecuencia, la política de divulgación de datos de ENCODE estipula que los datos, una vez verificados, se depositarán en bases de datos públicas y estarán disponibles para que todos los utilicen sin restricciones. [29]
Con la continuación de la tercera fase, el Consorcio ENCODE se ha involucrado en proyectos adicionales cuyos objetivos son paralelos al proyecto ENCODE. Algunos de estos proyectos formaron parte de la segunda fase de ENCODE.
El proyecto ENCyclopedia Of DNA Elements (modENCODE) del organismo MODel es una continuación del proyecto ENCODE original cuyo objetivo es la identificación de elementos funcionales en genomas de organismos modelo seleccionados , específicamente Drosophila melanogaster y Caenorhabditis elegans . [30] La extensión a organismos modelo permite la validación biológica de los hallazgos computacionales y experimentales del proyecto ENCODE, algo que es difícil o imposible de hacer en humanos. [30] La financiación para el proyecto modENCODE fue anunciada por los Institutos Nacionales de Salud (NIH) en 2007 e incluyó varias instituciones de investigación diferentes en los EE. UU. [31] [32] El proyecto completó su trabajo en 2012.
A finales de 2010, el consorcio modENCODE dio a conocer su primer conjunto de resultados con publicaciones sobre anotación y análisis integrativo de los genomas de gusanos y moscas en Science . [33] [34] Los datos de estas publicaciones están disponibles en el sitio web modENCODE. [35]
modENCODE se ejecutó como una red de investigación y el consorcio estaba formado por 11 proyectos principales, divididos entre gusanos y moscas. Los proyectos abarcaron lo siguiente:
modERN, abreviatura de la enciclopedia de organismos modelo de redes regulatorias, derivada del proyecto modENCODE. El proyecto fusionó los grupos C. elegans y Drosophila y se centra en la identificación de sitios de unión de factores de transcripción adicionales de los respectivos organismos. El proyecto comenzó al mismo tiempo que la Fase III de ENCODE y planea finalizar en 2017. [37] Hasta la fecha, el proyecto ha publicado 198 experimentos, [38] con alrededor de otros 500 experimentos presentados y actualmente siendo procesados por el DCC.
A principios de 2015, los NIH lanzaron el programa Genómica de la regulación genética (GGR). [39] El objetivo del programa, que tendrá una duración de tres años, es estudiar las redes y vías de genes en diferentes sistemas del cuerpo, con la esperanza de comprender mejor los mecanismos que controlan las expresiones genéticas. Aunque el proyecto ENCODE está separado de GGR, ENCODE DCC ha estado alojando datos de GGR en el portal ENCODE. [40]
En 2008, los NIH iniciaron el Roadmap Epigenomics Mapping Consortium, cuyo objetivo era producir "un recurso público de datos epigenómicos humanos para catalizar la biología básica y la investigación orientada a las enfermedades". [41] En febrero de 2015, el consorcio publicó un artículo titulado "Análisis integrativo de 111 epigenomas humanos de referencia" que cumplió el objetivo del consorcio. El consorcio integró información y anotó elementos regulatorios en 127 epigenomas de referencia, 16 de los cuales formaban parte del proyecto ENCODE. [42] Los datos para el proyecto Roadmap se pueden encontrar en el portal Roadmap o en el portal ENCODE.
fruitENCODE: una enciclopedia de elementos de ADN para la maduración de frutas es un proyecto ENCODE de plantas que tiene como objetivo generar conjuntos de datos de metilación del ADN, modificaciones de histonas, DHS, expresión genética y unión de factores de transcripción para todas las especies de frutas carnosas en diferentes etapas de desarrollo. Los datos preliminares se pueden encontrar en el portal fruitENCODE.
Aunque el consorcio afirma que están lejos de haber terminado con el proyecto ENCODE, muchas reacciones a los artículos publicados y la cobertura noticiosa que acompañó el lanzamiento fueron favorables. Los editores de Nature y los autores de ENCODE "... colaboraron durante muchos meses para generar el mayor revuelo posible y captar la atención no sólo de la comunidad investigadora sino también del público en general". [44] La afirmación del proyecto ENCODE de que el 80% del genoma humano tiene una función bioquímica [23] fue rápidamente recogida por la prensa popular que describió los resultados del proyecto como conducentes a la muerte del ADN basura . [45] [46]
Sin embargo, la conclusión de que la mayor parte del genoma es "funcional" ha sido criticada porque el proyecto ENCODE utilizó una definición liberal de "funcional", es decir, cualquier cosa que se transcriba debe ser funcional. Se llegó a esta conclusión a pesar de la opinión ampliamente aceptada, basada en estimaciones de conservación genómica de la genómica comparada , de que muchos elementos del ADN, como los pseudogenes que se transcriben, no son funcionales. Además, el proyecto ENCODE ha hecho hincapié en la sensibilidad sobre la especificidad , lo que posiblemente conduzca a la detección de muchos falsos positivos . [47] [48] [49] La elección algo arbitraria de líneas celulares y factores de transcripción, así como la falta de experimentos de control apropiados, fueron críticas importantes adicionales a ENCODE, ya que el ADN aleatorio imita el comportamiento "funcional" similar a ENCODE. [50]
En respuesta a algunas de las críticas, otros científicos argumentaron que la transcripción y el empalme generalizados que se observan en el genoma humano directamente mediante pruebas bioquímicas son un indicador más preciso de la función genética que las estimaciones de conservación genómica porque todas las estimaciones de conservación son relativas y difíciles de determinar. alinearse debido a variaciones increíbles en los tamaños del genoma incluso de especies estrechamente relacionadas, es parcialmente tautológico y estas estimaciones no se basan en pruebas directas de la funcionalidad del genoma. [51] [52] Las estimaciones de conservación pueden usarse para proporcionar pistas para identificar posibles elementos funcionales en el genoma, pero no limitan la cantidad total de elementos funcionales que posiblemente podrían existir en el genoma. [52] Además, gran parte del genoma que está siendo cuestionado por los críticos parece estar involucrado en la regulación epigenética , como la expresión genética, y parece ser necesario para el desarrollo de organismos complejos. [51] [53] Los resultados de ENCODE no fueron necesariamente inesperados, ya que décadas de investigación anteriores presagiaron aumentos en las atribuciones de funcionalidad. [51] [53] Además, otros han señalado que el proyecto ENCODE desde el principio tuvo un alcance que se basaba en la búsqueda de elementos funcionales biomédicamente relevantes en el genoma, no elementos funcionales evolutivos, que no son necesariamente lo mismo ya que la selección evolutiva es ni suficiente ni necesario para establecer una función. Es un proxy muy útil para funciones relevantes, pero imperfecto y no el único. [54]
Recientemente, los investigadores de ENCODE reiteraron que su principal objetivo es identificar elementos funcionales en el genoma humano. [55] En un documento de seguimiento de 2020, ENCODE declaró que la anotación funcional de elementos identificados está "aún en su infancia". [56]
En respuesta a las quejas sobre la definición de la palabra "función", algunos han señalado que ENCODE sí definió lo que significaba y dado que el alcance de ENCODE buscaba elementos funcionales biomédicamente relevantes en el genoma, entonces la conclusión del proyecto debería interpretarse " como decir que el 80% del genoma participa en actividades bioquímicas relevantes que muy probablemente tengan roles causales en fenómenos considerados relevantes para la investigación biomédica". [54] Ewan Birney , uno de los investigadores de ENCODE, comentó que "función" se usaba pragmáticamente para significar "actividad bioquímica específica" que incluía diferentes clases de ensayos: ARN, modificaciones "amplias" de histonas, modificaciones "estrechas" de histonas, hipersensibilidad a ADNasaI. sitios, picos de ChIP-seq del factor de transcripción, huellas de DNaseI, motivos unidos al factor de transcripción y exones. [57]
En 2014, los investigadores de ENCODE observaron que en la literatura, las partes funcionales del genoma se han identificado de manera diferente en estudios anteriores dependiendo de los enfoques utilizados. Se han utilizado tres enfoques generales para identificar partes funcionales del genoma humano: enfoques genéticos (que se basan en cambios en el fenotipo), enfoques evolutivos (que se basan en la conservación) y enfoques bioquímicos (que se basan en pruebas bioquímicas y fueron utilizados por ENCODE). . Los tres tienen limitaciones: los enfoques genéticos pueden pasar por alto elementos funcionales que no se manifiestan físicamente en el organismo, los enfoques evolutivos tienen dificultades para utilizar alineamientos precisos de secuencias multiespecíficas, ya que los genomas incluso de especies estrechamente relacionadas varían considerablemente, y con los enfoques bioquímicos, aunque tienen una alta reproducibilidad, el Las firmas bioquímicas no siempre significan automáticamente una función. Concluyeron que, en contraste con la evidencia evolutiva y genética, los datos bioquímicos ofrecen pistas tanto sobre la función molecular que desempeñan los elementos subyacentes del ADN como sobre los tipos de células en las que actúan y, en última instancia, los tres enfoques pueden usarse de manera complementaria para identificar regiones que pueden ser funcional en la biología y las enfermedades humanas. Además, señalaron que los mapas bioquímicos proporcionados por ENCODE eran lo más valioso del proyecto, ya que proporcionan un punto de partida para probar cómo estas firmas se relacionan con la función molecular, celular y del organismo. [52]
El proyecto también ha sido criticado por su alto costo (~400 millones de dólares en total) y por favorecer a la gran ciencia que resta dinero a investigaciones altamente productivas iniciadas por investigadores. [58] El proyecto piloto ENCODE costó aproximadamente 55 millones de dólares; la ampliación fue de unos 130 millones de dólares y el Instituto Nacional de Investigación del Genoma Humano ( NHGRI) de EE. UU. podría conceder hasta 123 millones de dólares para la siguiente fase. Algunos investigadores sostienen que aún no se ha visto un retorno sólido de esa inversión. Ha habido intentos de buscar en la literatura los artículos en los que ENCODE desempeña un papel importante y desde 2012 ha habido 300 artículos, 110 de los cuales provienen de laboratorios sin financiación de ENCODE. Un problema adicional es que ENCODE no es un nombre único dedicado exclusivamente al proyecto ENCODE, por lo que la palabra "codificar" aparece en mucha literatura sobre genética y genómica. [59]
Otra crítica importante es que los resultados no justifican la cantidad de tiempo dedicado al proyecto y que el proyecto en sí es esencialmente inacabable. Aunque a menudo se lo compara con el Proyecto Genoma Humano (PGH) e incluso se lo denomina el siguiente paso del PGH, el PGH tenía un objetivo claro del que ENCODE carece actualmente.
Los autores parecen simpatizar con las preocupaciones científicas y al mismo tiempo intentan justificar sus esfuerzos concediendo entrevistas y explicando detalles de ENCODE no sólo al público científico, sino también a los medios de comunicación. También afirman que pasó más de medio siglo desde que se comprendió que el ADN es el material hereditario de la vida hasta la secuencia del genoma humano, por lo que su plan para el próximo siglo sería comprender realmente la secuencia misma. [59]
El análisis de los datos de unión de factores de transcripción generados por el proyecto ENCODE está actualmente disponible en el repositorio FactorBook, accesible desde la web. [60] Básicamente, Factorbook.org es una base de datos basada en Wiki para datos de unión de factores de transcripción generados por el consorcio ENCODE. En la primera versión, Factorbook contiene:
El proyecto ENCODE tiene como objetivo delimitar de forma precisa y completa los segmentos de los genomas humanos y de ratón que codifican elementos funcionales.
Es importante destacar que, aunque se han definido una gran cantidad de elementos no codificantes, la anotación funcional de los elementos identificados por ENCODE aún está en su infancia.