stringtranslate.com

CODIFICAR

La Enciclopedia de Elementos del ADN ( ENCODE ) es un proyecto de investigación público cuyo objetivo es "construir una lista completa de elementos funcionales en el genoma humano ". [2]

ENCODE también apoya la investigación biomédica adicional al "generar recursos comunitarios de datos genómicos, software, herramientas y métodos para el análisis de datos genómicos y productos resultantes de los análisis e interpretaciones de datos". [3] [2]

La fase actual de ENCODE (2016-2019) está añadiendo profundidad a sus recursos al aumentar el número de tipos de células, tipos de datos y ensayos, y ahora incluye soporte para el examen del genoma del ratón. [3]

Historia

ENCODE fue lanzado por el Instituto Nacional de Investigación del Genoma Humano (NHGRI) de Estados Unidos en septiembre de 2003. [4] [5] [6] [7] [8] Concebido como una continuación del Proyecto Genoma Humano , el proyecto ENCODE tiene como objetivo identificar todos los elementos funcionales del genoma humano . [9]

El proyecto involucra a un consorcio mundial de grupos de investigación, y los datos generados a partir de este proyecto pueden ser accedidos a través de bases de datos públicas. El lanzamiento inicial de ENCODE fue en 2013 y desde entonces ha ido cambiando de acuerdo con las recomendaciones de los miembros del consorcio y la comunidad más amplia de científicos que utilizan el Portal para acceder a los datos de ENCODE. El objetivo de ENCODE, que consta de dos partes, es servir como una base de datos de acceso público para "protocolos experimentales, procedimientos analíticos y los datos mismos", y "la misma interfaz debe servir para metadatos cuidadosamente seleccionados que registren la procedencia de los datos y justifiquen su interpretación en términos biológicos". [10] El proyecto comenzó su cuarta fase (ENCODE 4) en febrero de 2017. [11]

Motivación y significado

Se estima que los seres humanos tienen aproximadamente 20.000 genes codificadores de proteínas , que representan alrededor del 1,5% del ADN del genoma humano. El objetivo principal del proyecto ENCODE es determinar el papel del componente restante del genoma, gran parte del cual se consideraba tradicionalmente como "basura". La actividad y la expresión de los genes codificadores de proteínas pueden ser moduladas por el reguloma , una variedad de elementos del ADN , como promotores , secuencias reguladoras de la transcripción y regiones de estructura de la cromatina y modificación de histonas . Se cree que los cambios en la regulación de la actividad genética pueden alterar la producción de proteínas y los procesos celulares y provocar enfermedades. Determinar la ubicación de estos elementos reguladores y cómo influyen en la transcripción genética podría revelar vínculos entre las variaciones en la expresión de ciertos genes y el desarrollo de enfermedades. [12]

ENCODE también pretende ser un recurso integral que permita a la comunidad científica comprender mejor cómo el genoma puede afectar la salud humana y "estimular el desarrollo de nuevas terapias para prevenir y tratar estas enfermedades". [5]

a. Gráfico de tendencias de publicaciones de la comunidad y del consorcio ENCODE desde 2007 hasta 2019. b. Tipos de publicaciones que utilizan datos ENCODE según el campo de investigación. [13]

El Consorcio ENCODE

El Consorcio ENCODE está compuesto principalmente por científicos que recibieron financiación del Instituto Nacional de Investigación del Genoma Humano (NHGRI) de Estados Unidos. Otros participantes que contribuyen al proyecto se incorporan al Consorcio o al Grupo de Trabajo de Análisis.

La fase piloto consistió en ocho grupos de investigación y doce grupos que participaron en la fase de desarrollo de la tecnología ENCODE. Después de 2007, el número de participantes se amplió a 440 científicos con sede en 32 laboratorios de todo el mundo, cuando la fase piloto concluyó oficialmente. En la actualidad, el consorcio está formado por diferentes centros que realizan diferentes tareas.

ENCODE es miembro del Consorcio Internacional del Epigenoma Humano (IHEC). [14]

El principal requisito del NHGRI para los productos de la investigación financiada por ENCODE es que se compartan de forma gratuita y de fácil acceso para todos los investigadores con el fin de promover la investigación genómica. La investigación de ENCODE permite la reproducibilidad y, por lo tanto, la transparencia del software, los métodos, los datos y otras herramientas relacionadas con el análisis genómico. [3]

El proyecto ENCODE

Actualmente, ENCODE se implementa en cuatro fases: la fase piloto y la fase de desarrollo tecnológico, que se iniciaron simultáneamente; [15] y la fase de producción. La cuarta fase es una continuación de la tercera e incluye la caracterización funcional y un análisis integrador adicional para la enciclopedia.

El objetivo de la fase piloto era identificar un conjunto de procedimientos que, en combinación, pudieran aplicarse de manera rentable y con un alto rendimiento para caracterizar de manera precisa y completa grandes regiones del genoma humano . La fase piloto tenía que revelar lagunas en el conjunto actual de herramientas para detectar secuencias funcionales, y también se pensaba que revelaría si algunos métodos utilizados en ese momento eran ineficientes o inadecuados para su uso a gran escala. Algunos de estos problemas tuvieron que abordarse en la fase de desarrollo de la tecnología ENCODE, que tenía como objetivo idear nuevos métodos computacionales y de laboratorio que mejoraran nuestra capacidad para identificar secuencias funcionales conocidas o descubrir nuevos elementos genómicos funcionales. Los resultados de las dos primeras fases determinaron el mejor camino a seguir para analizar el 99% restante del genoma humano en una fase de producción rentable y completa. [5]

El proyecto ENCODE Fase I: El proyecto piloto

La fase piloto probó y comparó los métodos existentes para analizar rigurosamente una porción definida de la secuencia del genoma humano. Se organizó como un consorcio abierto y reunió a investigadores con diversos antecedentes y experiencia para evaluar los méritos relativos de cada una de las diversas técnicas, tecnologías y estrategias. La fase de desarrollo de tecnología concurrente del proyecto tenía como objetivo desarrollar nuevos métodos de alto rendimiento para identificar elementos funcionales. El objetivo de estos esfuerzos era identificar un conjunto de enfoques que permitieran la identificación integral de todos los elementos funcionales del genoma humano. A través del proyecto piloto ENCODE, el Instituto Nacional de Investigación del Genoma Humano (NHGRI) evaluó las capacidades de diferentes enfoques para ampliarlos con el fin de analizar todo el genoma humano y encontrar lagunas en la capacidad de identificar elementos funcionales en la secuencia genómica.

El proceso del proyecto piloto ENCODE implicó una estrecha interacción entre científicos computacionales y experimentales para evaluar una serie de métodos de anotación del genoma humano. Se seleccionó como objetivo del proyecto piloto un conjunto de regiones que representan aproximadamente el 1 % (30 Mb) del genoma humano y fue analizado por todos los investigadores del proyecto piloto ENCODE. Todos los datos generados por los participantes de ENCODE sobre estas regiones se publicaron rápidamente en bases de datos públicas. [7] [16]

Selección de objetivos

Para su uso en el proyecto piloto ENCODE se seleccionaron regiones definidas del genoma humano, correspondientes a 30 Mb, aproximadamente el 1% del genoma humano total. Estas regiones sirvieron como base para probar y evaluar la eficacia y eficiencia de un conjunto diverso de métodos y tecnologías para encontrar diversos elementos funcionales en el ADN humano.

Antes de comenzar con la selección de los objetivos, se decidió que el 50% de los 30 Mb de secuencia se seleccionarían manualmente, mientras que el resto de la secuencia se seleccionaría de forma aleatoria. Los dos criterios principales para las regiones seleccionadas manualmente fueron: 1) la presencia de genes bien estudiados u otros elementos de secuencia conocidos, y 2) la existencia de una cantidad sustancial de datos comparativos de secuencias. Se seleccionó manualmente un total de 14,82 Mb de secuencia utilizando este enfoque, que consta de 14 objetivos cuyo tamaño varía de 500 kb a 2 Mb.

El 50% restante de los 30 Mb de secuencia se compuso de treinta regiones de 500 kb seleccionadas según una estrategia de muestreo aleatorio estratificado basada en la densidad genética y el nivel de conservación no exónica. La decisión de utilizar estos criterios particulares se tomó para asegurar un buen muestreo de regiones genómicas que varían ampliamente en su contenido de genes y otros elementos funcionales. El genoma humano se dividió en tres partes (el 20% superior, el 30% medio y el 50% inferior) a lo largo de cada uno de dos ejes: 1) densidad genética y 2) nivel de conservación no exónica con respecto a la secuencia genómica ortóloga del ratón (ver más abajo), para un total de nueve estratos. De cada estrato, se eligieron tres regiones aleatorias para el proyecto piloto. Para aquellos estratos subrepresentados por las selecciones manuales, se eligió una cuarta región, lo que dio como resultado un total de 30 regiones. Para todos los estratos, se designó una región "de respaldo" para su uso en caso de problemas técnicos imprevistos.

En mayor detalle, los criterios de estratificación fueron los siguientes:

Los puntajes anteriores se calcularon dentro de ventanas de 500 kb no superpuestas de secuencia terminada en todo el genoma y se usaron para asignar cada ventana a un estrato. [17]

Resultados de la fase piloto

La fase piloto finalizó con éxito y los resultados se publicaron en junio de 2007 en Nature [7] y en un número especial de Genome Research ; [18] los resultados publicados en el primer artículo mencionado hicieron avanzar el conocimiento colectivo sobre la función del genoma humano en varias áreas importantes, incluidas las siguientes: [7]

El proyecto ENCODE Fase II: El proyecto de la fase de producción

Imagen de los datos de ENCODE en el explorador de genomas de la UCSC . En ella se muestran varias pistas que contienen información sobre la regulación genética . El gen de la izquierda ( ATP2B4 ) se transcribe en una amplia variedad de células (consulte también los datos de H3K4me1 ). El gen de la derecha solo se transcribe en unos pocos tipos de células, incluidas las células madre embrionarias.

En septiembre de 2007, el Instituto Nacional de Investigación del Genoma Humano (NHGRI) comenzó a financiar la fase de producción del proyecto ENCODE. En esta fase, el objetivo era analizar el genoma completo y realizar "estudios piloto adicionales". [19]

Al igual que en el proyecto piloto, el esfuerzo de producción se organiza como un consorcio abierto. En octubre de 2007, el NHGRI otorgó subvenciones por un total de más de 80 millones de dólares a lo largo de cuatro años. [20] La fase de producción también incluye un Centro de Coordinación de Datos, un Centro de Análisis de Datos y un Esfuerzo de Desarrollo de Tecnología. [21] En ese momento, el proyecto se convirtió en una empresa verdaderamente global, en la que participaron 440 científicos de 32 laboratorios de todo el mundo. Una vez completada la fase piloto, el proyecto "se amplió" en 2007, beneficiándose enormemente de las máquinas de secuenciación de nueva generación. Y los datos eran, en efecto, grandes: los investigadores generaron alrededor de 15 terabytes de datos sin procesar.

En 2010, el proyecto ENCODE había producido más de 1000 conjuntos de datos de todo el genoma. En conjunto, estos conjuntos de datos muestran qué regiones se transcriben en ARN, qué regiones es probable que controlen los genes que se utilizan en un tipo particular de célula y qué regiones están asociadas con una amplia variedad de proteínas. Los principales ensayos utilizados en ENCODE son ChIP-seq , hipersensibilidad a la DNasa I , RNA-seq y ensayos de metilación del ADN .

Resultados de la fase de producción

En septiembre de 2012, el proyecto publicó un conjunto mucho más amplio de resultados, en 30 artículos publicados simultáneamente en varias revistas, incluidas seis en Nature , seis en Genome Biology y un número especial con 18 publicaciones de Genome Research . [22]

Los autores describieron la producción y el análisis inicial de 1.640 conjuntos de datos diseñados para anotar elementos funcionales en todo el genoma humano, integrando resultados de diversos experimentos dentro de tipos celulares, experimentos relacionados que involucraron 147 tipos celulares diferentes y todos los datos de ENCODE con otros recursos, como regiones candidatas de estudios de asociación de todo el genoma ( GWAS ) y regiones evolutivamente restringidas . En conjunto, estos esfuerzos revelaron características importantes sobre la organización y función del genoma humano, que se resumieron en un artículo general de la siguiente manera: [23]

  1. La gran mayoría (80,4 %) del genoma humano participa en al menos un evento bioquímico asociado al ARN y/o la cromatina en al menos un tipo de célula. Gran parte del genoma se encuentra cerca de un evento regulador: el 95 % del genoma se encuentra a 8 kb de una interacción ADN - proteína (tal como se analiza mediante motivos ChIP-seq unidos o huellas de DNaseI ) y el 99 % se encuentra a 1,7 kb de al menos uno de los eventos bioquímicos medidos por ENCODE.
  2. Los elementos específicos de los primates, así como los elementos sin restricciones mamíferas detectables, muestran, en conjunto, evidencia de selección negativa; por lo tanto, se espera que algunos de ellos sean funcionales.
  3. La clasificación del genoma en siete estados de cromatina sugiere un conjunto inicial de 399.124 regiones con características de tipo potenciador y 70.292 regiones con características de tipo promotor , así como cientos de miles de regiones inactivas. Los análisis de alta resolución subdividen aún más el genoma en miles de estados estrechos con propiedades funcionales distintas.
  4. Es posible correlacionar cuantitativamente la producción y el procesamiento de secuencias de ARN con las marcas de cromatina y la unión del factor de transcripción (TF) en los promotores , lo que indica que la funcionalidad del promotor puede explicar la mayoría de la variación en la expresión del ARN.
  5. Muchas variantes no codificantes en secuencias de genomas individuales se encuentran en regiones funcionales anotadas por ENCODE; este número es al menos tan grande como el de las que se encuentran en los genes codificadores de proteínas.
  6. Los SNP asociados con la enfermedad por GWAS están enriquecidos con elementos funcionales no codificantes, y la mayoría reside en regiones definidas por ENCODE o cerca de ellas que están fuera de los genes codificantes de proteínas . En muchos casos, los fenotipos de la enfermedad pueden estar asociados con un tipo de célula o TF específico .

El hallazgo más sorprendente fue que la fracción de ADN humano que es biológicamente activa es considerablemente mayor que incluso las estimaciones previas más optimistas. En un artículo de revisión, el Consorcio ENCODE informó que sus miembros pudieron asignar funciones bioquímicas a más del 80% del genoma. [23] Se descubrió que gran parte de esto estaba involucrado en el control de los niveles de expresión del ADN codificante , que representa menos del 1% del genoma.

Los elementos nuevos más importantes de la "enciclopedia" incluyen:

Gestión y análisis de datos

Capturar, almacenar, integrar y mostrar los diversos datos generados es un desafío. El Centro de Coordinación de Datos (DCC) de ENCODE organiza y muestra los datos generados por los laboratorios del consorcio y garantiza que los datos cumplan con estándares de calidad específicos cuando se publiquen. Antes de que un laboratorio envíe cualquier dato, el DCC y el laboratorio redactan un acuerdo de datos que define los parámetros experimentales y los metadatos asociados. El DCC valida los datos entrantes para garantizar la coherencia con el acuerdo. También garantiza que todos los datos estén anotados utilizando ontologías apropiadas . [28] Luego carga los datos en un servidor de prueba para una inspección preliminar y se coordina con los laboratorios para organizar los datos en un conjunto coherente de pistas. Cuando las pistas están listas, el equipo de Control de Calidad del DCC realiza una serie de controles de integridad, verifica que los datos se presenten de manera coherente con otros datos del navegador y, quizás lo más importante, verifica que los metadatos y el texto descriptivo que los acompaña se presenten de una manera que sea útil para nuestros usuarios. Los datos se publican en el sitio web público UCSC Genome Browser solo después de que se hayan cumplido todas estas comprobaciones. Al mismo tiempo, los datos son analizados por el Centro de Análisis de Datos ENCODE, un consorcio de equipos de análisis de los diversos laboratorios de producción y otros investigadores. Estos equipos desarrollan protocolos estandarizados para analizar datos de ensayos novedosos, determinar las mejores prácticas y producir un conjunto consistente de métodos analíticos, como los llamadores de picos estandarizados y la generación de señales a partir de acumulaciones de alineamiento . [29]

El Instituto Nacional de Investigación del Genoma Humano (NHGRI) ha identificado a ENCODE como un "proyecto de recursos comunitarios". Este importante concepto se definió en una reunión internacional celebrada en Ft. Lauderdale en enero de 2003 como un proyecto de investigación específicamente concebido e implementado para crear un conjunto de datos, reactivos u otro material cuya utilidad principal será la de servir de recurso a la amplia comunidad científica. En consecuencia, la política de divulgación de datos de ENCODE estipula que los datos, una vez verificados, se depositarán en bases de datos públicas y se pondrán a disposición de todos para su uso sin restricciones. [29]

Otros proyectos

Con la continuación de la tercera fase, el Consorcio ENCODE se ha involucrado en proyectos adicionales cuyos objetivos corren paralelos a los del proyecto ENCODE. Algunos de estos proyectos formaban parte de la segunda fase de ENCODE.

Proyecto modENCODE

El proyecto MODel organism ENCyclopedia Of DNA Elements (modENCODE) es una continuación del proyecto original ENCODE, cuyo objetivo era la identificación de elementos funcionales en genomas de organismos modelo seleccionados , específicamente Drosophila melanogaster y Caenorhabditis elegans . [30] La extensión a organismos modelo permite la validación biológica de los hallazgos computacionales y experimentales del proyecto ENCODE, algo que es difícil o imposible de hacer en humanos. [30] La financiación para el proyecto modENCODE fue anunciada por los Institutos Nacionales de Salud (NIH) en 2007 e incluyó varias instituciones de investigación diferentes en los EE. UU. [31] [32] El proyecto completó su trabajo en 2012.

A finales de 2010, el consorcio modENCODE dio a conocer su primer conjunto de resultados con publicaciones sobre anotación y análisis integrador de los genomas de gusanos y moscas en Science . [33] [34] Los datos de estas publicaciones están disponibles en el sitio web de modENCODE. [35]

ModENCODE se desarrolló como una red de investigación y el consorcio estaba formado por 11 proyectos principales, divididos entre gusanos y moscas. Los proyectos abarcaron lo siguiente:

moderno

modERN, abreviatura de la enciclopedia de organismos modelo de redes reguladoras, surgió del proyecto modENCODE. El proyecto ha fusionado los grupos C. elegans y Drosophila y se centra en la identificación de sitios de unión de factores de transcripción adicionales de los respectivos organismos. El proyecto comenzó al mismo tiempo que la Fase III de ENCODE y tiene previsto finalizar en 2017. [37] Hasta la fecha, el proyecto ha publicado 198 experimentos, [38] con alrededor de 500 experimentos más presentados y actualmente en proceso por el DCC.

Genómica de la regulación genética

A principios de 2015, el NIH lanzó el programa de Genómica de la Regulación Genética (GGR, por sus siglas en inglés). [39] El objetivo del programa, que durará tres años, es estudiar las redes y vías genéticas en diferentes sistemas del cuerpo, con la esperanza de comprender mejor los mecanismos que controlan las expresiones genéticas. Aunque el proyecto ENCODE es independiente de GGR, el ENCODE DCC ha estado alojando datos de GGR en el portal ENCODE. [40]

Hoja de ruta

En 2008, el NIH inició el Roadmap Epigenomics Mapping Consortium, cuyo objetivo era producir "un recurso público de datos epigenómicos humanos para catalizar la biología básica y la investigación orientada a las enfermedades". [41] En febrero de 2015, el consorcio publicó un artículo titulado "Análisis integrador de 111 epigenomas humanos de referencia" que cumplió con el objetivo del consorcio. El consorcio integró información y elementos regulatorios anotados en 127 epigenomas de referencia, 16 de los cuales formaban parte del proyecto ENCODE. [42] Los datos para el proyecto Roadmap se pueden encontrar en el portal Roadmap o en el portal ENCODE.

Cronología que destaca el inicio de la Hoja de Ruta del Epigenoma y el Consorcio Internacional de Codificación Humana (IHEC). [43]

Proyecto fruitENCODE

El proyecto fruitENCODE: una enciclopedia de elementos de ADN para la maduración de frutas es un proyecto ENCODE de plantas que tiene como objetivo generar conjuntos de datos sobre metilación de ADN, modificaciones de histonas, DHS, expresión génica y unión de factores de transcripción para todas las especies de frutas carnosas en diferentes etapas de desarrollo. Los datos preliminares se pueden encontrar en el portal fruitENCODE.

Crítica del proyecto

Aunque el consorcio afirma que está lejos de haber terminado con el proyecto ENCODE, muchas reacciones a los artículos publicados y la cobertura periodística que acompañó el lanzamiento fueron favorables. Los editores de Nature y los autores de ENCODE "... colaboraron durante muchos meses para causar el mayor revuelo posible y captar la atención no sólo de la comunidad científica sino también del público en general". [44] La afirmación del proyecto ENCODE de que el 80% del genoma humano tiene una función bioquímica [23] fue rápidamente recogida por la prensa popular, que describió los resultados del proyecto como una señal de que conducirían a la muerte del ADN basura . [45] [46]

Sin embargo, la conclusión de que la mayor parte del genoma es "funcional" ha sido criticada con el argumento de que el proyecto ENCODE utilizó una definición liberal de "funcional", es decir, todo lo que se transcribe debe ser funcional. Se llegó a esta conclusión a pesar de la opinión ampliamente aceptada, basada en estimaciones de conservación genómica de la genómica comparativa , de que muchos elementos del ADN, como los pseudogenes que se transcriben, son sin embargo no funcionales. Además, el proyecto ENCODE ha enfatizado la sensibilidad sobre la especificidad, lo que posiblemente conduzca a la detección de muchos falsos positivos . [47] [48] [49] La elección algo arbitraria de líneas celulares y factores de transcripción, así como la falta de experimentos de control apropiados, fueron otras críticas importantes a ENCODE, ya que el ADN aleatorio imita el comportamiento "funcional" de ENCODE. [50]

En respuesta a algunas de las críticas, otros científicos argumentaron que la transcripción y el empalme generalizados que se observan en el genoma humano directamente mediante pruebas bioquímicas son un indicador más preciso de la función genética que las estimaciones de conservación genómica porque las estimaciones de conservación son todas relativas y difíciles de alinear debido a las increíbles variaciones en los tamaños del genoma incluso de especies estrechamente relacionadas, es parcialmente tautológico y estas estimaciones no se basan en pruebas directas de funcionalidad en el genoma. [51] [52] Las estimaciones de conservación se pueden utilizar para proporcionar pistas para identificar posibles elementos funcionales en el genoma, pero no limitan ni limitan la cantidad total de elementos funcionales que posiblemente podrían existir en el genoma. [52] Además, gran parte del genoma que está siendo disputado por los críticos parece estar involucrado en la regulación epigenética, como la expresión genética, y parece ser necesario para el desarrollo de organismos complejos. [51] [53] Los resultados de ENCODE no fueron necesariamente inesperados ya que los aumentos en las atribuciones de funcionalidad fueron presagiados por décadas anteriores de investigación. [51] [53] Además, otros han señalado que el proyecto ENCODE desde el principio tuvo un alcance que se basaba en la búsqueda de elementos funcionales biomédicamente relevantes en el genoma, no elementos funcionales evolutivos, que no son necesariamente lo mismo, ya que la selección evolutiva no es suficiente ni necesaria para establecer una función. Es un indicador muy útil de funciones relevantes, pero imperfecto y no el único. [54]

Recientemente, los investigadores de ENCODE reiteraron que su objetivo principal es identificar elementos funcionales en el genoma humano. [55] En un artículo de seguimiento de 2020, ENCODE afirmó que la anotación funcional de los elementos identificados "todavía está en sus inicios". [56]

En respuesta a las quejas sobre la definición de la palabra "función", algunos han señalado que ENCODE sí definió lo que significaba y, dado que el alcance de ENCODE era buscar elementos funcionales biomédicamente relevantes en el genoma, entonces la conclusión del proyecto debería interpretarse "como decir que el 80 % del genoma está involucrado en actividades bioquímicas relevantes que es muy probable que tengan papeles causales en fenómenos considerados relevantes para la investigación biomédica". [54] Ewan Birney , uno de los investigadores de ENCODE, comentó que "función" se usó pragmáticamente para significar "actividad bioquímica específica" que incluía diferentes clases de ensayos: ARN, modificaciones de histonas "amplias", modificaciones de histonas "estrechas", sitios hipersensibles a DNaseI, picos de ChIP-seq del factor de transcripción, huellas de DNaseI, motivos unidos al factor de transcripción y exones. [57]

En 2014, los investigadores de ENCODE observaron que en la literatura, las partes funcionales del genoma se han identificado de manera diferente en estudios anteriores según los enfoques utilizados. Se han utilizado tres enfoques generales para identificar partes funcionales del genoma humano: enfoques genéticos (que se basan en cambios en el fenotipo), enfoques evolutivos (que se basan en la conservación) y enfoques bioquímicos (que se basan en pruebas bioquímicas y fue utilizado por ENCODE). Los tres tienen limitaciones: los enfoques genéticos pueden pasar por alto elementos funcionales que no se manifiestan físicamente en el organismo, los enfoques evolutivos tienen dificultades para utilizar alineaciones precisas de secuencias multiespecies ya que los genomas de especies incluso estrechamente relacionadas varían considerablemente, y con los enfoques bioquímicos, aunque tienen una alta reproducibilidad, las firmas bioquímicas no siempre significan automáticamente una función. Concluyeron que, en contraste con la evidencia evolutiva y genética, los datos bioquímicos ofrecen pistas sobre la función molecular que cumplen los elementos subyacentes del ADN y los tipos de células en los que actúan y, en última instancia, los tres enfoques pueden usarse de manera complementaria para identificar regiones que pueden ser funcionales en la biología y la enfermedad humanas. Además, señalaron que los mapas bioquímicos proporcionados por ENCODE fueron lo más valioso del proyecto, ya que proporcionan un punto de partida para probar cómo estas firmas se relacionan con la función molecular, celular y organismal. [52]

El proyecto también ha sido criticado por su alto costo (~$400 millones en total) y por favorecer a la gran ciencia, lo que quita dinero a la investigación altamente productiva iniciada por los investigadores. [58] El proyecto piloto ENCODE costó aproximadamente $55 millones; la ampliación fue de alrededor de $130 millones y el Instituto Nacional de Investigación del Genoma Humano de los Estados Unidos (NHGRI) podría otorgar hasta $123 millones para la siguiente fase. Algunos investigadores sostienen que aún no se ha visto un retorno sólido de esa inversión. Ha habido intentos de rastrear la literatura en busca de los artículos en los que ENCODE juega un papel importante y desde 2012 ha habido 300 artículos, 110 de los cuales provienen de laboratorios sin financiación de ENCODE. Un problema adicional es que ENCODE no es un nombre único dedicado exclusivamente al proyecto ENCODE, por lo que la palabra "codificar" aparece en mucha literatura sobre genética y genómica. [59]

Otra crítica importante es que los resultados no justifican la cantidad de tiempo invertido en el proyecto y que el proyecto en sí es esencialmente inacabable. Aunque a menudo se lo compara con el Proyecto Genoma Humano (PGH) e incluso se lo considera el siguiente paso del PGH, el PGH tenía un objetivo final claro del que carece actualmente ENCODE.

Los autores parecen simpatizar con las preocupaciones científicas y al mismo tiempo intentan justificar sus esfuerzos concediendo entrevistas y explicando detalles de ENCODE no sólo al público científico, sino también a los medios de comunicación. También afirman que transcurrió más de medio siglo desde que se comprendió que el ADN es el material hereditario de la vida hasta que se obtuvo la secuencia del genoma humano, de modo que su plan para el próximo siglo sería comprender realmente la secuencia en sí. [59]

Libro de factores

El análisis de los datos de unión de factores de transcripción generados por el proyecto ENCODE está actualmente disponible en el repositorio accesible en la web FactorBook. [60] Básicamente, Factorbook.org es una base de datos basada en Wiki para datos de unión de factores de transcripción generados por el consorcio ENCODE. En la primera versión, Factorbook contiene:

Véase también

Referencias

  1. ^ Hong EL, Sloan CA, Chan ET, Davidson JM, Malladi VS, Strattan JS, Hitz BC, Gabdank I, Narayanan AK, Ho M, Lee BT, Rowe LD, Dreszer TR, Roe GR, Podduturi NR, Tanaka F, Hilton JA, Cherry JM (enero de 2016). "Principios de organización de metadatos en el centro de coordinación de datos ENCODE. (Actualización de 2016)". Base de datos . 2016 : baw001. doi :10.1093/database/baw001. PMC 4792520 . PMID  26980513. 
  2. ^ ab "El proyecto ENCODE: descripción general del proyecto". www.endodeproject.org . Consultado el 23 de febrero de 2023 .
  3. ^ abc "Políticas de publicación de software, análisis y uso de datos – ENCODE". www.encodeproject.org . Consultado el 18 de diciembre de 2021 .
  4. ^ Raney BJ, Cline MS, Rosenbloom KR, Dreszer TR, Learned K, Barber GP, Meyer LR, Sloan CA, Malladi VS, Roskin KM, Suh BB, Hinrichs AS, Clawson H, Zweig AS, Kirkup V, Fujita PA, Rhead B, Smith KE, Pohl A, Kuhn RM, Karolchik D, Haussler D, Kent WJ (enero de 2011). "ENCODE datos de todo el genoma en el navegador de genomas UCSC (actualización de 2011)". Nucleic Acids Res. 39 (número de la base de datos): D871–5. doi :10.1093/nar/gkq1017. PMC 3013645. PMID  21037257 .  
  5. ^ abc El consorcio del proyecto ENCODE (2004). "El proyecto ENCODE (ENCyclopedia Of DNA Elements)". Science . 306 (5696): 636–640. Bibcode :2004Sci...306..636E. doi :10.1126/science.1105136. PMID  15499007. S2CID  22837649.
  6. ^ Consorcio del proyecto ENCODE (2011). Becker PB (ed.). "Guía del usuario de la enciclopedia de elementos del ADN (ENCODE)". PLOS Biology . 9 (4): e1001046. doi : 10.1371/journal.pbio.1001046 . PMC 3079585 . PMID  21526222.  Icono de acceso abierto
  7. ^ abcd Consorcio del Proyecto ENCODE, Birney E , Stamatoyannopoulos JA , Dutta A , Guigó R, Gingeras TR, Margulies EH, Weng Z, Snyder M, Dermitzakis ET, et al. (2007). "Identificación y análisis de elementos funcionales en el 1% del genoma humano mediante el proyecto piloto ENCODE". Nature . 447 (7146): 799–816. Bibcode :2007Natur.447..799B. doi :10.1038/nature05874. PMC 2212820 . PMID  17571346. 
  8. ^ Guigó R, Flicek P, Abril JF, Reymond A, Lagarde J, Denoeud F, Antonarakis S, Ashburner M, Bajic VB, Birney E, Castelo R, Eyras E, Ucla C, Gingeras TR, Harrow J, Hubbard T, Lewis SE, Reese MG (2006). "EGASP: Proyecto de evaluación de anotación del genoma humano ENCODE". Biología del genoma . 7 (Suplemento 1): S2.1–31. doi : 10.1186/gb-2006-7-s1-s2 . PMC 1810551 . PMID  16925836. 
  9. ^ "El proyecto ENCODE: descripción general del proyecto". www.endodeproject.org . Consultado el 23 de febrero de 2023 .
  10. ^ Davis, Carrie A.; Hitz, Benjamín C.; Sloan, Cricket A.; Chan, Esther T.; Davidson, Jean M.; Gabdank, Idan; Hilton, Jason A.; Jainista, Kriti; Baymuradov, Ulugbek K.; Narayanan, Aditi K.; Oñate, Kathrina C. (4 de enero de 2018). "La Enciclopedia de elementos del ADN (ENCODE): actualización del portal de datos". Investigación de ácidos nucleicos . 46 (D1): D794–D801. doi :10.1093/nar/gkx1081. ISSN  1362-4962. PMC 5753278 . PMID  29126249. 
  11. ^ "El Proyecto ENCODE: ENCyclopedia de elementos del ADN". www.genome.gov . Consultado el 13 de mayo de 2016 .
  12. ^ Saey, Tina Hesman (6 de octubre de 2012). «Team releases sequel to the human genome». Sociedad para la Ciencia y el Público. Archivado desde el original el 23 de octubre de 2012. Consultado el 18 de octubre de 2012 .
  13. ^ "Fig. 3: Publicaciones que utilizan datos ENCODE. | Nature". Directorio Natureevents . ISSN  1476-4687.
  14. ^ GmbH, Eurice. «Estados Unidos de América · IHEC». ihec-epigenomes.org . Consultado el 18 de julio de 2017 .
  15. ^ "Proyecto ENCODE". www.genome.gov . Archivado desde el original el 17 de mayo de 2016. Consultado el 16 de mayo de 2016 .
  16. ^ Personal del programa ENCODE (18 de octubre de 2012). "ENCODE: Proyecto piloto: descripción general". Instituto Nacional de Investigación del Genoma Humano.
  17. ^ Personal del programa ENCODE (19 de febrero de 2012). "ENCODE: Proyecto piloto: selección de objetivos". Instituto Nacional de Investigación del Genoma Humano.
  18. ^ Weinstock GM (2007). "ENCODE: Más empoderamiento genómico". Genome Research . 17 (6): 667–668. doi : 10.1101/gr.6534207 . PMID  17567987.
  19. ^ "Genome.gov | Proyectos ENCODE y modENCODE". El Proyecto ENCODE: ENCyclopedia de elementos del ADN . Instituto Nacional de Investigación del Genoma Humano de los Estados Unidos. 2011-08-01 . Consultado el 2011-08-05 .
  20. ^ "Instituto Nacional de Investigación del Genoma Humano - Organización". The NIH Almanac . Institutos Nacionales de Salud de Estados Unidos . Consultado el 5 de agosto de 2011 .
  21. ^ "Genome.gov | Participantes y proyectos de ENCODE". Proyecto ENCODE: ENCyclopedia de elementos del ADN . Instituto Nacional de Investigación del Genoma Humano de los Estados Unidos. 2011-08-01 . Consultado el 2011-08-05 .
  22. ^ Ecker JR, Bickmore WA, Barroso I, Pritchard JK, Gilad Y, Segal E (septiembre de 2012). "Genómica: explicación de ENCODE". Nature . 489 (7414): 52–5. Bibcode :2012Natur.489...52E. doi : 10.1038/489052a . PMID  22955614. S2CID  5366257.
  23. ^ abc Bernstein BE, Birney E, Dunham I, Green ED, Gunter C, Snyder M (septiembre de 2012). "Una enciclopedia integrada de elementos de ADN en el genoma humano". Nature . 489 (7414): 57–74. Bibcode :2012Natur.489...57T. doi :10.1038/nature11247. PMC 3439153 . PMID  22955616. 
  24. ^ Thurman RE, Rynes E, Humbert R, Vierstra J, Maurano MT, Haugen E, Sheffield NC, Stergachis AB, Wang H, et al. (septiembre de 2012). "El paisaje de cromatina accesible del genoma humano". Nature . 489 (7414): 75–82. Bibcode :2012Natur.489...75T. doi :10.1038/nature11232. PMC 3721348 . PMID  22955617. 
  25. ^ Neph S, Vierstra J, Stergachis AB, Reynolds AP, Haugen E, Vernot B, Thurman RE, John S, Sandstrom R, et al. (septiembre de 2012). "Un léxico regulador humano expansivo codificado en huellas de factores de transcripción". Nature . 489 (7414): 83–90. Bibcode :2012Natur.489...83N. doi :10.1038/nature11212. PMC 3736582 . PMID  22955618. 
  26. ^ Gerstein MB, Kundaje A, Hariharan M, Landt SG, Yan KK, Cheng C, Mu XJ, Khurana E, Rozowsky J, et al. (septiembre de 2012). "Arquitectura de la red reguladora humana derivada de los datos de ENCODE". Nature . 489 (7414): 91–100. Bibcode :2012Natur.489...91G. doi :10.1038/nature11245. PMC 4154057 . PMID  22955619. 
  27. ^ Djebali S, Davis CA, Merkel A, Dobin A, Lassmann T, Mortazavi A, Tanzer A, Lagarde J, Lin W, et al. (septiembre de 2012). "Paisaje de la transcripción en células humanas". Nature . 489 (7414): 101–8. Bibcode :2012Natur.489..101D. doi :10.1038/nature11233. PMC 3684276 . PMID  22955620. 
  28. ^ Malladi VS, Erickson DT, Podduturi NR, Rowe LD, Chan ET, Davidson JM, Hitz BC, Ho M, Lee BT, Miyasato S, Roe GR, Simison M, Sloan CA, Strattan JS, Tanaka F, Kent WJ, Cherry JM, Hong EL (2015). "Aplicación y uso de ontología en ENCODE DCC". Base de datos (Oxford) . 2015. doi : 10.1093/database/bav010. PMC 4360730. PMID  25776021 . 
  29. ^ ab Brian J. Raney; et al. (30 de octubre de 2010). "ENCODE datos de todo el genoma en el navegador de genoma de la UCSC (actualización de 2011)". Nucleic Acids Res . 39 (número de la base de datos). Nucleic Acids Research: D871–5. doi :10.1093/nar/gkq1017. PMC 3013645 . PMID  21037257. 
  30. ^ ab "Proyecto modENCODE: Enciclopedia de elementos de ADN para organismos modelo (modENCODE)". Sitio web del NHGRI . Consultado el 13 de noviembre de 2008 .
  31. ^ "Participantes y proyectos de modENCODE". Sitio web del NHGRI . Consultado el 13 de noviembre de 2008 .
  32. ^ "Berkeley Lab Life Sciences recibió subvenciones del NIH para estudios sobre moscas de la fruta y nematodos". Sitio web del Laboratorio Nacional Lawrence Berkeley . 2007-05-14. Archivado desde el original el 2008-09-21 . Consultado el 2008-11-13 .
  33. ^ Gerstein MB, Lu ZJ, Van Nostrand EL, Cheng C, Arshinoff BI, Liu T, Yip KY, Robilotto R, Rechtsteiner A, et al. (2010). "Análisis integrativo del genoma de Caenorhabditis elegans mediante el proyecto modENCODE". Ciencia . 330 (6012): 1775–1787. Código Bib : 2010 Ciencia... 330.1775G. doi : 10.1126/ciencia.1196914. PMC 3142569 . PMID  21177976. 
  34. ^ Consorcio modENCODE, Roy S, Ernst J, Kharchenko PV, Kheradpour P, Negre N, Eaton ML, Landolin JM, Bristow CA, Ma L, et al. (2010). "Identificación de elementos funcionales y circuitos reguladores mediante modENCODE de Drosophila". Science . 330 (6012): 1787–1797. Bibcode :2010Sci...330.1787R. doi :10.1126/science.1198374. PMC 3192495 . PMID  21177974. 
  35. ^ "modENCODE". Instituto Nacional de Investigación del Genoma Humano.
  36. ^ Celniker S (11 de junio de 2009). "Descubriendo los secretos del genoma". Nature . 459 (7249): 927–930. Bibcode :2009Natur.459..927C. doi :10.1038/459927a. PMC 2843545 . PMID  19536255. 
  37. ^ "RePORTE ⟩ REPORTERO".
  38. ^ "Buscar – CODIFICAR".
  39. ^ "Comunicado de 2015: las subvenciones del NIH tienen como objetivo descifrar el lenguaje de la regulación genética". www.genome.gov . Archivado desde el original el 6 de abril de 2016.
  40. ^ "Buscar – CODIFICAR".
  41. ^ "Hoja de ruta del proyecto Epigenómica - Página de inicio". Archivado desde el original el 8 de abril de 2021. Consultado el 10 de enero de 2014 .
  42. ^ Kundaje, Anshul; Meuleman, Wouter; Ernst, Jason; Bilenky, Misha; Yen, Angela; Heravi-Moussavi, Alireza; Kheradpour, Pouya; Zhang, Zhizhuo; Wang, Jianrong; Ziller, Michael J.; Amin, Viren; Whitaker, John W.; Schultz, Matthew D.; Ward, Lucas D.; Sarkar, Abhishek; Quon, Gerald; Sandstrom, Richard S.; Eaton, Matthew L.; Wu, Yi-Chieh; Pfenning, Andreas R.; Wang, Xinchen; Claussnitzer, Melina; Liu, Yaping; Coarfa, Cristian; Harris, R. Alan; Shoresh, Noam; Epstein, Charles B.; Gjoneska, Elizabeta; Leung, Danny; et al. (2015). "Análisis integrativo de 111 epigenomas humanos de referencia". Naturaleza . 518 (7539): 317–330. Código Bibliográfico :2015Natur.518..317.. doi :10.1038/nature14248. PMC 4530010 . PMID  25693563. 
  43. ^ Cho, Young-Dan; Kim, Woo-Jin; Ryoo, Hyun-Mo; Kim, Hong-Gee; Kim, Kyoung-Hwa; Ku, Young; Seol, Yang-Jo (26 de abril de 2021). "Avances actuales de la epigenética en periodontología del proyecto ENCODE: una revisión y perspectivas futuras". Epigenética clínica . 13 (1): 92. doi : 10.1186/s13148-021-01074-w . ISSN  1868-7083. PMC 8077755 . PMID  33902683. S2CID  233402899. 
  44. ^ Maher B (6 de septiembre de 2012). "Luchando contra ENCODE y la basura". Blog de noticias . Nature Publishing Group. Archivado desde el original el 6 de agosto de 2013. Consultado el 17 de agosto de 2013 .
  45. ^ Kolata G (5 de septiembre de 2012). "Lejos de ser basura, la materia oscura del ADN resulta crucial para la salud". The New York Times .
  46. ^ Gregory TR (6 de septiembre de 2012). "La máquina de propaganda mediática de ENCODE". Genomicron. Archivado desde el original el 6 de abril de 2015. Consultado el 17 de agosto de 2013 .
  47. ^ Graur D ; Zheng Y; Price N; Azevedo RB; Zufall RA; Elhaik E (2013). "Sobre la inmortalidad de los televisores: "función" en el genoma humano según el evangelio libre de evolución de ENCODE". Genome Biol Evol . 5 (3): 578–90. doi :10.1093/gbe/evt028. PMC 3622293 . PMID  23431001. 
  48. ^ Moran LA (15 de marzo de 2013). "Sandwalk: sobre el significado de la palabra "función"". Sandwalk.
  49. ^ Gregory TR (11 de abril de 2013). «Críticas de ENCODE en revistas revisadas por pares». Genomicron. Archivado desde el original el 21 de abril de 2013.
  50. ^ White MA, Myers CA, Corbo JC, Cohen BA (julio de 2013). "Un ensayo potenciador in vivo masivamente paralelo revela que las características altamente locales determinan la función reguladora cis de los picos de ChIP-seq". Proc. Natl. Sci. USA . 110 (29): 11952–7. Bibcode :2013PNAS..11011952W. doi : 10.1073/pnas.1307449110 . PMC 3718143 . PMID  23818646. 
    • Mike White (17 de julio de 2013). "Encontrar la función en el genoma con una hipótesis nula". The Finch & Pea .
  51. ^ abc Mattick JS, Dinger ME (2013). "El grado de funcionalidad en el genoma humano". The HUGO Journal . 7 (1): 2. doi : 10.1186/1877-6566-7-2 . PMC 4685169 . 
  52. ^ abc Kellis M, et al. (2014). "Definición de elementos funcionales del ADN en el genoma humano". Proc. Natl. Sci. EE. UU . . 111 (17): 6131–8. Código Bibliográfico :2014PNAS..111.6131K. doi : 10.1073/pnas.1318948111 . PMC 4035993 . PMID  24753594. 
  53. ^ ab Carey, Nessa (2015). ADN basura: un viaje a través de la materia oscura del genoma . Columbia University Press. ISBN 9780231170840.
  54. ^ ab Germain, Pierre-Luc; Ratti, Emanuele; Boem, Federico (noviembre de 2014). "¿ADN basura o funcional? ENCODE y la controversia de la función". Biología y Filosofía . 29 (6): 807–831. doi :10.1007/s10539-014-9441-3. S2CID  84480632.
  55. ^ Abascal F, Acosta R, Addleman NJ, Adrian J, et al. (30 de julio de 2020). "Enciclopedias ampliadas de elementos de ADN en los genomas humano y de ratón". Nature . 583 (7818): 699–710. Bibcode :2020Natur.583..699E. doi :10.1038/s41586-020-2493-4. PMC 7410828 . PMID  32728249. El proyecto ENCODE tiene como objetivo delinear de forma precisa y completa los segmentos de los genomas humano y de ratón que codifican elementos funcionales. 
  56. ^ Snyder MP, Gingeras MB, Ren B, Hardison RC, et al. (2020). "Perspectivas sobre ENCODE". Nature . 583 : 583–698. Es importante destacar que, aunque se han definido cantidades muy grandes de elementos no codificantes, la anotación funcional de los elementos identificados por ENCODE aún está en sus primeras etapas.
  57. ^ Birney, Ewan (5 de septiembre de 2012). "ENCODE: Mis propios pensamientos". Blog de Ewan: Bioinformático en general .
  58. ^ Timpson T (5 de marzo de 2013). "Debate sobre ENCODE: Dan Graur, Michael Eisen". Mendelspod. Archivado desde el original el 11 de abril de 2015. Consultado el 15 de agosto de 2013 .
  59. ^ ab Maher B (septiembre de 2012). "ENCODE: La enciclopedia humana". Nature . 489 (7414): 46–8. doi : 10.1038/489046a . PMID  22962707.
  60. ^ Libro de factores
  61. ^ Wang J (29 de noviembre de 2012). "Factorbook.org: una base de datos basada en Wiki para datos de unión de factores de transcripción generados por el consorcio ENCODE". Nucleic Acids Research . 41 (número de base de datos): D171-6. doi :10.1093/nar/gks1221. PMC 3531197 . PMID  23203885. 

Enlaces externos