FAIRE-Seq ( aislamiento asistido por formaldehído de elementos reguladores ) es un método de biología molecular utilizado para determinar las secuencias de regiones de ADN en el genoma asociadas con la actividad reguladora. [ 1] La técnica fue desarrollada en el laboratorio de Jason D. Lieb en la Universidad de Carolina del Norte , Chapel Hill. A diferencia de DNase-Seq , el protocolo FAIRE-Seq no requiere la permeabilización de células o el aislamiento de núcleos, y puede analizar cualquier tipo de célula. En un estudio de siete tipos de células humanas diferentes, DNase-seq y FAIRE-seq produjeron una fuerte validación cruzada, con cada tipo de célula teniendo 1-2% del genoma humano como cromatina abierta .
El protocolo se basa en el hecho de que la reticulación con formaldehído es más eficiente en el ADN unido a nucleosomas que en las regiones del genoma en las que no hay nucleosomas. Este método segrega el ADN no reticulado que normalmente se encuentra en la cromatina abierta, que luego se secuencia. El protocolo consiste en la reticulación, la extracción con fenol y la secuenciación del ADN en fase acuosa.
FAIRE utiliza las propiedades bioquímicas del ADN unido a proteínas para separar las regiones del genoma en las que no hay nucleosomas. Las células se someterán a un entrecruzamiento, lo que garantizará que la interacción entre los nucleosomas y el ADN se fije. Después de la sonicación, el ADN fragmentado y fijado se separa mediante una extracción con fenol-cloroformo. Este método crea dos fases, una orgánica y una acuosa. Debido a sus propiedades bioquímicas, los fragmentos de ADN entrecruzados con nucleosomas se asentarán preferentemente en la fase orgánica. Por otro lado, las regiones en las que no hay nucleosomas o "abiertas" se encontrarán en la fase acuosa. Al extraer específicamente la fase acuosa, solo se purificarán y enriquecerán las regiones en las que no hay nucleosomas. [1]
Los fragmentos de ADN extraídos con FAIRE se pueden analizar de forma muy eficiente utilizando técnicas de secuenciación de última generación . En general, las bibliotecas se crean mediante la unión de adaptadores específicos a los fragmentos de ADN que les permiten agruparse en una plataforma y amplificarse, lo que da como resultado la lectura/determinación de las secuencias de ADN, y esto en paralelo para millones de fragmentos de ADN.
Dependiendo del tamaño del genoma en el que se realiza FAIRE-seq, se requiere un mínimo de lecturas para crear una cobertura apropiada de los datos, asegurando que se pueda determinar una señal adecuada. [2] [3] Además, un genoma de referencia o de entrada, que no ha sido reticulado, a menudo se secuencia junto con el genoma para determinar el nivel de ruido de fondo.
Cabe señalar que los fragmentos FAIRE extraídos se pueden cuantificar con un método alternativo mediante PCR cuantitativa . Sin embargo, este método no permite una cuantificación de alto rendimiento de los fragmentos extraídos en todo el genoma.
Existen varios aspectos de FAIRE-seq que requieren atención al analizar e interpretar los datos. Por un lado, se ha afirmado que FAIRE-seq tendrá una mayor cobertura en las regiones potenciadoras que en las regiones promotoras. [4] Esto contrasta con el método alternativo de DNase-seq, que se sabe que muestra una mayor sensibilidad hacia las regiones promotoras. Además, se ha afirmado que FAIRE-seq muestra preferencia por los intrones y exones internos. [5] En general, también se cree que los datos de FAIRE-seq muestran un nivel de fondo más alto, lo que lo convierte en un método menos sensible. [6]
En un primer paso, los datos de FAIRE-seq se asignan al genoma de referencia del organismo modelo utilizado.
A continuación, la identificación de regiones genómicas con cromatina abierta se realiza mediante un algoritmo de llamada de pico. Diferentes herramientas ofrecen paquetes para hacer esto (por ejemplo, ChIPOTle [7] ZINBA [8] y MACS2 [9] ). ChIPOTle utiliza una ventana deslizante de 300 pb para identificar señales estadísticamente significativas. Por el contrario, MACS2 identifica la señal enriquecida combinando el parámetro callpeak con otras opciones como 'broad', 'broad cutoff', 'no model' o 'shift'. ZINBA es un algoritmo genérico para la detección de enriquecimiento en conjuntos de datos de lectura corta. [10] Por lo tanto, ayuda en la detección precisa de señales en conjuntos de datos complejos que tienen una baja relación señal-ruido.
BedTools [11] se utiliza para fusionar las regiones enriquecidas que se encuentran cerca unas de otras para formar CORE (grupo de elementos reguladores abiertos). Esto ayuda a identificar regiones accesibles a la cromatina y patrones de regulación genética que de otro modo habrían sido indetectables, considerando la menor resolución que suele traer consigo FAIRE-seq.
Los datos generalmente se visualizan como pistas (por ejemplo, bigWig) y se pueden cargar en el navegador de genoma de la UCSC. [12]
La principal limitación de este método, es decir, la baja relación señal-ruido en comparación con otros ensayos de accesibilidad de la cromatina, hace que la interpretación computacional de estos datos sea muy difícil. [13]
Existen varios métodos que pueden utilizarse como alternativa a FAIRE-seq. DNase-seq utiliza la capacidad de la enzima DNase I para escindir ADN libre/abierto/accesible para identificar y secuenciar la cromatina abierta. [14] [15] El método ATAC-seq desarrollado posteriormente emplea la transposasa Tn5, que inserta fragmentos específicos o transposones en regiones accesibles del genoma para identificar y secuenciar la cromatina abierta. [16]