La secuenciación de ChIP , también conocida como ChIP-seq , es un método utilizado para analizar las interacciones de proteínas con el ADN . ChIP-seq combina la inmunoprecipitación de cromatina ChIP con una secuenciación masiva de ADN paralela para identificar los sitios de unión de las proteínas asociadas al ADN. Puede utilizarse para mapear sitios de unión globales con precisión para cualquier proteína de interés. Anteriormente, ChIP-on-chip era la técnica más común utilizada para estudiar estas relaciones proteína-ADN.
ChIP-seq se utiliza principalmente para determinar cómo los factores de transcripción y otras proteínas asociadas a la cromatina influyen en los mecanismos que afectan el fenotipo . Determinar cómo las proteínas interactúan con el ADN para regular la expresión genética es esencial para comprender completamente muchos procesos biológicos y estados patológicos. Esta información epigenética es complementaria al análisis de genotipo y expresión. La tecnología ChIP-seq se considera actualmente principalmente como una alternativa al chip ChIP que requiere una matriz de hibridación . Esto introduce cierto sesgo, ya que una matriz está restringida a un número fijo de sondas. Por el contrario, se cree que la secuenciación tiene menos sesgo, aunque aún no se comprende completamente el sesgo de secuenciación de diferentes tecnologías de secuenciación. [1]
Los sitios de ADN específicos en interacción física directa con factores de transcripción y otras proteínas pueden aislarse mediante inmunoprecipitación de cromatina . ChIP produce una biblioteca de sitios de ADN objetivo unidos a una proteína de interés. Se utilizan análisis de secuencias masivamente paralelos junto con bases de datos de secuencias del genoma completo para analizar el patrón de interacción de cualquier proteína con el ADN, [2] o el patrón de cualquier modificación epigenética de la cromatina . Esto se puede aplicar al conjunto de proteínas y modificaciones compatibles con ChIP, como factores de transcripción, polimerasas y maquinaria transcripcional , proteínas estructurales , modificaciones de proteínas y modificaciones del ADN. [3] Como alternativa a la dependencia de anticuerpos específicos, se han desarrollado diferentes métodos para encontrar el superconjunto de todas las regiones reguladoras activas del genoma agotadas o alteradas por nucleosomas, como DNase -Seq [4] y FAIRE-Seq . [5] [6]
ChIP es un método poderoso para enriquecer selectivamente secuencias de ADN unidas por una proteína particular en células vivas . Sin embargo, el uso generalizado de este método se ha visto limitado por la falta de un método suficientemente sólido para identificar todas las secuencias de ADN enriquecidas. El protocolo de laboratorio húmedo de ChIP contiene ChIP e hibridación. Básicamente, el protocolo ChIP [7] consta de cinco partes que ayudan a comprender mejor el proceso general de ChIP. Para llevar a cabo el ChIP, el primer paso es la reticulación [8] utilizando formaldehído y grandes lotes de ADN para obtener una cantidad útil. Los enlaces cruzados se producen entre la proteína y el ADN, pero también entre el ARN y otras proteínas. El segundo paso es el proceso de fragmentación de la cromatina que rompe la cromatina para obtener al final piezas de ADN de alta calidad para el análisis de ChIP. Estos fragmentos deben cortarse para tener menos de 500 pares de bases [9] cada uno para obtener el mejor resultado para el mapeo del genoma. El tercer paso se llama inmunoprecipitación de cromatina, [7] que es la abreviatura de ChIP. El proceso ChIP mejora complejos de ADN-proteína reticulados específicos utilizando un anticuerpo contra la proteína de interés seguido de incubación y centrifugación para obtener la inmunoprecipitación. La etapa de inmunoprecipitación también permite la eliminación de sitios de unión no específicos. El cuarto paso es la recuperación y purificación del ADN, [7] que se produce mediante el efecto inverso del entrecruzamiento entre el ADN y la proteína para separarlos y limpiar el ADN con una extracción. El quinto y último paso es el paso de análisis del protocolo ChIP mediante el proceso de qPCR , ChIP-on-chip (matriz híbrida) o secuenciación de ChIP. Luego se añaden adaptadores de oligonucleótidos a los pequeños tramos de ADN que estaban unidos a la proteína de interés para permitir una secuenciación masiva en paralelo . A través del análisis, las secuencias pueden identificarse e interpretarse según el gen o la región a la que se unió la proteína. [7]
Después de la selección del tamaño, todos los fragmentos de ADN ChIP resultantes se secuencian simultáneamente utilizando un secuenciador de genoma. Una sola secuenciación puede buscar asociaciones en todo el genoma con alta resolución, lo que significa que las características pueden ubicarse con precisión en los cromosomas. ChIP-chip, por el contrario, requiere grandes conjuntos de matrices de mosaicos para una resolución más baja. [10]
Hay muchos métodos de secuenciación nuevos que se utilizan en este paso de secuenciación. Algunas tecnologías que analizan las secuencias pueden utilizar la amplificación en grupo de fragmentos de ADN ChIP ligados por adaptador en un sustrato de celda de flujo sólido para crear grupos de aproximadamente 1000 copias clonales cada uno. La matriz de alta densidad resultante de grupos de plantillas en la superficie de la celda de flujo se secuencia mediante un programa de análisis del genoma. Cada grupo de plantillas se secuencia por síntesis en paralelo utilizando nuevos nucleótidos terminadores reversibles marcados con fluorescencia. Las plantillas se secuencian base por base durante cada lectura. Luego, el software de análisis y recopilación de datos alinea las secuencias de muestra con una secuencia genómica conocida para identificar los fragmentos de ChIP-DNA. [ cita necesaria ]
ChIP-seq nos ofrece un análisis rápido, sin embargo, se debe realizar un control de calidad para asegurarnos de que los resultados obtenidos sean confiables:
La sensibilidad de esta tecnología depende de la profundidad de la secuenciación (es decir, el número de etiquetas de secuencia mapeadas), el tamaño del genoma y la distribución del factor objetivo. La profundidad de la secuenciación está directamente correlacionada con el costo. Si es necesario mapear con alta sensibilidad abundantes aglutinantes en genomas grandes, los costos son altos ya que se requerirá un número enormemente alto de etiquetas de secuencia. Esto contrasta con el chip ChIP, en el que los costes no están correlacionados con la sensibilidad. [12] [13]
A diferencia de los métodos ChIP basados en microarrays , la precisión del ensayo ChIP-seq no está limitada por el espaciado de las sondas predeterminadas. Al integrar una gran cantidad de lecturas cortas, se obtiene una localización del sitio de unión altamente precisa. En comparación con ChIP-chip, los datos de ChIP-seq se pueden utilizar para localizar el sitio de unión a unas pocas decenas de pares de bases del sitio de unión a proteína real. Las densidades de etiquetas en los sitios de unión son un buen indicador de la afinidad de unión entre proteína y ADN, [14] lo que facilita la cuantificación y comparación de las afinidades de unión de una proteína a diferentes sitios de ADN. [15]
Asociación de ADN de STAT1: ChIP-seq se utilizó para estudiar objetivos STAT1 en células HeLa S3, que son clones de la línea HeLa que se utilizan para el análisis de poblaciones celulares. [16] Luego se comparó el rendimiento de ChIP-seq con los métodos alternativos de interacción proteína-ADN de ChIP-PCR y ChIP-chip. [17]
Arquitectura de promotores de nucleosomas: utilizando ChIP-seq, se determinó que los genes de levadura parecen tener una región promotora mínima libre de nucleosomas de 150 pb en la que la ARN polimerasa puede iniciar la transcripción. [18]
Conservación del factor de transcripción: se utilizó ChIP-seq para comparar la conservación de los TF en el tejido del cerebro anterior y del corazón en ratones embrionarios. Los autores identificaron y validaron la funcionalidad cardíaca de los potenciadores de la transcripción y determinaron que los potenciadores de la transcripción del corazón están menos conservados que los del prosencéfalo durante la misma etapa de desarrollo. [19]
ChIP-seq de todo el genoma: se completó la secuenciación de ChIP en el gusano C. elegans para explorar los sitios de unión de 22 factores de transcripción en todo el genoma. Hasta el 20% de los genes candidatos anotados se asignaron a factores de transcripción. Se asignaron varios factores de transcripción a regiones de ARN no codificantes y pueden estar sujetos a variables ambientales o de desarrollo. También se identificaron las funciones de algunos de los factores de transcripción. Algunos de los factores de transcripción regulan genes que controlan otros factores de transcripción. Estos genes no están regulados por otros factores. La mayoría de los factores de transcripción sirven como objetivos y reguladores de otros factores, lo que demuestra una red de regulación. [20]
Red reguladora inferida: se demostró que la señal ChIP-seq de modificación de histonas está más correlacionada con motivos de factores de transcripción en los promotores en comparación con el nivel de ARN. [21] Por lo tanto, el autor propuso que el uso de la modificación de histonas ChIP-seq proporcionaría una inferencia más confiable de las redes reguladoras de genes en comparación con otros métodos basados en la expresión.
ChIP-seq ofrece una alternativa a ChIP-chip. Los datos experimentales de ChIP-seq de STAT1 tienen un alto grado de similitud con los resultados obtenidos por ChIP-chip para el mismo tipo de experimento, con más del 64 % de picos en regiones genómicas compartidas. Debido a que los datos son lecturas de secuencia, ChIP-seq ofrece un proceso de análisis rápido siempre que haya una secuencia del genoma de alta calidad disponible para la lectura del mapeo y el genoma no tenga contenido repetitivo que confunda el proceso de mapeo. ChIP-seq también tiene el potencial de detectar mutaciones en las secuencias del sitio de unión, lo que puede respaldar directamente cualquier cambio observado en la unión de proteínas y la regulación genética.
Como ocurre con muchos enfoques de secuenciación de alto rendimiento, ChIP-seq genera conjuntos de datos extremadamente grandes, para los cuales se requieren métodos de análisis computacional apropiados. Para predecir los sitios de unión al ADN a partir de los datos de recuento de lecturas de ChIP-seq, se han desarrollado métodos de llamada de picos . Uno de los métodos más populares [ cita necesaria ] es MACS, que modela empíricamente el tamaño de cambio de las etiquetas ChIP-Seq y lo utiliza para mejorar la resolución espacial de los sitios de unión previstos. [22] MACS está optimizado para picos de mayor resolución, mientras que otro algoritmo popular, SICER, está programado para solicitar picos más amplios, que abarcan desde kilobases hasta megabases para buscar dominios de cromatina más amplios. SICER es más útil para las marcas de histonas que abarcan cuerpos genéticos. Se puede utilizar un método matemático más riguroso, BCP (punto de cambio bayesiano), para picos tanto agudos como amplios con una velocidad computacional más rápida, [23] consulte la comparación comparativa de las herramientas de llamada de picos ChIP-seq realizada por Thomas et al. (2017). [24]
Otro problema computacional relevante es la llamada diferencial de picos, que identifica diferencias significativas en dos señales ChIP-seq de distintas condiciones biológicas. Los llamadores de picos diferenciales segmentan dos señales ChIP-seq e identifican picos diferenciales utilizando modelos ocultos de Markov . Ejemplos de llamadores de pico diferencial de dos etapas son ChIPDiff [25] y ODIN. [26]
Para reducir los sitios falsos de ChIP-seq, se pueden usar múltiples controles experimentales para detectar sitios de unión de un experimento de IP. Bay2Ctrls adopta un modelo bayesiano para integrar el control de entrada de ADN para la IP, la IP simulada y su correspondiente control de entrada de ADN para predecir los sitios de unión a partir de la IP. [27] Este enfoque es particularmente eficaz para muestras complejas, como organismos modelo completos. Además, el análisis indica que, para muestras complejas, los controles de IP simulados superan sustancialmente a los controles de entrada de ADN, probablemente debido a los genomas activos de las muestras. [27]