La secuenciación ChIP , también conocida como ChIP-seq , es un método utilizado para analizar las interacciones de proteínas con ADN . ChIP-seq combina la inmunoprecipitación de cromatina (ChIP) con la secuenciación masiva de ADN en paralelo para identificar los sitios de unión de las proteínas asociadas al ADN. Se puede utilizar para mapear con precisión los sitios de unión globales para cualquier proteína de interés. Anteriormente, ChIP-on-chip era la técnica más común utilizada para estudiar estas relaciones proteína-ADN.
La tecnología ChIP-seq se utiliza principalmente para determinar cómo los factores de transcripción y otras proteínas asociadas a la cromatina influyen en los mecanismos que afectan al fenotipo . Determinar cómo las proteínas interactúan con el ADN para regular la expresión génica es esencial para comprender completamente muchos procesos biológicos y estados patológicos. Esta información epigenética es complementaria al análisis del genotipo y la expresión. La tecnología ChIP-seq se considera actualmente principalmente como una alternativa al ChIP-chip , que requiere una matriz de hibridación . Esto introduce cierto sesgo, ya que una matriz está restringida a un número fijo de sondas. Por el contrario, se cree que la secuenciación tiene menos sesgo, aunque el sesgo de secuenciación de las diferentes tecnologías de secuenciación aún no se comprende por completo. [1]
Los sitios específicos de ADN en interacción física directa con factores de transcripción y otras proteínas se pueden aislar mediante inmunoprecipitación de cromatina . ChIP produce una biblioteca de sitios de ADN objetivo unidos a una proteína de interés. Los análisis de secuencias masivamente paralelas se utilizan junto con bases de datos de secuencias de todo el genoma para analizar el patrón de interacción de cualquier proteína con ADN, [2] o el patrón de cualquier modificación epigenética de la cromatina . Esto se puede aplicar al conjunto de proteínas y modificaciones capaces de ChIP, como factores de transcripción, polimerasas y maquinaria transcripcional , proteínas estructurales , modificaciones de proteínas y modificaciones de ADN. [3] Como alternativa a la dependencia de anticuerpos específicos, se han desarrollado diferentes métodos para encontrar el superconjunto de todas las regiones reguladoras activas con nucleosomas agotados o nucleosomas alterados en el genoma, como DNase-Seq [4] y FAIRE-Seq . [5] [6]
ChIP es un método poderoso para enriquecer selectivamente las secuencias de ADN unidas a una proteína particular en células vivas . Sin embargo, el uso generalizado de este método ha sido limitado por la falta de un método lo suficientemente robusto para identificar todas las secuencias de ADN enriquecidas. El protocolo de laboratorio húmedo ChIP contiene ChIP e hibridación. Básicamente, el protocolo ChIP tiene cinco partes [7] que ayudan a comprender mejor el proceso general de ChIP. Para llevar a cabo el ChIP, el primer paso es la reticulación [8] utilizando formaldehído y grandes lotes de ADN para obtener una cantidad útil. Las reticulaciones se realizan entre la proteína y el ADN, pero también entre el ARN y otras proteínas. El segundo paso es el proceso de fragmentación de la cromatina que rompe la cromatina para obtener piezas de ADN de alta calidad para el análisis ChIP al final. Estos fragmentos deben cortarse para que tengan menos de 500 pares de bases [9] cada uno para tener el mejor resultado para el mapeo del genoma. El tercer paso se llama inmunoprecipitación de cromatina, [7] que es la abreviatura de ChIP. El proceso ChIP mejora complejos específicos de proteína-ADN reticulados utilizando un anticuerpo contra la proteína de interés seguido de incubación y centrifugación para obtener la inmunoprecipitación. El paso de inmunoprecipitación también permite la eliminación de sitios de unión no específicos. El cuarto paso es la recuperación y purificación del ADN, [7] que tiene lugar mediante el efecto inverso en el enlace cruzado entre el ADN y la proteína para separarlos y limpiar el ADN con una extracción. El quinto y último paso es el paso de análisis del protocolo ChIP mediante el proceso de qPCR , ChIP-on-chip (matriz híbrida) o secuenciación ChIP. Luego, se agregan adaptadores de oligonucleótidos a los pequeños tramos de ADN que se unieron a la proteína de interés para permitir una secuenciación masiva en paralelo . A través del análisis, las secuencias pueden identificarse e interpretarse por el gen o la región a la que se unió la proteína. [7]
Después de la selección del tamaño, todos los fragmentos de ADN-ChIP resultantes se secuencian simultáneamente utilizando un secuenciador de genoma. Una sola ejecución de secuenciación puede escanear asociaciones de todo el genoma con alta resolución, lo que significa que las características se pueden ubicar con precisión en los cromosomas. ChIP-chip, por el contrario, requiere grandes conjuntos de matrices de teselado para una resolución menor. [10]
Existen muchos métodos de secuenciación nuevos que se utilizan en este paso de secuenciación. Algunas tecnologías que analizan las secuencias pueden utilizar la amplificación de grupos de fragmentos de ADN de ChIP ligados a adaptadores en un sustrato sólido de celda de flujo para crear grupos de aproximadamente 1000 copias clonales cada uno. La matriz de alta densidad resultante de grupos de plantillas en la superficie de la celda de flujo se secuencia mediante un programa de análisis del genoma. Cada grupo de plantillas se somete a una secuenciación por síntesis en paralelo utilizando nuevos nucleótidos terminadores reversibles marcados con fluorescencia. Las plantillas se secuencian base por base durante cada lectura. Luego, el software de recopilación y análisis de datos alinea las secuencias de muestra con una secuencia genómica conocida para identificar los fragmentos de ADN de ChIP. [ cita requerida ]
ChIP-seq nos ofrece un análisis rápido, sin embargo, se debe realizar un control de calidad para asegurar que los resultados obtenidos son fiables:
La sensibilidad de esta tecnología depende de la profundidad de la secuenciación (es decir, el número de etiquetas de secuencia mapeadas), el tamaño del genoma y la distribución del factor objetivo. La profundidad de la secuenciación está directamente relacionada con el costo. Si se deben mapear ligandos abundantes en genomas grandes con alta sensibilidad, los costos son altos ya que se requerirá una cantidad enormemente alta de etiquetas de secuencia. Esto contrasta con ChIP-chip en el que los costos no están correlacionados con la sensibilidad. [12] [13]
A diferencia de los métodos ChIP basados en microarrays , la precisión del ensayo ChIP-seq no está limitada por el espaciamiento de las sondas predeterminadas. Al integrar una gran cantidad de lecturas cortas, se obtiene una localización del sitio de unión altamente precisa. En comparación con ChIP-chip, los datos de ChIP-seq se pueden utilizar para localizar el sitio de unión dentro de unas pocas decenas de pares de bases del sitio de unión de la proteína real. Las densidades de etiquetas en los sitios de unión son un buen indicador de la afinidad de unión proteína-ADN, [14] lo que facilita la cuantificación y comparación de las afinidades de unión de una proteína con diferentes sitios de ADN. [15]
Asociación de ADN con STAT1: se utilizó ChIP-seq para estudiar los objetivos de STAT1 en células HeLa S3, que son clones de la línea HeLa que se utilizan para el análisis de poblaciones celulares. [16] Luego, se comparó el rendimiento de ChIP-seq con los métodos alternativos de interacción proteína-ADN de ChIP-PCR y ChIP-chip. [17]
Arquitectura de nucleosomas de promotores: utilizando ChIP-seq, se determinó que los genes de levadura parecen tener una región promotora libre de nucleosomas mínima de 150 pb en la que la ARN polimerasa puede iniciar la transcripción. [18]
Conservación de factores de transcripción: se utilizó ChIP-seq para comparar la conservación de los factores de transcripción en el tejido del prosencéfalo y del corazón en ratones embrionarios. Los autores identificaron y validaron la funcionalidad cardíaca de los potenciadores de la transcripción y determinaron que los potenciadores de la transcripción para el corazón están menos conservados que los del prosencéfalo durante la misma etapa de desarrollo. [19]
Secuenciación de ChIP en todo el genoma: se realizó una secuenciación de ChIP en el gusano C. elegans para explorar los sitios de unión de 22 factores de transcripción en todo el genoma. Hasta el 20% de los genes candidatos anotados se asignaron a factores de transcripción. Varios factores de transcripción se asignaron a regiones de ARN no codificantes y pueden estar sujetos a variables ambientales o de desarrollo. También se identificaron las funciones de algunos de los factores de transcripción. Algunos de los factores de transcripción regulan genes que controlan otros factores de transcripción. Estos genes no están regulados por otros factores. La mayoría de los factores de transcripción sirven como objetivos y reguladores de otros factores, lo que demuestra una red de regulación. [20]
Inferencia de la red reguladora: se demostró que la señal ChIP-seq de la modificación de histonas estaba más correlacionada con los motivos de factores de transcripción en los promotores en comparación con el nivel de ARN. [21] Por lo tanto, el autor propuso que el uso de ChIP-seq de modificación de histonas proporcionaría una inferencia más confiable de las redes reguladoras de genes en comparación con otros métodos basados en la expresión.
ChIP-seq ofrece una alternativa a ChIP-chip. Los datos experimentales de ChIP-seq de STAT1 tienen un alto grado de similitud con los resultados obtenidos por ChIP-chip para el mismo tipo de experimento, con más del 64 % de picos en regiones genómicas compartidas. Debido a que los datos son lecturas de secuencias, ChIP-seq ofrece un proceso de análisis rápido siempre que haya una secuencia genómica de alta calidad disponible para el mapeo de lecturas y el genoma no tenga contenido repetitivo que confunda el proceso de mapeo. ChIP-seq también tiene el potencial de detectar mutaciones en secuencias de sitios de unión, lo que puede respaldar directamente cualquier cambio observado en la unión de proteínas y la regulación genética.
Al igual que con muchos enfoques de secuenciación de alto rendimiento, ChIP-seq genera conjuntos de datos extremadamente grandes, para los cuales se requieren métodos de análisis computacional apropiados. Para predecir los sitios de unión del ADN a partir de los datos de recuento de lecturas de ChIP-seq, se han desarrollado métodos de llamada de picos . Uno de los métodos más populares [ cita requerida ] es MACS, que modela empíricamente el tamaño del cambio de las etiquetas de ChIP-Seq y lo utiliza para mejorar la resolución espacial de los sitios de unión predichos. [22] MACS está optimizado para picos de mayor resolución, mientras que otro algoritmo popular, SICER, está programado para solicitar picos más amplios, que abarcan kilobases a megabases para buscar dominios de cromatina más amplios. SICER es más útil para las marcas de histonas que abarcan cuerpos de genes. Se puede utilizar un método matemático más riguroso, BCP (Punto de cambio bayesiano), tanto para picos agudos como anchos con una velocidad computacional más rápida, [23] consulte la comparación de referencia de las herramientas de llamada de picos de ChIP-seq de Thomas et al. (2017). [24]
Otro problema computacional relevante es el llamado de picos diferenciales, que identifica diferencias significativas en dos señales ChIP-seq de distintas condiciones biológicas. Los llamadores de picos diferenciales segmentan dos señales ChIP-seq e identifican picos diferenciales utilizando modelos ocultos de Markov . Ejemplos de llamadores de picos diferenciales de dos etapas son ChIPDiff [25] y ODIN. [26]
Para reducir los sitios espurios de ChIP-seq, se pueden utilizar múltiples controles experimentales para detectar los sitios de unión de un experimento de IP. Bay2Ctrls adopta un modelo bayesiano para integrar el control de entrada de ADN para el IP, el IP simulado y su control de entrada de ADN correspondiente para predecir los sitios de unión del IP. [27] Este enfoque es particularmente eficaz para muestras complejas, como organismos modelo completos. Además, el análisis indica que, para muestras complejas, los controles de IP simulados superan sustancialmente a los controles de entrada de ADN, probablemente debido a los genomas activos de las muestras. [27]