Los sitios de unión del ADN son un tipo de sitio de unión que se encuentra en el ADN donde otras moléculas pueden unirse. Los sitios de unión del ADN se distinguen de otros sitios de unión en que (1) son parte de una secuencia de ADN (por ejemplo, un genoma) y (2) están unidos por proteínas de unión al ADN . Los sitios de unión del ADN a menudo se asocian con proteínas especializadas conocidas como factores de transcripción y, por lo tanto, están vinculados a la regulación transcripcional . La suma de los sitios de unión del ADN de un factor de transcripción específico se conoce como su cistroma . Los sitios de unión del ADN también abarcan los objetivos de otras proteínas, como las enzimas de restricción , las recombinasas específicas del sitio (ver recombinación específica del sitio ) y las metiltransferasas . [1]
Los sitios de unión del ADN pueden definirse como secuencias cortas de ADN (normalmente de 4 a 30 pares de bases de longitud, pero hasta 200 pb en el caso de los sitios de recombinación) que están específicamente unidas por una o más proteínas o complejos proteicos de unión al ADN. Se ha informado que algunos sitios de unión tienen el potencial de sufrir cambios evolutivos rápidos. [2]
Los sitios de unión del ADN se pueden clasificar según su función biológica. Por lo tanto, podemos distinguir entre sitios de unión de factores de transcripción, sitios de restricción y sitios de recombinación. Algunos autores han propuesto que los sitios de unión también se podrían clasificar según su modo más conveniente de representación. [3] Por un lado, los sitios de restricción se pueden representar generalmente mediante secuencias de consenso. Esto se debe a que se dirigen principalmente a secuencias idénticas y la eficiencia de la restricción disminuye abruptamente para secuencias menos similares. Por otro lado, los sitios de unión del ADN para un factor de transcripción dado suelen ser todos diferentes, con distintos grados de afinidad del factor de transcripción para los diferentes sitios de unión. Esto dificulta la representación precisa de los sitios de unión de factores de transcripción utilizando secuencias de consenso , y normalmente se representan utilizando matrices de frecuencia específica de posición (PSFM), que a menudo se representan gráficamente utilizando logotipos de secuencia . Este argumento, sin embargo, es en parte arbitrario. Las enzimas de restricción, como los factores de transcripción, producen un rango gradual, aunque agudo, de afinidades para diferentes sitios [4] y, por lo tanto, también se representan mejor mediante PSFM. De la misma manera, las recombinasas de sitio específico también muestran un rango variado de afinidades para diferentes sitios objetivo. [5] [6]
La existencia de algo parecido a los sitios de unión del ADN se sospechó a partir de los experimentos sobre la biología del bacteriófago lambda [7] y la regulación del operón lac de Escherichia coli [8] . Los sitios de unión del ADN se confirmaron finalmente en ambos sistemas [9] [10] [11] con el advenimiento de las técnicas de secuenciación del ADN . A partir de entonces, se han descubierto sitios de unión del ADN para muchos factores de transcripción, enzimas de restricción y recombinasas específicas del sitio utilizando una profusión de métodos experimentales. Históricamente, las técnicas experimentales de elección para descubrir y analizar los sitios de unión del ADN han sido el ensayo de huella de ADNsa y el ensayo de desplazamiento de movilidad electroforética (EMSA). Sin embargo, el desarrollo de microarrays de ADN y técnicas de secuenciación rápida ha dado lugar a nuevos métodos masivamente paralelos para la identificación in vivo de sitios de unión, como ChIP-chip y ChIP-Seq . [12] Para cuantificar la afinidad de unión [13] de proteínas y otras moléculas a sitios de unión de ADN específicos se utiliza el método biofísico termoforesis a microescala [14] .
Debido a la naturaleza diversa de las técnicas experimentales utilizadas para determinar los sitios de unión y a la cobertura irregular de la mayoría de los organismos y factores de transcripción, no existe una base de datos central (similar a GenBank en el Centro Nacional de Información Biotecnológica ) para los sitios de unión del ADN. Aunque NCBI contempla la anotación del sitio de unión del ADN en sus secuencias de referencia ( RefSeq ), la mayoría de las presentaciones omiten esta información. Además, debido al éxito limitado de la bioinformática en la producción de herramientas eficientes de predicción del sitio de unión del ADN (las grandes tasas de falsos positivos a menudo se asocian con los métodos de descubrimiento de motivos / búsqueda de sitios in silico), no ha habido un esfuerzo sistemático para anotar computacionalmente estas características en genomas secuenciados.
Sin embargo, existen varias bases de datos públicas y privadas dedicadas a la recopilación de sitios de unión informados experimentalmente y, a veces, predichos computacionalmente, para diferentes factores de transcripción en diferentes organismos. A continuación se presenta una tabla no exhaustiva de bases de datos disponibles:
Una colección de sitios de unión de ADN, típicamente denominada motivo de unión de ADN, puede representarse mediante una secuencia de consenso . Esta representación tiene la ventaja de ser compacta, pero a costa de ignorar una cantidad sustancial de información. [15] Una forma más precisa de representar los sitios de unión es a través de Matrices de Frecuencia Específica de Posición (PSFM). Estas matrices brindan información sobre la frecuencia de cada base en cada posición del motivo de unión de ADN. [3] Las PSFM generalmente se conciben con el supuesto implícito de independencia posicional (diferentes posiciones en el sitio de unión de ADN contribuyen independientemente a la función del sitio), aunque este supuesto ha sido cuestionado para algunos sitios de unión de ADN. [16] La información de frecuencia en una PSFM se puede interpretar formalmente en el marco de la Teoría de la Información , [17] lo que lleva a su representación gráfica como un logotipo de secuencia .
PSFM para el represor transcripcional LexA , derivado de 56 sitios de unión de LexA almacenados en Prodoric. Las frecuencias relativas se obtienen dividiendo los recuentos en cada célula por el recuento total (56)
En bioinformática , se pueden distinguir dos problemas separados con respecto a los sitios de unión del ADN: la búsqueda de miembros adicionales de un motivo de unión del ADN conocido (el problema de búsqueda del sitio) y el descubrimiento de nuevos motivos de unión del ADN en colecciones de secuencias funcionalmente relacionadas (el problema del descubrimiento del motivo de la secuencia ). [18] Se han propuesto muchos métodos diferentes para buscar sitios de unión. La mayoría de ellos se basan en los principios de la teoría de la información y tienen servidores web disponibles (Yellaboina) (Munch), mientras que otros autores han recurrido a métodos de aprendizaje automático , como las redes neuronales artificiales . [3] [19] [20] También hay una gran cantidad de algoritmos disponibles para el descubrimiento de motivos de secuencia . Estos métodos se basan en la hipótesis de que un conjunto de secuencias comparten un motivo de unión por razones funcionales. Los métodos de descubrimiento de motivos de unión se pueden dividir aproximadamente en enumerativos, deterministas y estocásticos. [21] MEME [22] y Consensus [23] son ejemplos clásicos de optimización determinista, mientras que el muestreador de Gibbs [24] es la implementación convencional de un método puramente estocástico para el descubrimiento de motivos de unión al ADN. Otro ejemplo de esta clase de métodos es SeSiMCMC [25] que se centra en sitios TFBS débiles con simetría. Mientras que los métodos enumerativos a menudo recurren a la representación de los sitios de unión mediante expresiones regulares , PSFM y su tratamiento formal bajo métodos de teoría de la información son la representación de elección tanto para métodos deterministas como estocásticos. Los métodos híbridos, por ejemplo ChIPMunk [26] que combina la optimización voraz con el submuestreo, también utilizan PSFM. Los avances recientes en secuenciación han llevado a la introducción de enfoques de genómica comparativa para el descubrimiento de motivos de unión al ADN, como lo ejemplifica PhyloGibbs. [27] [28]
Los métodos más complejos para la búsqueda de sitios de unión y el descubrimiento de motivos se basan en el apilamiento de bases y otras interacciones entre bases de ADN, pero debido a los pequeños tamaños de muestra normalmente disponibles para los sitios de unión en el ADN, su eficiencia aún no se aprovecha por completo. Un ejemplo de dicha herramienta es el ULPB [29].