Un par de bases ( pb ) es una unidad fundamental de los ácidos nucleicos bicatenarios que consiste en dos nucleobases unidas entre sí por enlaces de hidrógeno . Forman los bloques de construcción de la doble hélice del ADN y contribuyen a la estructura plegada tanto del ADN como del ARN . Dictados por patrones específicos de enlaces de hidrógeno , los pares de bases "Watson-Crick" (o "Watson-Crick-Franklin") ( guanina - citosina y adenina - timina ) [1] permiten que la hélice del ADN mantenga una estructura helicoidal regular que depende sutilmente de su secuencia de nucleótidos . [2] La naturaleza complementaria de esta estructura de pares de bases proporciona una copia redundante de la información genética codificada dentro de cada hebra de ADN. La estructura regular y la redundancia de datos proporcionada por la doble hélice del ADN hacen que el ADN sea muy adecuado para el almacenamiento de información genética, mientras que el apareamiento de bases entre el ADN y los nucleótidos entrantes proporciona el mecanismo a través del cual la ADN polimerasa replica el ADN y la ARN polimerasa transcribe el ADN en ARN. Muchas proteínas que se unen al ADN pueden reconocer patrones específicos de apareamiento de bases que identifican regiones reguladoras particulares de los genes.
Los pares de bases intramoleculares pueden ocurrir dentro de ácidos nucleicos monocatenarios. Esto es particularmente importante en moléculas de ARN (p. ej., ARN de transferencia ), donde los pares de bases Watson-Crick (guanina-citosina y adenina- uracilo ) permiten la formación de hélices cortas de doble cadena, y una amplia variedad de interacciones no Watson-Crick (p. ej., G-U o A-A) permiten que los ARN se plieguen en una amplia gama de estructuras tridimensionales específicas . Además, el apareamiento de bases entre el ARN de transferencia (ARNt) y el ARN mensajero (ARNm) forma la base para los eventos de reconocimiento molecular que dan como resultado que la secuencia de nucleótidos del ARNm se traduzca en la secuencia de aminoácidos de las proteínas a través del código genético .
El tamaño de un gen individual o del genoma completo de un organismo se mide a menudo en pares de bases porque el ADN suele ser bicatenario. Por lo tanto, el número total de pares de bases es igual al número de nucleótidos en una de las hebras (con la excepción de las regiones monocatenarias no codificantes de los telómeros ). Se estima que el genoma humano haploide (23 cromosomas ) tiene una longitud de unos 3200 millones de pares de bases y contiene entre 20 000 y 25 000 genes codificadores de proteínas distintos. [3] [4] [5] [6] Una kilobase (kb) es una unidad de medida en biología molecular igual a 1000 pares de bases de ADN o ARN. [7] El número total de pares de bases de ADN en la Tierra se estima en 5,0 × 1037 con un peso de 50 mil millones de toneladas . [8] En comparación, se ha estimado que la masa total de la biosfera es de hasta 4 TtC (billones de toneladas de carbono ). [9]
El enlace de hidrógeno es la interacción química que subyace a las reglas de apareamiento de bases descritas anteriormente. La correspondencia geométrica apropiada de los donantes y aceptores de enlaces de hidrógeno permite que solo los pares "correctos" se formen de manera estable. El ADN con un alto contenido de GC es más estable que el ADN con un bajo contenido de GC. Sin embargo, las interacciones de apilamiento son las principales responsables de estabilizar la estructura de doble hélice; la contribución del apareamiento de bases Watson-Crick a la estabilidad estructural global es mínima, pero su papel en la especificidad que subyace a la complementariedad es, por el contrario, de máxima importancia, ya que subyace a los procesos dependientes de la plantilla del dogma central (por ejemplo, la replicación del ADN ). [10]
Las nucleobases más grandes , adenina y guanina, son miembros de una clase de estructuras químicas de doble anillo llamadas purinas ; las nucleobases más pequeñas, citosina y timina (y uracilo), son miembros de una clase de estructuras químicas de un solo anillo llamadas pirimidinas . Las purinas son complementarias solo con las pirimidinas: los emparejamientos pirimidina-pirimidina son energéticamente desfavorables porque las moléculas están demasiado separadas para que se establezcan enlaces de hidrógeno; los emparejamientos purina-purina son energéticamente desfavorables porque las moléculas están demasiado cerca, lo que lleva a una repulsión por superposición. El apareamiento de bases purina-pirimidina de AT o GC o UA (en ARN) da como resultado una estructura dúplex adecuada. Los únicos otros emparejamientos purina-pirimidina serían AC y GT y UG (en ARN); estos emparejamientos son desajustes porque los patrones de donantes y aceptores de hidrógeno no se corresponden. El emparejamiento GU, con dos enlaces de hidrógeno, ocurre con bastante frecuencia en el ARN (ver par de bases oscilantes ).
Las moléculas de ADN y ARN emparejadas son relativamente estables a temperatura ambiente, pero las dos cadenas de nucleótidos se separarán por encima de un punto de fusión que está determinado por la longitud de las moléculas, el grado de emparejamiento incorrecto (si lo hay) y el contenido de GC. Un mayor contenido de GC da como resultado temperaturas de fusión más altas; por lo tanto, no es sorprendente que los genomas de organismos extremófilos como Thermus thermophilus sean particularmente ricos en GC. Por el contrario, las regiones de un genoma que necesitan separarse con frecuencia (por ejemplo, las regiones promotoras de genes que se transcriben a menudo ) son comparativamente pobres en GC (por ejemplo, consulte el recuadro TATA ). El contenido de GC y la temperatura de fusión también deben tenerse en cuenta al diseñar cebadores para reacciones de PCR . [ cita requerida ]
Las siguientes secuencias de ADN ilustran patrones de doble cadena en pares. Por convención, la cadena superior se escribe desde el extremo 5′ hasta el extremo 3′ ; por lo tanto, la cadena inferior se escribe de 3′ a 5′.
ATCGATTGAGCTCTAGCG
TAGCTAACTCGAGATCGC
AUCGAUUGAGCUCUAGCG
UAGCUAACUCGAGAUCGC
Los análogos químicos de los nucleótidos pueden ocupar el lugar de los nucleótidos adecuados y establecer un apareamiento de bases no canónico, lo que conduce a errores (principalmente mutaciones puntuales ) en la replicación y transcripción del ADN . Esto se debe a su química isostérica . Un análogo de base mutagénico común es el 5-bromouracilo , que se parece a la timina pero puede aparearse con la guanina en su forma enólica . [11]
Otros productos químicos, conocidos como intercaladores de ADN , encajan en el hueco entre bases adyacentes en una sola hebra e inducen mutaciones por desplazamiento del marco de lectura "haciéndose pasar" por una base, lo que hace que la maquinaria de replicación del ADN se salte o inserte nucleótidos adicionales en el sitio intercalado. La mayoría de los intercaladores son compuestos poliaromáticos grandes y se sabe o se sospecha que son carcinógenos . Algunos ejemplos incluyen el bromuro de etidio y la acridina . [12] [ cita requerida ]
Los pares de bases desapareados pueden generarse por errores de replicación del ADN y como intermediarios durante la recombinación homóloga . El proceso de reparación de desajustes normalmente debe reconocer y reparar correctamente una pequeña cantidad de pares de bases desapareados dentro de una secuencia larga de pares de bases de ADN normales. Para reparar los desajustes formados durante la replicación del ADN, se han desarrollado varios procesos de reparación distintivos para distinguir entre la cadena molde y la cadena recién formada de modo que solo se elimine el nucleótido incorrecto recién insertado (para evitar generar una mutación). [13] Las proteínas empleadas en la reparación de desajustes durante la replicación del ADN y la importancia clínica de los defectos en este proceso se describen en el artículo Reparación de desajustes del ADN . El proceso de corrección de desajustes durante la recombinación se describe en el artículo Conversión génica .
Las siguientes abreviaturas se utilizan comúnmente para describir la longitud de una molécula de D/R NA :
Para el ADN/ARN monocatenario, se utilizan unidades de nucleótidos (abreviadas como nt (o knt, Mnt, Gnt)), ya que no están emparejadas. Para distinguir entre unidades de almacenamiento informático y bases, se pueden utilizar kbp, Mbp, Gbp, etc. para los pares de bases.
El centimorgan también se utiliza a menudo para indicar la distancia a lo largo de un cromosoma, pero el número de pares de bases al que corresponde varía ampliamente. En el genoma humano, el centimorgan equivale a aproximadamente un millón de pares de bases. [15] [16]
Un par de bases no naturales (UBP) es una subunidad diseñada (o nucleobase ) de ADN que se crea en un laboratorio y no se produce en la naturaleza. Se han descrito secuencias de ADN que utilizan nucleobases recién creadas para formar un tercer par de bases, además de los dos pares de bases que se encuentran en la naturaleza, AT ( adenina – timina ) y GC ( guanina – citosina ). Algunos grupos de investigación han estado buscando un tercer par de bases para el ADN, incluidos los equipos dirigidos por Steven A. Benner , Philippe Marliere, Floyd E. Romesberg e Ichiro Hirao. [17] Se han informado algunos nuevos pares de bases basados en enlaces de hidrógeno alternativos, interacciones hidrofóbicas y coordinación de metales. [18] [19] [20] [21]
En 1989, Steven Benner (que entonces trabajaba en el Instituto Federal Suizo de Tecnología de Zúrich) y su equipo introdujeron formas modificadas de citosina y guanina en moléculas de ADN in vitro . [22] Los nucleótidos, que codificaban ARN y proteínas, se replicaron con éxito in vitro . Desde entonces, el equipo de Benner ha estado tratando de diseñar células que puedan producir bases extrañas desde cero, evitando la necesidad de una materia prima. [23]
En 2002, el grupo de Ichiro Hirao en Japón desarrolló un par de bases no natural entre 2-amino-8-(2-tienil)purina (s) y piridina-2-ona (y) que funciona en la transcripción y traducción, para la incorporación específica del sitio de aminoácidos no estándar en proteínas. [24] En 2006, crearon 7-(2-tienil)imidazo[4,5-b]piridina (Ds) y pirrol-2-carbaldehído (Pa) como un tercer par de bases para la replicación y la transcripción. [25] Posteriormente, se descubrió que Ds y 4-[3-(6-aminohexanamido)-1-propinil]-2-nitropirrol (Px) eran un par de alta fidelidad en la amplificación por PCR. [26] [27] En 2013, aplicaron el par Ds-Px a la generación de aptámeros de ADN mediante selección in vitro (SELEX) y demostraron que la expansión del alfabeto genético aumenta significativamente las afinidades de los aptámeros de ADN con las proteínas objetivo. [28]
En 2012, un grupo de científicos estadounidenses dirigido por Floyd Romesberg, un biólogo químico del Instituto de Investigación Scripps en San Diego, California, publicó que su equipo diseñó un par de bases no naturales (UBP). [20] Los dos nuevos nucleótidos artificiales o pares de bases no naturales (UBP) se denominaron d5SICS y dNaM . Más técnicamente, estos nucleótidos artificiales que llevan nucleobases hidrófobas , presentan dos anillos aromáticos fusionados que forman un complejo (d5SICS–dNaM) o par de bases en el ADN. [23] [29] Su equipo diseñó una variedad de plantillas in vitro o "de tubo de ensayo" que contenían el par de bases no naturales y confirmaron que se replicaba de manera eficiente con alta fidelidad en prácticamente todos los contextos de secuencia utilizando las técnicas in vitro estándar modernas , a saber, la amplificación por PCR del ADN y las aplicaciones basadas en PCR. [20] Sus resultados muestran que para PCR y aplicaciones basadas en PCR, el par de bases no naturales d5SICS–dNaM es funcionalmente equivalente a un par de bases naturales, y cuando se combina con los otros dos pares de bases naturales utilizados por todos los organismos, A–T y G–C, proporcionan un "alfabeto genético" de seis letras completamente funcional y ampliado. [29]
En 2014, el mismo equipo del Scripps Research Institute informó que sintetizaron un tramo de ADN circular conocido como plásmido que contiene pares de bases TA y CG naturales junto con el UBP de mejor rendimiento que el laboratorio de Romesberg había diseñado y lo insertaron en células de la bacteria común E. coli que replicó con éxito los pares de bases no naturales a través de múltiples generaciones. [17] La transfección no obstaculizó el crecimiento de las células de E. coli y no mostró signos de perder sus pares de bases no naturales a sus mecanismos naturales de reparación del ADN . Este es el primer ejemplo conocido de un organismo vivo que transmite un código genético expandido a las generaciones posteriores. [29] [30] Romesberg dijo que él y sus colegas crearon 300 variantes para refinar el diseño de nucleótidos que serían lo suficientemente estables y se replicarían tan fácilmente como los naturales cuando las células se dividen. Esto se logró en parte mediante la adición de un gen de alga de apoyo que expresa un transportador de trifosfato de nucleótidos que importa de manera eficiente los trifosfatos de d5SICSTP y dNaMTP a las bacterias E. coli . [29] Luego, las vías de replicación bacterianas naturales los utilizan para replicar con precisión un plásmido que contiene d5SICS–dNaM. Otros investigadores se sorprendieron de que las bacterias replicaran estas subunidades de ADN creadas por el hombre. [31]
La incorporación exitosa de un tercer par de bases es un avance significativo hacia el objetivo de expandir en gran medida el número de aminoácidos que pueden ser codificados por el ADN, de los 20 aminoácidos existentes a los 172 teóricamente posibles, expandiendo así el potencial de los organismos vivos para producir nuevas proteínas . [17] Las cadenas artificiales de ADN aún no codifican nada, pero los científicos especulan que podrían ser diseñadas para fabricar nuevas proteínas que podrían tener usos industriales o farmacéuticos. [32] Los expertos dijeron que el ADN sintético que incorpora el par de bases no natural plantea la posibilidad de formas de vida basadas en un código de ADN diferente. [31] [32]
Además del apareamiento canónico, algunas condiciones también pueden favorecer el apareamiento de bases con orientación de bases alternativa y número y geometría de enlaces de hidrógeno. Estos apareamientos se acompañan de alteraciones en la forma de la cadena principal local. [ cita requerida ]
El más común de ellos es el apareamiento de bases oscilante que ocurre entre los ARNt y los ARNm en la tercera posición de base de muchos codones durante la transcripción [34] y durante la carga de los ARNt por algunas sintetasas de ARNt . [35] También se han observado en las estructuras secundarias de algunas secuencias de ARN. [36]
Además, el apareamiento de bases de Hoogsteen (normalmente escrito como A•U/T y G•C) puede existir en algunas secuencias de ADN (por ejemplo, dinucleótidos CA y TA) en equilibrio dinámico con el apareamiento estándar de Watson-Crick. [33] También se han observado en algunos complejos proteína-ADN. [37]
Además de estos pares de bases alternativos, se observa una amplia gama de enlaces de hidrógeno base-base en la estructura secundaria y terciaria del ARN. [38] Estos enlaces suelen ser necesarios para la forma precisa y compleja de un ARN, así como para su unión a los socios de interacción. [38]
en presencia de una acridina resulta en la adición o eliminación de un solo par de bases.
en los humanos, 1 centimorgan en promedio representa una distancia de aproximadamente 7,5x10 5 pares de bases.