En biología molecular y genética , el contenido de GC (o contenido de guanina-citosina ) es el porcentaje de bases nitrogenadas en una molécula de ADN o ARN que son guanina (G) o citosina (C). [1] Esta medida indica la proporción de bases G y C de un total implícito de cuatro bases, que también incluyen adenina y timina en el ADN y adenina y uracilo en el ARN.
El contenido de GC puede indicarse para un determinado fragmento de ADN o ARN o para un genoma completo . Cuando se refiere a un fragmento, puede indicar el contenido de GC de un gen individual o una sección de un gen (dominio), un grupo de genes o grupos de genes, una región no codificante o un oligonucleótido sintético como un cebador .
Cualitativamente, la guanina (G) y la citosina (C) se unen entre sí mediante un enlace de hidrógeno específico, mientras que la adenina (A) se une específicamente con la timina (T) en el ADN y con el uracilo (U) en el ARN. Cuantitativamente, cada par de bases GC se mantiene unido mediante tres enlaces de hidrógeno, mientras que los pares de bases AT y AU se mantienen unidos mediante dos enlaces de hidrógeno. Para enfatizar esta diferencia, los emparejamientos de bases se representan a menudo como "G≡C" frente a "A=T" o "A=U".
El ADN con bajo contenido de GC es menos estable que el ADN con alto contenido de GC; sin embargo, los enlaces de hidrógeno en sí mismos no tienen un impacto particularmente significativo en la estabilidad molecular, que en cambio es causada principalmente por interacciones moleculares de apilamiento de bases. [2] A pesar de la mayor termoestabilidad conferida a un ácido nucleico con alto contenido de GC, se ha observado que al menos algunas especies de bacterias con ADN de alto contenido de GC experimentan autólisis más fácilmente, reduciendo así la longevidad de la célula per se . [3] Debido a la termoestabilidad de los pares de GC, alguna vez se presumió que el alto contenido de GC era una adaptación necesaria a altas temperaturas, pero esta hipótesis fue refutada en 2001. [4] Aun así, se ha demostrado que existe una fuerte correlación entre el crecimiento óptimo de procariotas a temperaturas más altas y el contenido de GC de ARN estructurales como el ARN ribosómico , el ARN de transferencia y muchos otros ARN no codificantes . [4] [5] Los pares de bases AU son menos estables que los pares de bases GC, lo que hace que las estructuras de ARN con alto contenido de GC sean más resistentes a los efectos de las altas temperaturas.
Más recientemente, se ha demostrado que el factor más importante que contribuye a la estabilidad térmica de los ácidos nucleicos bicatenarios se debe en realidad a los apilamientos de bases adyacentes en lugar del número de enlaces de hidrógeno entre las bases. Existe una energía de apilamiento más favorable para los pares GC que para los pares AT o AU debido a las posiciones relativas de los grupos exocíclicos. Además, existe una correlación entre el orden en el que se apilan las bases y la estabilidad térmica de la molécula en su conjunto. [6]
El contenido de GC se expresa generalmente como un valor porcentual, pero a veces como una proporción (llamada proporción G+C o proporción GC ). El porcentaje de contenido de GC se calcula como [7]
Mientras que la relación AT/GC se calcula como [8]
Los porcentajes de contenido de GC, así como la proporción de GC, se pueden medir por varios medios, pero uno de los métodos más simples es medir la temperatura de fusión de la doble hélice de ADN mediante espectrofotometría . La absorbancia del ADN a una longitud de onda de 260 nm aumenta bastante bruscamente cuando la molécula de ADN de doble cadena se separa en dos cadenas simples cuando se calienta lo suficiente. [9] El protocolo más comúnmente utilizado para determinar las proporciones de GC utiliza la citometría de flujo para grandes cantidades de muestras. [10]
De manera alternativa, si la molécula de ADN o ARN bajo investigación ha sido secuenciada de manera confiable , entonces el contenido de GC se puede calcular con precisión mediante aritmética simple o utilizando una variedad de herramientas de software disponibles públicamente, como la calculadora de GC en línea gratuita.
Se ha descubierto que la proporción de GC dentro de un genoma es marcadamente variable. Estas variaciones en la proporción de GC dentro de los genomas de organismos más complejos dan como resultado una formación similar a un mosaico con regiones de islotes llamadas isocoros . [11] Esto da como resultado variaciones en la intensidad de tinción en los cromosomas . [12] Los isocoros ricos en GC generalmente incluyen muchos genes codificadores de proteínas dentro de ellos y, por lo tanto, la determinación de las proporciones de GC de estas regiones específicas contribuye al mapeo de las regiones ricas en genes del genoma. [13] [14]
Dentro de una región larga de secuencia genómica, los genes se caracterizan a menudo por tener un contenido de GC más alto en contraste con el contenido de GC de fondo para todo el genoma. [15] Hay evidencia de que la longitud de la región codificante de un gen es directamente proporcional a un mayor contenido de G+C. [16] Esto se ha señalado al hecho de que el codón de terminación tiene un sesgo hacia los nucleótidos A y T y, por lo tanto, cuanto más corta sea la secuencia, mayor será el sesgo AT. [17]
La comparación de más de 1000 genes ortólogos en mamíferos mostró marcadas variaciones dentro del genoma del contenido de GC en la posición del tercer codón , con un rango de menos del 30% a más del 80%. [18]
Se ha descubierto que el contenido de GC es variable entre diferentes organismos, y se cree que el proceso se ve afectado por la variación en la selección , el sesgo mutacional y la reparación del ADN asociada a la recombinación sesgada . [19]
El contenido promedio de GC en los genomas humanos varía de 35% a 60% a través de fragmentos de 100-Kb, con una media de 41%. [20] El contenido de GC de la levadura ( Saccharomyces cerevisiae ) es de 38%, [21] y el de otro organismo modelo común , el berro de thale ( Arabidopsis thaliana ), es de 36%. [22] Debido a la naturaleza del código genético , es virtualmente imposible para un organismo tener un genoma con un contenido de GC que se acerque al 0% o al 100%. Sin embargo, una especie con un contenido de GC extremadamente bajo es Plasmodium falciparum (GC% = ~20%), [23] y es usualmente común referirse a tales ejemplos como ricos en AT en lugar de pobres en GC. [24]
Varias especies de mamíferos (por ejemplo, musaraña , murciélago , tenrec y conejo ) han experimentado de forma independiente un marcado aumento del contenido de GC en sus genes. Estos cambios en el contenido de GC están correlacionados con los rasgos del ciclo de vida de las especies (por ejemplo, masa corporal o longevidad) y el tamaño del genoma [18] y podrían estar vinculados a un fenómeno molecular llamado conversión génica sesgada por GC [25] .
En los experimentos de reacción en cadena de la polimerasa (PCR), el contenido de GC de oligonucleótidos cortos, conocidos como cebadores, se utiliza a menudo para predecir su temperatura de hibridación con el ADN molde. Un nivel más alto de contenido de GC indica una temperatura de fusión relativamente más alta.
Muchas tecnologías de secuenciación, como la de Illumina , tienen problemas para leer secuencias con un alto contenido de GC. Se sabe que los genomas de las aves tienen muchas de esas partes, lo que provoca el problema de los "genes faltantes" que se esperaba que estuvieran presentes a partir de la evolución y el fenotipo, pero que nunca se secuenciaron, hasta que se utilizaron métodos mejorados. [26]
El problema de las especies en la taxonomía no eucariota ha llevado a varias sugerencias para clasificar las bacterias, y el comité ad hoc sobre la reconciliación de los enfoques de la sistemática bacteriana de 1987 ha recomendado el uso de proporciones de GC en la clasificación jerárquica de nivel superior. [27] Por ejemplo, los Actinomycetota se caracterizan como " bacterias con alto contenido de GC ". [28] En Streptomyces coelicolor A3(2), el contenido de GC es del 72%. [29] Con el uso de métodos más confiables y modernos de sistemática molecular, la definición de contenido de GC de Actinomycetota ha sido abolida y se han encontrado bacterias de bajo contenido de GC de este clado . [30]
GCSpeciesSorter [31] y TopSort [32] son herramientas de software para clasificar especies según su contenido GC.