Son utilizados para ensamblar secuencias de ADN,[1] mejorar la expresión génica heteróloga[2],[3] identificar especies en muestras metagenómicas,[4] y crear vacunas atenuadas.[5] Normalmente, el término k-mero hace referencia a todas las subsecuencias de longitudLa frecuencia en el uso del k-mero se ve afectada por numerosas fuerzas, que trabajan en múltiples niveles, a menudo, en conflicto.Los k-meros para valores más altos de k se ven afectados por las fuerzas que también afectan los valores más bajos de k. Por ejemplo, si el 1-mero A no ocurre en una secuencia, tampoco se producirá ninguno de los 2-meros que contienen A (AA, AT, AG y AC).[12] Este proceso, pese a ser diferente de la selección natural, puede ejercer una presión selectiva sobre el ADN al sesgar hacia los reemplazos por GC que se fijan en el genoma.[21] Esta interacción destaca la interrelación entre las fuerzas que afectan los k-meros para diferentes valores de k. Un hecho interesante acerca del sesgo hacia dinucléotidos es que este puede servir como medida de «distancia» entre genomas filogenéticamente similares.[18] Hay veinte aminoácidos naturales usados para construir las proteínas que el ADN codifica.Aun así, hay 64 trímeros distintos en el ADN, lo que es suficiente para representar inequívocamente cada aminoácido.Cuando k = 3, se debe hacer una distinción entre la verdadera frecuencia de los trímeros y la del CUB.Por ejemplo, la secuencia ATGGCA tiene cuatro palabras de longitud 3 dentro de ella (ATG, TGG, GGC y GCA), mientras que sólo contiene dos codones (ATG y GCA).[23] Esto sugiere que la selección por eficiencia o precisión traduccional es la fuerza impulsora detrás de la variación en el CUB.Similar al efecto visto en el sesgo hacia dinucleótidos, los sesgos hacia tetranucleótidos de organismos filogenéticamente más relacionados son más parecidos entre sí que entre organismos menos emparentados.[4] Aunque no se conoce bien la causa exacta de la variación en este sesgo, se ha conjeturado que es el resultado del mantenimiento de la estabilidad genética a nivel molecular.No obstante, el problema con la secuenciación es que sólo se generan fracciones pequeñas de todos los 100-meros (hectómeros) posibles presentes en el genoma.La solución a este problema es dividir las lecturas en k-meros más pequeños, de modo que estos representen todos los posibles k-meros de ese tamaño más pequeño presentes en el genoma.En este ejemplo, las cinco lecturas no representan todos los posibles heptámeros del genoma y, como tal, no se puede crear un gráfico de De Bruijn.Más allá de ser utilizados directamente para ensamblaje de secuencias, los k-meros pueden usarse para detectar el ensamblaje erróneo del genoma al identificar k-meros sobrerrepresentados, lo cual sugiere que secuencias de ADN repetitivo han sido combinadas.[11] Además, existen trabajos donde se ha demostrado que los sesgos por tetranucleótidos son capaces de detectar eficazmente transferencia horizontal de genes tanto en procariotas[32] como en eucariotas.[33] Otra aplicación de los k-meros está en la taxonomía basada en genómica.En el binning, el desafío es separar las lecturas de secuenciación en «contenedores» (bins en inglés) de lecturas para cada organismo (o unidad taxonómica operativa) para luego ensamblarlas.[54] En desarrollos recientes también se ha aplicado aprendizaje profundo al binning metagenómico mediante el uso de k-meros.[63] Si bien el virus recodificado contiene una secuencia de aminoácidos idéntica, presenta una patogenicidad significativamente menor pero provoca una respuesta inmunitaria fuerte.Este enfoque también se ha utilizado eficazmente para crear una vacuna contra la influenza,[64] y una vacuna contra el virus del herpes de la enfermedad de Marek (MDV).Al estudiar los virus y sus hospederos, ha sido posible concluir que el mecanismo molecular que da como resultado la atenuación de los virus es un aumento de dinucleótidos poco adecuados para la traducción.Para solucionar este problema, se han desarrollado varias herramientas:
Espectro de los 8-meros para
E. coli
. Se compara la frecuencia de los 8-meros, octámeros, (es decir, multiplicidades) con su número de ocurrencias.
Esta figura muestra el proceso de dividir las lecturas en
k
-meros más pequeños (4-meros en este caso) para poder usarlos en un gráfico de De Bruijn. (A) Se muestra el segmento inicial de ADN que se está secuenciando. (B) Se muestra las lecturas realizadas a partir de la secuenciación y cómo estas se alinean. El problema con esta alineación es que se superponen por
k - 2
, no por
k - 1
(que es necesario en los grafos de De Bruijn). (C) Se muestra las lecturas divididas en 4-meros más pequeños. (D) En este punto, se descarta los 4-meros repetidos y luego se muestra la alineación de estos. Estos k-meros se superponen por
k - 1
y luego se pueden usar en un gráfico de De Bruijn.