La complejidad de secuencia lingüística (LC) es una medida de la 'riqueza de vocabulario' de un texto genético en secuencias de genes . [1] Cuando una secuencia de nucleótidos se escribe como texto utilizando un alfabeto de cuatro letras, la repetitividad del texto, es decir, la repetición de sus N-gramas (palabras), se puede calcular y sirve como una medida de la complejidad de la secuencia. Por lo tanto, cuanto más compleja sea una secuencia de ADN , más rico será su vocabulario de oligonucleótidos , mientras que las secuencias repetitivas tienen complejidades relativamente menores. El trabajo posterior mejoró el algoritmo original descrito en Trifonov (1990), [1] sin cambiar la esencia del enfoque de la complejidad lingüística. [2] [3] [4]
El significado de LC puede entenderse mejor considerando la presentación de una secuencia como un árbol de todas las subsecuencias de la secuencia dada. Las secuencias más complejas tienen árboles máximamente equilibrados, mientras que la medida de desequilibrio o asimetría del árbol sirve como una medida de complejidad . El número de nodos en el nivel de árbol i es igual al tamaño real del vocabulario de palabras con la longitud i en una secuencia dada; el número de nodos en el árbol más equilibrado, que corresponde a la secuencia más compleja de longitud N, en el nivel de árbol i es 4 i o N-i+1, lo que sea menor. La complejidad ( C ) de un fragmento de secuencia (con una longitud RW) se puede calcular directamente como el producto de las medidas de uso del vocabulario (U i ): [2]
El uso del vocabulario para oligómeros de un tamaño dado i puede definirse como la relación entre el tamaño real del vocabulario de una secuencia dada y el tamaño máximo posible del vocabulario para una secuencia de esa longitud. Por ejemplo, U 2 para la secuencia ACGGGAAGCTGATTCCA = 14/16, ya que contiene 14 de los 16 posibles dinucleótidos diferentes; U 3 para la misma secuencia = 15/15, y U 4 = 14/14. Para la secuencia ACACACACACACACACA, U 1 = 1/2; U 2 = 2/16 = 0,125, ya que tiene un vocabulario simple de solo dos dinucleótidos; U 3 para esta secuencia = 2/15. Se consideran k-tuplas con k de dos a W, mientras que W depende de RW. Para valores de RW menores de 18, W es igual a 3; para RW menores de 67, W es igual a 4; para RW < 260, W = 5; para RW<1029, W=6, y así sucesivamente. El valor de C proporciona una medida de la complejidad de la secuencia en el rango 0<C<1 para varios fragmentos de secuencia de ADN de una longitud dada. [2] Esta fórmula es diferente de la medida LC original [1] en dos aspectos: en la forma en que se calcula el uso del vocabulario U i , y porque i no está en el rango de 2 a N-1 sino solo hasta W. Esta limitación en el rango de U i hace que el algoritmo sea sustancialmente más eficiente sin pérdida de potencia. [2] En [5] [ aclaración necesaria ] se utilizó otra versión modificada, en la que la complejidad lingüística (LC) se define como la relación entre el número de subcadenas de cualquier longitud presentes en la cadena y el número máximo posible de subcadenas. El vocabulario máximo sobre tamaños de palabra de 1 a m se puede calcular de acuerdo con la fórmula simple . [5] Este cálculo de complejidad del análisis de secuencia se puede utilizar para buscar regiones conservadas entre secuencias comparadas para la detección de regiones de baja complejidad, incluidas repeticiones de secuencias simples, repeticiones directas o invertidas imperfectas, estructuras de ADN de triple cadena de polipurina y polipirimidina y estructuras de cuatro cadenas (como G-quadruplexes ). [6]