Complejidad de secuencia lingüística

La complejidad de secuencia lingüística (LC) es una medida de la 'riqueza de vocabulario' de un texto genético en secuencias de genes . ^[1] Cuando una secuencia de nucleótidos se escribe como texto utilizando un alfabeto de cuatro letras, la repetitividad del texto, es decir, la repetición de sus N-gramas (palabras), se puede calcular y sirve como una medida de la complejidad de la secuencia. Por lo tanto, cuanto más compleja sea una secuencia de ADN , más rico será su vocabulario de oligonucleótidos , mientras que las secuencias repetitivas tienen complejidades relativamente menores. El trabajo posterior mejoró el algoritmo original descrito en Trifonov (1990), ^[1] sin cambiar la esencia del enfoque de la complejidad lingüística. ^[2]^[3]^[4]

El significado de LC puede entenderse mejor considerando la presentación de una secuencia como un árbol de todas las subsecuencias de la secuencia dada. Las secuencias más complejas tienen árboles máximamente equilibrados, mientras que la medida de desequilibrio o asimetría del árbol sirve como una medida de complejidad . El número de nodos en el nivel de árbol $i$ es igual al tamaño real del vocabulario de palabras con la longitud $i$ en una secuencia dada; el número de nodos en el árbol más equilibrado, que corresponde a la secuencia más compleja de longitud N, en el nivel de árbol $i$ es 4 ⁱ o N-i+1, lo que sea menor. La complejidad ( $C$ ) de un fragmento de secuencia (con una longitud RW) se puede calcular directamente como el producto de las medidas de uso del vocabulario (U _i ): ^[2]

$C=U_{1}U_{2}....U_{i}....U_{w}$

El uso del vocabulario para oligómeros de un tamaño dado $i$ puede definirse como la relación entre el tamaño real del vocabulario de una secuencia dada y el tamaño máximo posible del vocabulario para una secuencia de esa longitud. Por ejemplo, U ₂ para la secuencia ACGGGAAGCTGATTCCA = 14/16, ya que contiene 14 de los 16 posibles dinucleótidos diferentes; U ₃ para la misma secuencia = 15/15, y U ₄ = 14/14. Para la secuencia ACACACACACACACACA, U ₁ = 1/2; U ₂ = 2/16 = 0,125, ya que tiene un vocabulario simple de solo dos dinucleótidos; U ₃ para esta secuencia = 2/15. Se consideran k-tuplas con k de dos a W, mientras que W depende de RW. Para valores de RW menores de 18, W es igual a 3; para RW menores de 67, W es igual a 4; para RW < 260, W = 5; para RW<1029, W=6, y así sucesivamente. El valor de $C$ proporciona una medida de la complejidad de la secuencia en el rango 0<C<1 para varios fragmentos de secuencia de ADN de una longitud dada. ^[2] Esta fórmula es diferente de la medida LC original ^[1] en dos aspectos: en la forma en que se calcula el uso del vocabulario U _{i , y porque} $i$ no está en el rango de 2 a N-1 sino solo hasta W. Esta limitación en el rango de U _i hace que el algoritmo sea sustancialmente más eficiente sin pérdida de potencia. ^[2] En ^[5] ^{[ aclaración necesaria ]} se utilizó otra versión modificada, en la que la complejidad lingüística (LC) se define como la relación entre el número de subcadenas de cualquier longitud presentes en la cadena y el número máximo posible de subcadenas. El vocabulario máximo sobre tamaños de palabra de 1 a m se puede calcular de acuerdo con la fórmula simple . ^[5] Este cálculo de complejidad del análisis de secuencia se puede utilizar para buscar regiones conservadas entre secuencias comparadas para la detección de regiones de baja complejidad, incluidas repeticiones de secuencias simples, repeticiones directas o invertidas imperfectas, estructuras de ADN de triple cadena de polipurina y polipirimidina y estructuras de cuatro cadenas (como G-quadruplexes ). ^[6]

Referencias

^ abc Edward N. Trifonov (1990). "Dando sentido al genoma humano". Estructura y métodos, vol. 1. Iniciativa Genoma Humano y Recombinación del ADN; Actas de la Sexta Conversación en la Disciplina Estereodinámica Biomolecular. Albany, Nueva York: Adenine Press. págs. 69–77.
^ abcd Gabrielian, A. (1999). "Complejidad de secuencia y curvatura del ADN". Computers & Chemistry . 23 (3–4): 263–274. doi :10.1016/S0097-8485(99)00007-8. PMID 10404619.
^ Orlov, YL; Potapov, VN (2004). "Complejidad: un recurso de Internet para el análisis de la complejidad de la secuencia de ADN". Nucleic Acids Research . 32 (número del servidor web): W628–W633. doi :10.1093/nar/gkh466. PMC 441604 . PMID 15215465.
^ Janson, S.; Lonardi, S.; Szpankowski, W. (2004). "Complejidad de secuencia promedio". Ciencias de la Computación Teórica . 326 (1–3): 213–227. doi : 10.1016/j.tcs.2004.06.023 .
^ ab Troyanskaya, OG; Arbell, O.; Koren, Y.; Landau, GM; Bolshoy, A. (2002). "Perfiles de complejidad de secuencias de secuencias genómicas procariotas: un algoritmo rápido para calcular la complejidad lingüística". Bioinformática . 18 (5): 679–88. doi : 10.1093/bioinformatics/18.5.679 . PMID 12050064.
^ Kalendar, R.; Lee, D.; Schulman, AH (2011). "Herramientas web Java para PCR, PCR in silico y ensamblaje y análisis de oligonucleótidos". Genómica . 98 (2): 137–144. doi :10.1016/j.ygeno.2011.04.009. PMID 21569836.