Motivo de secuencia

Un motivo de secuencia de ADN representado como un logotipo de secuencia para el motivo de unión a LexA.

En biología, un motivo de secuencia es un patrón de secuencia de nucleótidos o aminoácidos que está muy extendido y generalmente se supone que está relacionado con la función biológica de la macromolécula. Por ejemplo, un motivo del sitio de N- glicosilación se puede definir como Asn, seguido de cualquier residuo menos Pro, seguido de Ser o Thr, seguido de cualquier residuo menos Pro .

Descripción general

Cuando un motivo de secuencia aparece en el exón de un gen , puede codificar el " motivo estructural " de una proteína ; ese es un elemento estereotipado de la estructura general de la proteína. Sin embargo, los motivos no necesitan estar asociados con una estructura secundaria distintiva . Las secuencias " no codificantes " no se traducen en proteínas, y los ácidos nucleicos con tales motivos no necesitan desviarse de la forma típica (por ejemplo, la doble hélice de ADN en "forma B" ).

Fuera de los exones de genes, existen motivos de secuencia reguladora y motivos dentro de la " basura ", como el ADN satélite . Se cree que algunos de estos afectan la forma de los ácidos nucleicos ^[1] (ver, por ejemplo, el autoempalme del ARN ), pero esto sólo es así en ocasiones. Por ejemplo, muchas proteínas de unión al ADN que tienen afinidad por sitios de unión al ADN específicos se unen al ADN sólo en su forma de doble hélice. Son capaces de reconocer motivos a través del contacto con el surco mayor o menor de la doble hélice.

Los motivos de codificación cortos, que parecen carecer de estructura secundaria, incluyen aquellos que marcan proteínas para su entrega a partes particulares de una célula , o las marcan para su fosforilación .

Dentro de una secuencia o base de datos de secuencias, los investigadores buscan y encuentran motivos utilizando técnicas informáticas de análisis de secuencias , como BLAST . Estas técnicas pertenecen a la disciplina de la bioinformática . Véase también secuencia de consenso .

Representación del motivo

Considere el motivo del sitio de N -glicosilación mencionado anteriormente:

Asn, seguido de cualquier cosa menos Pro, seguido de Ser o Thr, seguido de cualquier cosa menos Pro

Este patrón se puede escribir como N{P}[ST]{P}donde N= Asn, P= Pro, S= Ser, T= Thr; {X}significa cualquier aminoácido excepto X; y [XY]significa o Xo Y.

La notación [XY]no da ninguna indicación de la probabilidad de que Xocurra Yel patrón. Las probabilidades observadas se pueden representar gráficamente mediante logotipos de secuencia . A veces los patrones se definen en términos de un modelo probabilístico como un modelo oculto de Markov .

Motivos y secuencias de consenso.

La notación [XYZ]significa Xo Yo Z, pero no indica la probabilidad de ninguna coincidencia en particular. Por esta razón, dos o más patrones suelen asociarse a un solo motivo: el patrón definitorio y varios patrones típicos.

Por ejemplo, se puede considerar que la secuencia definitoria del motivo IQ es:

[FILV]Qxxx[RK]Gxxx[RK]xx[FILVWY]

donde xsignifica cualquier aminoácido y los corchetes indican una alternativa (consulte a continuación para obtener más detalles sobre la notación).

Sin embargo, normalmente la primera letra es Iy ambas [RK]opciones se resuelven en R. Dado que la última opción es tan amplia, el patrón IQxxxRGxxxRa veces se equipara con el motivo IQ en sí, pero una descripción más precisa sería una secuencia de consenso para el motivo IQ .

Notaciones de descripción de patrones

Se utilizan varias notaciones para describir motivos, pero la mayoría de ellas son variantes de notaciones estándar para expresiones regulares y utilizan estas convenciones:

hay un alfabeto de caracteres individuales, cada uno de los cuales indica un aminoácido específico o un conjunto de aminoácidos;
una cadena de caracteres extraída del alfabeto indica una secuencia de los aminoácidos correspondientes;
cualquier cadena de caracteres extraída del alfabeto encerrada entre corchetes coincide con cualquiera de los aminoácidos correspondientes; por ejemplo, [abc]coincide con cualquiera de los aminoácidos representados por ao bo c.

La idea fundamental detrás de todas estas notaciones es el principio de correspondencia, que asigna un significado a una secuencia de elementos de la notación de patrón:

una secuencia de elementos de la notación de patrón coincide con una secuencia de aminoácidos si y sólo si esta última secuencia puede dividirse en subsecuencias de tal manera que cada elemento del patrón coincida a su vez con la subsecuencia correspondiente.

Por tanto, el patrón [AB] [CDE] Fcoincide con las seis secuencias de aminoácidos correspondientes a ACF, ADF, AEF, BCF, BDFy BEF.

Las diferentes notaciones de descripción de patrones tienen otras formas de formar elementos de patrón. Una de estas notaciones es la notación PROSITE, que se describe en la siguiente subsección.

Notación de patrón PROSITE

La notación PROSITE utiliza los códigos de una letra de la IUPAC y se ajusta a la descripción anterior con la excepción de que se utiliza un símbolo de concatenación, ' -', entre los elementos del patrón, pero a menudo se omite entre las letras del alfabeto del patrón.

PROSITE permite los siguientes elementos de patrón además de los descritos anteriormente:

La letra minúscula ' x' se puede utilizar como elemento de patrón para indicar cualquier aminoácido.
Una cadena de caracteres extraídos del alfabeto y encerrados entre llaves (llaves) denota cualquier aminoácido excepto los que están en la cadena. Por ejemplo, {ST}denota cualquier aminoácido distinto de So T.
Si un patrón está restringido al N-terminal de una secuencia, el patrón tiene el prefijo ' <'.
Si un patrón está restringido al C-terminal de una secuencia, el patrón tiene el sufijo ' >'.
El carácter ' >' también puede aparecer dentro de un patrón de corchetes de terminación, de modo que S[T>]coincida tanto con " ST" como con " S>".
Si ees un elemento de patrón y my nson dos números enteros decimales con m<= n, entonces:
- e(m)equivale a la repetición de tiempos eexactos ;m
- e(m,n)es equivalente a la repetición eexacta de ktiempos para cualquier número entero kque satisfaga: m<= k<= n.

Algunos ejemplos:

x(3)es equivalente a x-x-x.
x(2,4)coincide con cualquier secuencia que coincida x-xcon o x-x-xo x-x-x-x.

La firma del dominio de dedos de zinc tipo C2H2 es:

C-x(2,4)-C-x(3)-[LIVMFYWC]-x(8)-H-x(3,5)-H

matrices

Una matriz de números que contiene puntuaciones para cada residuo o nucleótido en cada posición de un motivo de longitud fija. Hay dos tipos de matrices de peso.

Una matriz de frecuencia de posición (PFM) registra la frecuencia dependiente de la posición de cada residuo o nucleótido. Los PFM pueden determinarse experimentalmente a partir de experimentos SELEX o descubrirse computacionalmente mediante herramientas como MEME utilizando modelos ocultos de Markov.
Una matriz de ponderación de posición (PWM) contiene ponderaciones logarítmicas de probabilidades para calcular la puntuación de un partido. Se necesita un límite para especificar si una secuencia de entrada coincide con el motivo o no. Los PWM se calculan a partir de los PFM. Los PWM también se conocen como PSSM.

Un ejemplo de PFM de la base de datos TRANSFAC para el factor de transcripción AP-1:

La primera columna especifica la posición, la segunda columna contiene el número de apariciones de A en esa posición, la tercera columna contiene el número de apariciones de C en esa posición, la cuarta columna contiene el número de apariciones de G en esa posición, la la quinta columna contiene el número de apariciones de T en esa posición, y la última columna contiene la notación IUPAC para esa posición. Tenga en cuenta que las sumas de ocurrencias de A, C, G y T para cada fila deben ser iguales porque el PFM se deriva de agregar varias secuencias de consenso.

Descubrimiento de motivos

Descripción general

El proceso de descubrimiento de motivos secuenciales ha estado bien desarrollado desde la década de 1990. En particular, la mayor parte de la investigación existente sobre descubrimiento de motivos se centra en motivos de ADN. Con los avances en la secuenciación de alto rendimiento, estos problemas de descubrimiento de motivos se ven desafiados tanto por los problemas de degeneración del patrón de secuencia como por los problemas de escalabilidad computacional con uso intensivo de datos.

Proceso de descubrimiento

El descubrimiento de motivos ocurre en tres fases principales. Una etapa de preprocesamiento donde se preparan minuciosamente las secuencias en los pasos de montaje y limpieza. El ensamblaje implica seleccionar secuencias que contienen el motivo deseado en grandes cantidades y extraer secuencias no deseadas mediante agrupación. Luego, la limpieza garantiza la eliminación de cualquier elemento confuso. Luego está la etapa de descubrimiento. En esta fase, las secuencias se representan mediante cadenas de consenso o matrices de peso específicas de posición (PWM ). Después de la representación del motivo, se elige una función objetivo y se aplica un algoritmo de búsqueda adecuado para descubrir los motivos. Finalmente, la etapa de posprocesamiento consiste en evaluar los motivos descubiertos. ^[2]

Descubrimiento de motivos de novo

Hay programas de software que, dadas múltiples secuencias de entrada, intentan identificar uno o más motivos candidatos. Un ejemplo es el algoritmo EM múltiple para obtención de motivos (MEME), que genera información estadística para cada candidato. ^[3] Hay más de 100 publicaciones que detallan algoritmos de descubrimiento de motivos; Weirauch et al . evaluó muchos algoritmos relacionados en un punto de referencia de 2013. ^[4] La búsqueda de motivos plantados es otro método de descubrimiento de motivos que se basa en un enfoque combinatorio.

Descubrimiento de motivos filogenéticos.

También se han descubierto motivos adoptando un enfoque filogenético y estudiando genes similares en diferentes especies. Por ejemplo, al alinear las secuencias de aminoácidos especificadas por el gen GCM ( células gliales faltantes ) en el hombre, el ratón y D. melanogaster , Akiyama y otros descubrieron un patrón al que llamaron motivo GCM en 1996. ^[5] Abarca alrededor de 150 residuos de aminoácidos, y comienza de la siguiente manera:

WDIND*.*P..*...D.F.*W***.**.IYS**...A.*H*S*WAMRNTNNHN

Aquí cada uno .significa un único aminoácido o una brecha, y cada uno *indica un miembro de una familia de aminoácidos estrechamente relacionada. Los autores pudieron demostrar que el motivo tiene actividad de unión al ADN.

Las bases de datos modernas de dominios de proteínas , como Pfam , suelen utilizar un enfoque similar : los curadores humanos seleccionarían un conjunto de secuencias que se sabe que están relacionadas y utilizarían programas informáticos para alinearlas y producir el perfil del motivo (Pfam utiliza HMM , que pueden utilizarse para identificar otras proteínas relacionadas. ^[6] También se puede utilizar un enfoque filogénico para mejorar el algoritmo MEME de novo , siendo PhyloGibbs un ejemplo. ^[7]

Descubrimiento de pareja de motivos de novo

En 2017, MotifHyades se desarrolló como una herramienta de descubrimiento de motivos que se puede aplicar directamente a secuencias emparejadas. ^[8]

Reconocimiento de motivos de novo a partir de proteínas.

En 2018, se propuso un enfoque de campo aleatorio de Markov para inferir motivos de ADN a partir de dominios de proteínas de unión al ADN . ^[9]

Algoritmos de descubrimiento de motivos

Los algoritmos de descubrimiento de motivos utilizan diversas estrategias para descubrir patrones en secuencias de ADN. La integración de enfoques enumerativos, probabilísticos e inspirados en la naturaleza demuestra su adaptabilidad, y el uso de múltiples métodos resulta eficaz para mejorar la precisión de la identificación.

Enfoque enumerativo: ^[2]

Al iniciar el viaje de descubrimiento de motivos, el enfoque enumerativo es testigo de cómo los algoritmos generan y evalúan meticulosamente motivos potenciales. Pioneras en este ámbito son las técnicas de enumeración de palabras simples, como YMF y DREME, que recorren sistemáticamente la secuencia en busca de motivos breves. Como complemento a estos, los métodos basados en agrupaciones, como CisFinder, emplean matrices de sustitución de nucleótidos para la agrupación de motivos, lo que mitiga eficazmente la redundancia. Al mismo tiempo, los métodos basados en árboles como Weeder y FMotif explotan estructuras de árboles, y los métodos basados en la teoría de gráficos (por ejemplo, WINNOWER) emplean representaciones gráficas, lo que demuestra la riqueza de las estrategias de enumeración.

Enfoque probabilístico: ^[2]

Este enfoque, que se adentra en el ámbito probabilístico, aprovecha los modelos de probabilidad para discernir motivos dentro de las secuencias. MEME, un ejemplo determinista, emplea la maximización de expectativas para optimizar las matrices de peso de posición (PWM) y desentrañar regiones conservadas en secuencias de ADN no alineadas. En contraste con esto, las metodologías estocásticas como Gibbs Sampling inician el descubrimiento de motivos con asignaciones aleatorias de posiciones de motivos, refinando iterativamente las predicciones. Este marco probabilístico captura hábilmente la incertidumbre inherente asociada con el descubrimiento de motivos.

Enfoque avanzado: ^[2]

Evolucionando aún más, el descubrimiento avanzado de motivos abarca técnicas sofisticadas, con el modelado bayesiano ^[10] ocupando un lugar central. LOGOS y BaMM, que ejemplifican esta cohorte, entrelazan intrincadamente enfoques bayesianos y modelos de Markov en su tejido para la identificación de motivos. La incorporación de métodos de agrupamiento bayesiano mejora la base probabilística, proporcionando un marco holístico para el reconocimiento de patrones en secuencias de ADN.

Algoritmos heurísticos e inspirados en la naturaleza: ^[2]

Se desarrolla una categoría distinta, en la que los algoritmos se inspiran en el ámbito biológico. Los algoritmos genéticos (GA) , personificados por FMGA y MDGA, ^[11] navegan en la búsqueda de motivos a través de operadores genéticos y estrategias especializadas. Aprovechando los principios de inteligencia de enjambre, los algoritmos de optimización de enjambre de partículas (PSO) , colonia de abejas artificiales (ABC) y algoritmos de búsqueda de cuco (CS) , incluidos en GAEM, GARP y MACS, se aventuran en la exploración basada en feromonas. Estos algoritmos, que reflejan la adaptabilidad y la dinámica cooperativa de la naturaleza, sirven como estrategias de vanguardia para la identificación de motivos. La síntesis de técnicas heurísticas en enfoques híbridos subraya la adaptabilidad de estos algoritmos en el intrincado dominio del descubrimiento de motivos.

Estuches con motivos

Códigos de cadena tridimensionales

El represor del operón lactosa de E. coli LacI ( PDB : 1lcc cadena A) y el activador del gen catabolito de E. coli ( PDB : 3gap cadena A) tienen un motivo de hélice-giro-hélice , pero sus secuencias de aminoácidos no muestran mucho. similitud, como se muestra en la siguiente tabla. En 1997, Matsuda y cols. idearon un código al que llamaron "código de cadena tridimensional" para representar la estructura de la proteína como una cadena de letras. Este esquema de codificación revela la similitud entre las proteínas mucho más claramente que la secuencia de aminoácidos (ejemplo del artículo): ^[12] El código codifica los ángulos de torsión entre los carbonos alfa de la columna vertebral de la proteína . "W" siempre corresponde a una hélice alfa.

Ver también

Referencias

Fuentes primarias

^ Dlakić, Mensur; Harrington, Rodney E. (1996). "Los efectos del contexto de secuencia sobre la curvatura del ADN". Actas de la Academia Nacional de Ciencias de los Estados Unidos de América . 93 (9): 3847–3852. Código bibliográfico : 1996PNAS...93.3847D. doi : 10.1073/pnas.93.9.3847 . ISSN 0027-8424. JSTOR 39155. PMC 39447 . PMID 8632978.
^ abcde Hashim, Fatma A.; Mabrouk, Mai S.; Al-Atabany, Walid (2019). "Revisión de diferentes algoritmos de búsqueda de motivos de secuencias". Revista Avicena de Biotecnología Médica . 11 (2): 130-148. ISSN 2008-2835. PMC 6490410 . PMID 31057715.
^ Bailey TL, Williams N, Misleh C, Li WW (julio de 2006). "MEME: descubrimiento y análisis de motivos de secuencia de proteínas y ADN". Investigación de ácidos nucleicos . 34 (problema del servidor web): W369-73. doi :10.1093/nar/gkl198. PMC 1538909 . PMID 16845028.
^ Weirauch MT, Cote A, Norel R, Annala M, Zhao Y, Riley TR, et al. (Febrero de 2013). "Evaluación de métodos para modelar la especificidad de secuencia del factor de transcripción". Biotecnología de la Naturaleza . 31 (2): 126–34. doi :10.1038/nbt.2486. PMC 3687085 . PMID 23354101.
^ Akiyama Y, Hosoya T, Poole AM, Hotta Y (diciembre de 1996). "El motivo gcm: un nuevo motivo de unión al ADN conservado en Drosophila y los mamíferos". Actas de la Academia Nacional de Ciencias de los Estados Unidos de América . 93 (25): 14912–6. Código bibliográfico : 1996PNAS...9314912A. doi : 10.1073/pnas.93.25.14912 . PMC 26236 . PMID 8962155.
^ "Modelado en Pfam". Pfam . Consultado el 14 de diciembre de 2023 .
^ Siddharthan R, Siggia ED, van Nimwegen E (diciembre de 2005). "PhyloGibbs: un buscador de motivos de muestreo de Gibbs que incorpora filogenia". PLOS Biología Computacional . 1 (7): e67. Código Bib : 2005PLSCB...1...67S. doi : 10.1371/journal.pcbi.0010067 . PMC 1309704 . PMID 16477324.
^ Wong KC (octubre de 2017). "MotifHyades: maximización de expectativas para el descubrimiento de pares de motivos de ADN de novo en secuencias emparejadas". Bioinformática . 33 (19): 3028–3035. doi : 10.1093/bioinformática/btx381 . PMID 28633280.
^ Wong KC (septiembre de 2018). "Modelado de reconocimiento de motivos de ADN a partir de secuencias de proteínas". iCiencia . 7 : 198–211. Código Bib : 2018iSci....7..198W. doi :10.1016/j.isci.2018.09.003. PMC 6153143 . PMID 30267681.
^ Molinero, Andrew K.; Impresión, Cristina G.; Nielsen, Poul MF; Crampin, Edmund J. (18 de noviembre de 2010). "Una búsqueda bayesiana de motivos transcripcionales". MÁS UNO . 5 (11): e13897. Código Bib : 2010PLoSO...513897M. doi : 10.1371/journal.pone.0013897 . ISSN 1932-6203. PMC 2987817 . PMID 21124986.
^ Che, Dongsheng; Canción, Yinglei; Rasheed, Khaled (25 de junio de 2005). "MDGA: descubrimiento de motivos mediante un algoritmo genético". Actas de la séptima conferencia anual sobre computación genética y evolutiva . GECCO '05. Nueva York, NY, EE.UU.: Asociación de Maquinaria de Computación. págs. 447–452. doi :10.1145/1068009.1068080. ISBN 978-1-59593-010-1. S2CID 7892935.
^ Matsuda H, Taniguchi F, Hashimoto A (1997). "Un enfoque para la detección de motivos estructurales de proteínas utilizando un esquema de codificación de conformaciones de la columna vertebral" (PDF) . Simposio del Pacífico sobre biocomputación. Simposio del Pacífico sobre biocomputación : 280–91. PMID 9390299.

Otras lecturas

Kadaveru K, Vyas J, Schiller MR (mayo de 2008). "Infección viral y enfermedades humanas: conocimientos a partir de minimotivos". Fronteras en Biociencia . 13 (13): 6455–71. doi :10.2741/3166. PMC 2628544 . PMID 18508672.
Stormo GD (enero de 2000). "Sitios de unión al ADN: representación y descubrimiento". Bioinformática . 16 (1): 16–23. doi :10.1093/bioinformática/16.1.16. PMID 10812473.

Fuentes primarias

Altarawy D, Ismail MA, Ghanem S (2009). "MProfiler: un método basado en perfiles para el descubrimiento de motivos de ADN". Reconocimiento de patrones en bioinformática . Apuntes de conferencias sobre informática. vol. 5780, págs. 13-23. doi :10.1007/978-3-642-04031-3_2. ISBN 978-3-642-04030-6.
Schiller SEÑOR (2007). "Minimotif miner: una herramienta computacional para investigar la función de las proteínas, las enfermedades y la diversidad genética". Protocolos actuales en ProteinScience . 48 (1). Wiley: 2.12.1–2.12.14. doi :10.1002/0471140864.ps0212s48. ISBN 978-0471140863. PMID 18429315. S2CID 10406520.
Balla S, Thapar V, Verma S, Luong T, Faghri T, Huang CH, et al. (Marzo de 2006). "Minimotif Miner: una herramienta para investigar la función de las proteínas" . Métodos de la naturaleza . 3 (3): 175–7. doi : 10.1038/nmeth856. PMID 16489333. S2CID 15571142.