Múltiples EM para la obtención de motivos

La maximización de expectativas múltiples para la obtención de motivos (MEME) es una herramienta para descubrir motivos en un grupo de secuencias de ADN o proteínas relacionadas . ^[1]

Un motivo es un patrón de secuencia que se repite en un grupo de secuencias de ADN o proteínas relacionadas y que suele estar asociado a alguna función biológica. MEME representa los motivos como matrices de probabilidad de letras dependientes de la posición que describen la probabilidad de cada letra posible en cada posición del patrón. Los motivos MEME individuales no contienen espacios vacíos. MEME divide los patrones con espacios vacíos de longitud variable en dos o más motivos separados.

MEME toma como entrada un grupo de secuencias de ADN o proteínas (el conjunto de entrenamiento) y genera tantos motivos como se soliciten. Utiliza técnicas de modelado estadístico para elegir automáticamente el mejor ancho, número de ocurrencias y descripción para cada motivo.

MEME es la primera de una colección de herramientas para analizar motivos llamada la suite MEME .

Definición

El algoritmo MEME puede entenderse desde dos perspectivas diferentes. Desde un punto de vista biológico, MEME identifica y caracteriza motivos compartidos en un conjunto de secuencias no alineadas. Desde el punto de vista informático, MEME encuentra un conjunto de subcadenas que no se superponen y que coinciden aproximadamente a partir de un conjunto de cadenas de partida. ^{[ cita requerida ]}

Usar

MEME puede utilizarse para encontrar funciones y estructuras biológicas similares en diferentes secuencias. Es necesario tener en cuenta que la variación de las secuencias puede ser significativa y que los motivos a veces son muy pequeños. También es útil tener en cuenta que los sitios de unión de las proteínas son muy específicos. Esto hace que sea más fácil reducir los experimentos de laboratorio (ahorrando costes y tiempo). De hecho, para descubrir mejor los motivos relevantes desde un punto de vista biológico es necesario elegir cuidadosamente: el mejor ancho de los motivos, el número de ocurrencias en cada secuencia y la composición de cada motivo.

Componentes del algoritmo

El algoritmo utiliza varios tipos de funciones bien conocidas:

Maximización de expectativas (EM).
Heurística basada en EM para elegir el punto de partida de EM.
Heurística basada en la razón de máxima verosimilitud (basada en LRT) para determinar el mejor número de parámetros libres del modelo.
Inicio múltiple para búsqueda sobre posibles anchos de motivos.
Búsqueda codiciosa para encontrar múltiples motivos.

Sin embargo, a menudo no se sabe dónde se encuentra la posición inicial. Existen varias posibilidades: exactamente un motivo por secuencia, o uno o ningún motivo por secuencia, o cualquier número de motivos por secuencia.

Véase también

Referencias

^ Bailey TL, Elkan C. Aprendizaje no supervisado de múltiples motivos en biopolímeros mediante EM. Mach. Learn. 1995;21:51–80.

Enlaces externos

La suite MEME: herramientas de análisis de secuencias basadas en motivos
Versión acelerada por GPU de MEME
EXTREME: una implementación EM en línea del modelo MEME para el descubrimiento rápido de motivos en grandes datos de huellas de ChIP-Seq y DNase-Seq