En las ciencias sociales y otros dominios, las secuencias representativas son secuencias completas que mejor caracterizan o resumen un conjunto de secuencias. [1] En bioinformática, las secuencias representativas también designan subcadenas de una secuencia que caracterizan la secuencia. [2] [3]
En el análisis de secuencias en ciencias sociales , las secuencias representativas se utilizan para resumir conjuntos de secuencias que describen, por ejemplo, la trayectoria de vida familiar o la carrera profesional de varios miles de personas. [4]
La identificación de secuencias representativas [1] [4] procede de las disimilitudes entre pares de secuencias. Una solución típica es la secuencia medoide, es decir, la secuencia observada que minimiza la suma de sus distancias a todas las demás secuencias del conjunto. Otra solución es la secuencia observada más densa, es decir, la secuencia con el mayor número de otras secuencias en su vecindad. Cuando la diversidad de las secuencias es grande, un único representante suele ser insuficiente para caracterizar eficientemente el conjunto. En tales casos, se busca un conjunto lo más pequeño posible de secuencias representativas que cubra (es decir, que incluya en al menos una vecindad de un representante) un porcentaje dado de todas las secuencias.
Otra solución que se ha considerado es la de seleccionar los medoides de los grupos de frecuencias relativas. Más concretamente, el método consiste en ordenar las secuencias (por ejemplo, según la primera coordenada principal de la matriz de disimilitud por pares), dividir la lista ordenada en grupos de igual tamaño (llamados grupos de frecuencias relativas) y seleccionar los medoides de los grupos de igual tamaño. [5]
Los métodos para identificar secuencias representativas descritos anteriormente se han implementado en el paquete R TraMineR. [6]
Las secuencias representativas son regiones cortas dentro de secuencias de proteínas que pueden usarse para aproximar las relaciones evolutivas de esas proteínas o los organismos de los que provienen. Las secuencias representativas son subsecuencias contiguas (normalmente de 300 residuos ) de proteínas ubicuas y conservadas, de modo que cada familia ortóloga de secuencias representativas tomadas por sí solas da una matriz de distancias en estrecha concordancia con la matriz de consenso. [7]
Las secuencias de proteínas pueden proporcionar datos sobre la función biológica y la evolución de las proteínas y los dominios proteicos . Por lo tanto, la agrupación e interrelacionamiento de secuencias de proteínas puede proporcionar información tanto sobre los procesos biológicos humanos como sobre el desarrollo evolutivo de los procesos biológicos en la Tierra; dichos grupos de secuencias permiten la cobertura efectiva del espacio de secuencias. Los grupos de secuencias pueden reducir una gran base de datos de secuencias a un conjunto más pequeño de representantes de secuencias , cada uno de los cuales debe representar su grupo a nivel de secuencia. Los representantes de secuencias permiten la cobertura efectiva de la base de datos original con menos secuencias. La base de datos de representantes de secuencias se denomina no redundante , ya que las secuencias similares (o redundantes) se han eliminado en un cierto umbral de similitud.
Análisis de secuencias en las ciencias sociales
Análisis de secuencias en bioinformática