Secuencias representativas

En las ciencias sociales y otros dominios, las secuencias representativas son secuencias completas que mejor caracterizan o resumen un conjunto de secuencias. ^[1] En bioinformática, las secuencias representativas también designan subcadenas de una secuencia que caracterizan la secuencia. ^[2]^[3]

Ciencias sociales

Secuencias representativas que cubren el 27% de 2000 secuencias de cohabitación entre 15 y 30 años (extracto de datos biográficos del Panel de Hogares Suizos)

En el análisis de secuencias en ciencias sociales , las secuencias representativas se utilizan para resumir conjuntos de secuencias que describen, por ejemplo, la trayectoria de vida familiar o la carrera profesional de varios miles de personas. ^[4]

La identificación de secuencias representativas ^[1]^[4] procede de las disimilitudes entre pares de secuencias. Una solución típica es la secuencia medoide, es decir, la secuencia observada que minimiza la suma de sus distancias a todas las demás secuencias del conjunto. Otra solución es la secuencia observada más densa, es decir, la secuencia con el mayor número de otras secuencias en su vecindad. Cuando la diversidad de las secuencias es grande, un único representante suele ser insuficiente para caracterizar eficientemente el conjunto. En tales casos, se busca un conjunto lo más pequeño posible de secuencias representativas que cubra (es decir, que incluya en al menos una vecindad de un representante) un porcentaje dado de todas las secuencias.

Otra solución que se ha considerado es la de seleccionar los medoides de los grupos de frecuencias relativas. Más concretamente, el método consiste en ordenar las secuencias (por ejemplo, según la primera coordenada principal de la matriz de disimilitud por pares), dividir la lista ordenada en grupos de igual tamaño (llamados grupos de frecuencias relativas) y seleccionar los medoides de los grupos de igual tamaño. ^[5]

Los métodos para identificar secuencias representativas descritos anteriormente se han implementado en el paquete R TraMineR. ^[6]

Bioinformática

Las secuencias representativas son regiones cortas dentro de secuencias de proteínas que pueden usarse para aproximar las relaciones evolutivas de esas proteínas o los organismos de los que provienen. Las secuencias representativas son subsecuencias contiguas (normalmente de 300 residuos ) de proteínas ubicuas y conservadas, de modo que cada familia ortóloga de secuencias representativas tomadas por sí solas da una matriz de distancias en estrecha concordancia con la matriz de consenso. ^[7]

Usar

Las secuencias de proteínas pueden proporcionar datos sobre la función biológica y la evolución de las proteínas y los dominios proteicos . Por lo tanto, la agrupación e interrelacionamiento de secuencias de proteínas puede proporcionar información tanto sobre los procesos biológicos humanos como sobre el desarrollo evolutivo de los procesos biológicos en la Tierra; dichos grupos de secuencias permiten la cobertura efectiva del espacio de secuencias. Los grupos de secuencias pueden reducir una gran base de datos de secuencias a un conjunto más pequeño de representantes de secuencias , cada uno de los cuales debe representar su grupo a nivel de secuencia. Los representantes de secuencias permiten la cobertura efectiva de la base de datos original con menos secuencias. La base de datos de representantes de secuencias se denomina no redundante , ya que las secuencias similares (o redundantes) se han eliminado en un cierto umbral de similitud.

Véase también

Análisis de secuencias en las ciencias sociales

Análisis de secuencias en bioinformática

Referencias

^ ab Gabadinho, Alexis; Ritschard, Gilbert; Studer, Matthias; Müller, Nicolas S. (2011), Fred, Ana; Dietz, Jan LG; Liu, Kecheng; Filipe, Joaquim (eds.), "Extracción y representación de secuencias representativas", Descubrimiento del conocimiento, Ingeniería del conocimiento y Gestión del conocimiento , Comunicaciones en informática y ciencia de la información, vol. 128, Berlín, Heidelberg: Springer Berlin Heidelberg, págs. 94–106, doi :10.1007/978-3-642-19032-2_7, ISBN 978-3-642-19031-5, consultado el 12 de junio de 2023
^ Kuri-Morales, Ángel F.; Ortiz-Posadas, Martha R. (2005), Gelbukh, Alexander; de Albornoz, Álvaro; Terashima-Marín, Hugo (eds.), "Un nuevo enfoque para la representación de secuencias de proteínas en bioinformática", MICAI 2005: Avances en inteligencia artificial , vol. 3789, Berlín, Heidelberg: Springer Berlin Heidelberg, págs. 880–889, doi :10.1007/11579427_90, ISBN 978-3-540-29896-0, consultado el 12 de junio de 2023
^ Chen, William L.; Leland, Burton A.; Durant, Joseph L.; Grier, David L.; Christie, Bradley D.; Nourse, James G.; Taylor, Keith T. (26 de septiembre de 2011). "Representación de secuencias autónomas: cerrando la brecha entre la bioinformática y la quimioinformática". Revista de información y modelado químico . 51 (9): 2186–2208. doi :10.1021/ci2001988. ISSN 1549-9596. PMID 21800899.
^ ab Gabadinho, Alexis; Ritschard, Gilbert (2013). Levy, René; Widmer, Eric D. (eds.). "Búsqueda de trayectorias de vida típicas, aplicadas a las historias de parto". Trayectorias de vida con perspectiva de género, entre la estandarización y la individualización: un enfoque europeo aplicado a Suiza . Zúrich: LIT: 287–312.
^ Fasang, Anette Eva; Liao, Tim Futing (2014). "Visualización de secuencias en las ciencias sociales: gráficos de secuencias de frecuencia relativa". Métodos sociológicos e investigación . 43 (4): 643–676. doi :10.1177/0049124113506563. hdl : 10419/209702 . ISSN 0049-1241. S2CID 61487252.
^ Gabadinho, Alexis; Ritschard, Gilbert; Müller, Nicolas S.; Studer, Matthias (2011). "Análisis y visualización de secuencias de estados en R con TraMineR". Revista de software estadístico . 40 (4). doi : 10.18637/jss.v040.i04 . ISSN 1548-7660.
^ Bern, Marshall; Goldberg, David (2 de noviembre de 2004). "Selección automática de proteínas representativas para la filogenia bacteriana". BMC Evolutionary Biology . 5 (34): 34. doi : 10.1186/1471-2148-5-34 . PMC 1175084 . PMID 15927057.