stringtranslate.com

Gráfica de secuencia

Los gráficos de secuencia , también llamados gráficos de alineación , gráficos de puntos de ruptura o gráficos de adyacencia, son gráficos bidireccionales utilizados en genómica comparativa . La estructura consta de múltiples gráficos o genomas con una serie de bordes y vértices representados como adyacencias entre segmentos en un genoma [1] y segmentos de ADN respectivamente. Al atravesar un componente conectado de segmentos y bordes de adyacencia (llamado hilo ) se obtiene una secuencia, que generalmente representa un genoma o una sección de un genoma. Los segmentos pueden considerarse como bloques de sintenia , donde los bordes dictan cómo organizar estos bloques en un genoma en particular, y el etiquetado de los bordes de adyacencia representa bases que no están contenidas en bloques de sintenia.

Construcción

Antes de construir un gráfico de secuencia, debe haber al menos dos genomas representados como gráficos dirigidos con aristas como hilos (aristas de adyacencia) y vértices como segmentos de ADN. Los genomas deben etiquetarse como P y Q, mientras que el gráfico de secuencia se etiqueta como BreakpointGraph( P, Q ). [2]

Los vértices direccionales de Q y sus aristas se organizan en el orden de P. Una vez completado, las aristas de Q se vuelven a conectar a sus vértices originales. Una vez que se han emparejado todas las aristas, se eliminan las direcciones de los vértices y, en su lugar, cada vértice se etiqueta como v h (cabeza del vértice) y v t (cola del vértice).

La similitud entre genomas se representa por el número de ciclos (sistemas independientes) dentro del grafo de secuencia. El número de ciclos es igual a ciclos (P, Q). El número máximo de ciclos posibles es igual al número de vértices en el grafo de secuencia.

Ejemplo

Ejemplo de figura.

Al recibir los genomas P (+a +b -c) y Q (+a +b -c), [1] Q debe ser realineado para seguir los bordes direccionales (rojos) de P. Los vértices deben renombrarse de a, b, c a a h a t , b h b t , ch h c t y los bordes de P y Q deben estar conectados a sus vértices originales (bordes P = negros, bordes Q = verdes). Retire los bordes direccionales (rojos). El número de ciclos en G(P, Q) es 1 mientras que el máximo posible es 3.

Aplicaciones

Reconstrucción de genomas ancestrales

Alekseyev y Pevzner utilizan gráficos de secuencias para crear su propio algoritmo para estudiar la historia de reordenamiento del genoma de varios mamíferos, así como una forma de superar los problemas con la reconstrucción ancestral actual de los genomas. [1]

Alineación de secuencias múltiples

Los gráficos de secuencias se pueden utilizar para representar alineaciones de secuencias múltiples con la adición de un nuevo tipo de borde que representa la homología entre segmentos. [3] Para un conjunto de genomas, se puede crear un gráfico de puntos de ruptura acíclicos con un hilo para cada genoma. Para dos segmentos y , donde , , , y representan los puntos finales de los dos segmentos, se pueden crear bordes de homología desde hasta y hasta o desde hasta y hasta - que representan las dos posibles orientaciones de la homología. La ventaja de representar una alineación de secuencias múltiples de esta manera es que es posible incluir inversiones y otros reordenamientos estructurales que no serían permitidos en una representación matricial.

Representando variación

Si existen múltiples caminos posibles al recorrer un hilo en un gráfico de secuencias, se pueden representar múltiples secuencias mediante el mismo hilo. Esto significa que es posible crear un gráfico de secuencias que represente una población de individuos con genomas ligeramente diferentes, donde cada genoma corresponde a un camino a través del gráfico. Estos gráficos se han propuesto como reemplazo del genoma humano de referencia . [4]

Referencias

  1. ^ abc Alekseyev, MA; Pevzner, PA (13 de febrero de 2009). "Gráficos de puntos de ruptura y reconstrucciones de genomas ancestrales". Genome Research . 19 (5). Cold Spring Harbor Laboratory: 943–957. doi :10.1101/gr.082784.108. ISSN  1088-9051. PMC  2675983 . PMID  19218533.
  2. ^ Gráficos de puntos de interrupción , consultado el 5 de mayo de 2022
  3. ^ Paten, Benedict; Zerbino, Daniel R; Hickey, Glenn; Haussler, David (19 de junio de 2014). "Un modelo unificador de la evolución del genoma bajo parsimonia". BMC Bioinformatics . 15 (1). Springer Science and Business Media LLC: 206. doi : 10.1186/1471-2105-15-206 . ISSN  1471-2105. PMC 4082375 . PMID  24946830. 
  4. ^ Paten, Benedict; Novak, Adam; Haussler, David (20 de abril de 2014). "Mapeo de una estructura genómica de referencia". arXiv : 1404.5010 [q-bio.GN].