Los gráficos de secuencia , también llamados gráficos de alineación , gráficos de puntos de ruptura o gráficos de adyacencia, son gráficos bidireccionales utilizados en genómica comparativa . La estructura consta de múltiples gráficos o genomas con una serie de bordes y vértices representados como adyacencias entre segmentos en un genoma [1] y segmentos de ADN respectivamente. Al atravesar un componente conectado de segmentos y bordes de adyacencia (llamado hilo ) se obtiene una secuencia, que generalmente representa un genoma o una sección de un genoma. Los segmentos pueden considerarse como bloques de sintenia , donde los bordes dictan cómo organizar estos bloques en un genoma en particular, y el etiquetado de los bordes de adyacencia representa bases que no están contenidas en bloques de sintenia.
Antes de construir un gráfico de secuencia, debe haber al menos dos genomas representados como gráficos dirigidos con aristas como hilos (aristas de adyacencia) y vértices como segmentos de ADN. Los genomas deben etiquetarse como P y Q, mientras que el gráfico de secuencia se etiqueta como BreakpointGraph( P, Q ). [2]
Los vértices direccionales de Q y sus aristas se organizan en el orden de P. Una vez completado, las aristas de Q se vuelven a conectar a sus vértices originales. Una vez que se han emparejado todas las aristas, se eliminan las direcciones de los vértices y, en su lugar, cada vértice se etiqueta como v h (cabeza del vértice) y v t (cola del vértice).
La similitud entre genomas se representa por el número de ciclos (sistemas independientes) dentro del grafo de secuencia. El número de ciclos es igual a ciclos (P, Q). El número máximo de ciclos posibles es igual al número de vértices en el grafo de secuencia.
Ejemplo de figura.
Al recibir los genomas P (+a +b -c) y Q (+a +b -c), [1] Q debe ser realineado para seguir los bordes direccionales (rojos) de P. Los vértices deben renombrarse de a, b, c a a h a t , b h b t , ch h c t y los bordes de P y Q deben estar conectados a sus vértices originales (bordes P = negros, bordes Q = verdes). Retire los bordes direccionales (rojos). El número de ciclos en G(P, Q) es 1 mientras que el máximo posible es 3.
Alekseyev y Pevzner utilizan gráficos de secuencias para crear su propio algoritmo para estudiar la historia de reordenamiento del genoma de varios mamíferos, así como una forma de superar los problemas con la reconstrucción ancestral actual de los genomas. [1]
Los gráficos de secuencias se pueden utilizar para representar alineaciones de secuencias múltiples con la adición de un nuevo tipo de borde que representa la homología entre segmentos. [3] Para un conjunto de genomas, se puede crear un gráfico de puntos de ruptura acíclicos con un hilo para cada genoma. Para dos segmentos y , donde , , , y representan los puntos finales de los dos segmentos, se pueden crear bordes de homología desde hasta y hasta o desde hasta y hasta - que representan las dos posibles orientaciones de la homología. La ventaja de representar una alineación de secuencias múltiples de esta manera es que es posible incluir inversiones y otros reordenamientos estructurales que no serían permitidos en una representación matricial.
Si existen múltiples caminos posibles al recorrer un hilo en un gráfico de secuencias, se pueden representar múltiples secuencias mediante el mismo hilo. Esto significa que es posible crear un gráfico de secuencias que represente una población de individuos con genomas ligeramente diferentes, donde cada genoma corresponde a un camino a través del gráfico. Estos gráficos se han propuesto como reemplazo del genoma humano de referencia . [4]