stringtranslate.com

Diagrama de puntos (bioinformática)

"Un diagrama de puntos de ADN de un factor de transcripción de dedo de zinc humano (GenBank ID NM_002383), que muestra autosimilitud regional ". La diagonal principal representa el alineamiento de la secuencia consigo misma; Las líneas fuera de la diagonal principal representan patrones similares o repetitivos dentro de la secuencia.

En bioinformática, un diagrama de puntos es un método gráfico para comparar dos secuencias biológicas e identificar regiones de gran similitud después del alineamiento de secuencias . Es un tipo de trama de recurrencia .

Historia

Una forma de visualizar la similitud entre dos secuencias de proteínas o ácidos nucleicos es utilizar una matriz de similitud, conocida como diagrama de puntos. Fueron introducidas por Gibbs y McIntyre en 1970 [1] y son matrices bidimensionales en las que se comparan las secuencias de las proteínas a lo largo de los ejes vertical y horizontal. Para una representación visual simple de la similitud entre dos secuencias, las celdas individuales de la matriz se pueden sombrear en negro si los residuos son idénticos, de modo que los segmentos de secuencia coincidentes aparezcan como tramos de líneas diagonales a lo largo de la matriz.

Interpretación

Se puede obtener una idea de la similitud de las dos secuencias a partir del número y la longitud de los segmentos coincidentes que se muestran en la matriz. Obviamente, las proteínas idénticas tendrán una línea diagonal en el centro de la matriz. Las inserciones y eliminaciones entre secuencias dan lugar a interrupciones en esta diagonal. Las regiones de similitud local o secuencias repetitivas dan lugar a más coincidencias diagonales además de la diagonal central. Una forma de reducir este ruido es sombrear únicamente series o ' tuplas ' de residuos; por ejemplo, una tupla de 3 corresponde a tres residuos seguidos. Esto es eficaz porque la probabilidad de hacer coincidir tres residuos seguidos por casualidad es mucho menor que las coincidencias de un solo residuo.

Los gráficos de puntos comparan dos secuencias organizando una secuencia en el eje x y otra en el eje y de un gráfico. Cuando los residuos de ambas secuencias coinciden en la misma ubicación del gráfico, se dibuja un punto en la posición correspondiente. Tenga en cuenta que las secuencias se pueden escribir hacia adelante o hacia atrás, sin embargo, las secuencias en ambos ejes deben escribirse en la misma dirección. Tenga en cuenta también que la dirección de las secuencias en los ejes determinará la dirección de la línea en el diagrama de puntos. Una vez que se hayan trazado los puntos, se combinarán para formar líneas. La cercanía de las secuencias en similitud determinará qué tan cerca está la línea diagonal de lo que es un gráfico que muestra una curva que demuestra una relación directa . Esta relación se ve afectada por ciertas características de la secuencia, como cambios de fotograma, repeticiones directas y repeticiones invertidas. Los cambios de marco incluyen inserciones, eliminaciones y mutaciones. La presencia de una de estas características, o la presencia de múltiples características, hará que se tracen múltiples líneas en varias posibilidades de configuraciones, dependiendo de las características presentes en las secuencias. Una característica que provocará un resultado muy diferente en el diagrama de puntos es la presencia de región/regiones de baja complejidad. Las regiones de baja complejidad son regiones de la secuencia con solo unos pocos aminoácidos, lo que a su vez provoca redundancia dentro de esa región pequeña o limitada. Estas regiones generalmente se encuentran alrededor de la diagonal y pueden tener o no un cuadrado en el medio del diagrama de puntos.

Software para crear diagramas de puntos

Además de las herramientas enumeradas anteriormente, NCBI Blast Server en https://blast.ncbi.nlm.nih.gov/Blast.cgi incluye Dot Plots en su salida.

Ver también

Referencias

  1. ^ Gibbs, Adrián J.; McIntyre, George A. (1970). "El diagrama, un método para comparar secuencias. Su uso con secuencias de aminoácidos y nucleótidos". EUR. J. Bioquímica . 16 (1): 1–11. doi : 10.1111/j.1432-1033.1970.tb01046.x . PMID  5456129.
  2. ^ Klopp, Christophe; Cabanettes, Floréal (23 de febrero de 2018). "D-GENIES: Traza puntos GENomas grandes de forma interactiva, eficiente y sencilla". PeerJ . 6 : e4958. doi : 10.7287/peerj.preprints.26567v1 . PMC 5991294 . PMID  29888139. 
  3. ^ Arroz, P.; Longden, I.; Bleasby, A. (junio de 2000). "EMBOSS: la suite europea de software abierto de biología molecular". Tendencias en Genética . 16 (6): 276–277. doi :10.1016/s0168-9525(00)02024-2. ISSN  0168-9525. PMID  10827456.
  4. ^ Sonnhammer, EL; Durbin, R. (29 de diciembre de 1995). "Un programa de matriz de puntos con control de umbral dinámico adecuado para el análisis de secuencias de proteínas y ADN genómico". Gen. _ 167 (1–2): CG1–10. doi :10.1016/0378-1119(95)00714-8. ISSN  0378-1119. PMID  8566757.
  5. ^ Brodie, Ryan; Roper, Rachel L.; Upton, Chris (22 de enero de 2004). "JDotter: una interfaz Java para múltiples diagramas de puntos generados por dotter". Bioinformática . 20 (2): 279–281. doi : 10.1093/bioinformática/btg406 . ISSN  1367-4803. PMID  14734323.
  6. ^ Seibt, Kathrin M.; Schmidt, Tomás; Heitkam, Tony (15 de octubre de 2018). "FlexiDot: diagramas de puntos altamente personalizables y conscientes de la ambigüedad para análisis de secuencias visuales". Bioinformática . 34 (20): 3575–3577. doi : 10.1093/bioinformática/bty395 . PMID  29762645.
  7. ^ Krumsiek, enero; Arnold, Roland; Rattei, Thomas (15 de abril de 2007). "Gepard: una herramienta rápida y sensible para crear diagramas de puntos a escala del genoma". Bioinformática . 23 (8): 1026–1028. doi : 10.1093/bioinformática/btm039 . ISSN  1367-4803. PMID  17309896.
  8. ^ Frith MC. y Kawaguchi R. (2015). "La alineación dividida de genomas encuentra ortologías con mayor precisión". Genoma Biol . 16 (1): 106. doi : 10.1186/s13059-015-0670-9 . PMC 4464727 . PMID  25994148. 
  9. ^ Harris, RS (2007). Alineación por pares mejorada del ADN genómico. Doctor. tesis . Pensilvania: Universidad Estatal de Pensilvania.
  10. ^ Noé L., Kucherov. G. (2005). "YASS: mejora de la sensibilidad de la búsqueda de similitudes de ADN". Investigación de ácidos nucleicos . 33 (2): W540–W543. doi : 10.1093/nar/gki478. PMC 1160238 . PMID  15980530.