Una forma de visualizar la similitud entre dos secuencias de proteínas o ácidos nucleicos es utilizar una matriz de similitud, conocida como diagrama de puntos. Fueron introducidas por Gibbs y McIntyre en 1970 [1] y son matrices bidimensionales en las que se comparan las secuencias de las proteínas a lo largo de los ejes vertical y horizontal. Para una representación visual simple de la similitud entre dos secuencias, las celdas individuales de la matriz se pueden sombrear en negro si los residuos son idénticos, de modo que los segmentos de secuencia coincidentes aparezcan como tramos de líneas diagonales a lo largo de la matriz.
Interpretación
Se puede obtener una idea de la similitud de las dos secuencias a partir del número y la longitud de los segmentos coincidentes que se muestran en la matriz. Obviamente, las proteínas idénticas tendrán una línea diagonal en el centro de la matriz. Las inserciones y eliminaciones entre secuencias dan lugar a interrupciones en esta diagonal. Las regiones de similitud local o secuencias repetitivas dan lugar a más coincidencias diagonales además de la diagonal central. Una forma de reducir este ruido es sombrear únicamente series o ' tuplas ' de residuos; por ejemplo, una tupla de 3 corresponde a tres residuos seguidos. Esto es eficaz porque la probabilidad de hacer coincidir tres residuos seguidos por casualidad es mucho menor que las coincidencias de un solo residuo.
Los gráficos de puntos comparan dos secuencias organizando una secuencia en el eje x y otra en el eje y de un gráfico. Cuando los residuos de ambas secuencias coinciden en la misma ubicación del gráfico, se dibuja un punto en la posición correspondiente. Tenga en cuenta que las secuencias se pueden escribir hacia adelante o hacia atrás, sin embargo, las secuencias en ambos ejes deben escribirse en la misma dirección. Tenga en cuenta también que la dirección de las secuencias en los ejes determinará la dirección de la línea en el diagrama de puntos. Una vez que se hayan trazado los puntos, se combinarán para formar líneas. La cercanía de las secuencias en similitud determinará qué tan cerca está la línea diagonal de lo que es un gráfico que muestra una curva que demuestra una relación directa . Esta relación se ve afectada por ciertas características de la secuencia, como cambios de fotograma, repeticiones directas y repeticiones invertidas. Los cambios de marco incluyen inserciones, eliminaciones y mutaciones. La presencia de una de estas características, o la presencia de múltiples características, hará que se tracen múltiples líneas en varias posibilidades de configuraciones, dependiendo de las características presentes en las secuencias. Una característica que provocará un resultado muy diferente en el diagrama de puntos es la presencia de región/regiones de baja complejidad. Las regiones de baja complejidad son regiones de la secuencia con solo unos pocos aminoácidos, lo que a su vez provoca redundancia dentro de esa región pequeña o limitada. Estas regiones generalmente se encuentran alrededor de la diagonal y pueden tener o no un cuadrado en el medio del diagrama de puntos.
Software para crear diagramas de puntos
ANACON – Análisis de contactos de diagramas de puntos.
D-Genies [2] – Se especializa en diagramas de puntos interactivos del genoma completo de genomas grandes
Dotlet: proporciona un programa que le permite construir un diagrama de puntos con sus propias secuencias.
dotmatcher [3] – Herramienta web para generar diagramas de puntos (y parte de la suite EMBOSS).
Dotplot Archivado el 3 de octubre de 2016 en Wayback Machine : herramienta HTML5 sencilla (educativa) para generar diagramas de puntos a partir de secuencias de ARN.
dotplot: paquete R para generar rápidamente diagramas de puntos como gráficos tradicionales o ggplot.
Dotter [4] – Programa independiente para generar diagramas de puntos.
JDotter [5] – Versión Java de Dotter.
Flexidot [6] : conjunto de diagramas de puntos personalizable y consciente de la ambigüedad para estética, análisis por lotes e impresión (implementado en Python).
Gepard [7] – Herramienta de diagrama de puntos adecuada para una escala genómica uniforme.
Genomdiff: un programa de diagrama de puntos Java de código abierto para virus.
ÚLTIMO para la "alineación dividida" de todo el genoma. [8]
lastz [9] y laj – Programas para preparar y visualizar alineamientos genómicos.
yass [10] - Herramienta basada en web para generar diagramas de puntos (tanto de complemento directo como inverso) a partir de alineamientos genómicos.
re-DOT-able: una aplicación de escritorio Java que permite la comparación de dos conjuntos de secuencias de ADN/ARN mediante la creación de un diagrama de puntos interactivo.
seqinr: paquete R para generar diagramas de puntos.
SynMap: una herramienta basada en web fácil de usar para generar diagramas de puntos para muchas especies con acceso a una extensa base de datos genómica. Ofrecido por la plataforma de genómica comparada CoGe.
Visor de diagramas de puntos UGENE: visualizador de diagramas de puntos de código abierto.
Introducción general a los diagramas de puntos con algoritmos de ejemplo y una herramienta de software para crear diagramas de puntos de tamaño pequeño y mediano.
Además de las herramientas enumeradas anteriormente, NCBI Blast Server en https://blast.ncbi.nlm.nih.gov/Blast.cgi incluye Dot Plots en su salida.
^ Gibbs, Adrián J.; McIntyre, George A. (1970). "El diagrama, un método para comparar secuencias. Su uso con secuencias de aminoácidos y nucleótidos". EUR. J. Bioquímica . 16 (1): 1–11. doi : 10.1111/j.1432-1033.1970.tb01046.x . PMID 5456129.
^ Klopp, Christophe; Cabanettes, Floréal (23 de febrero de 2018). "D-GENIES: Traza puntos GENomas grandes de forma interactiva, eficiente y sencilla". PeerJ . 6 : e4958. doi : 10.7287/peerj.preprints.26567v1 . PMC 5991294 . PMID 29888139.
^ Arroz, P.; Longden, I.; Bleasby, A. (junio de 2000). "EMBOSS: la suite europea de software abierto de biología molecular". Tendencias en Genética . 16 (6): 276–277. doi :10.1016/s0168-9525(00)02024-2. ISSN 0168-9525. PMID 10827456.
^ Sonnhammer, EL; Durbin, R. (29 de diciembre de 1995). "Un programa de matriz de puntos con control de umbral dinámico adecuado para el análisis de secuencias de proteínas y ADN genómico". Gen. _ 167 (1–2): CG1–10. doi :10.1016/0378-1119(95)00714-8. ISSN 0378-1119. PMID 8566757.
^ Brodie, Ryan; Roper, Rachel L.; Upton, Chris (22 de enero de 2004). "JDotter: una interfaz Java para múltiples diagramas de puntos generados por dotter". Bioinformática . 20 (2): 279–281. doi : 10.1093/bioinformática/btg406 . ISSN 1367-4803. PMID 14734323.
^ Seibt, Kathrin M.; Schmidt, Tomás; Heitkam, Tony (15 de octubre de 2018). "FlexiDot: diagramas de puntos altamente personalizables y conscientes de la ambigüedad para análisis de secuencias visuales". Bioinformática . 34 (20): 3575–3577. doi : 10.1093/bioinformática/bty395 . PMID 29762645.
^ Krumsiek, enero; Arnold, Roland; Rattei, Thomas (15 de abril de 2007). "Gepard: una herramienta rápida y sensible para crear diagramas de puntos a escala del genoma". Bioinformática . 23 (8): 1026–1028. doi : 10.1093/bioinformática/btm039 . ISSN 1367-4803. PMID 17309896.
^ Frith MC. y Kawaguchi R. (2015). "La alineación dividida de genomas encuentra ortologías con mayor precisión". Genoma Biol . 16 (1): 106. doi : 10.1186/s13059-015-0670-9 . PMC 4464727 . PMID 25994148.
^ Harris, RS (2007). Alineación por pares mejorada del ADN genómico. Doctor. tesis . Pensilvania: Universidad Estatal de Pensilvania.
^ Noé L., Kucherov. G. (2005). "YASS: mejora de la sensibilidad de la búsqueda de similitudes de ADN". Investigación de ácidos nucleicos . 33 (2): W540–W543. doi : 10.1093/nar/gki478. PMC 1160238 . PMID 15980530.