stringtranslate.com

BLAST (biotecnología)

En bioinformática , BLAST ( herramienta básica de búsqueda de alineación local ) [3] es un algoritmo y programa para comparar información de secuencia biológica primaria , como las secuencias de aminoácidos de las proteínas o los nucleótidos de las secuencias de ADN y/o ARN . Una búsqueda BLAST permite a un investigador comparar una proteína en cuestión o una secuencia de nucleótidos (llamada consulta) con una biblioteca o base de datos de secuencias, e identificar secuencias de la base de datos que se parecen a la secuencia de consulta por encima de un cierto umbral. Por ejemplo, tras el descubrimiento de un gen previamente desconocido en el ratón , un científico normalmente realizará una búsqueda BLAST del genoma humano para ver si los humanos tienen un gen similar; BLAST identificará secuencias en el genoma humano que se parezcan al gen del ratón basándose en la similitud de secuencia.

Fondo

BLAST es uno de los programas de bioinformática más utilizados para la búsqueda de secuencias. [4] Aborda un problema fundamental en la investigación bioinformática. El algoritmo heurístico que utiliza es mucho más rápido que otros enfoques, como el cálculo de una alineación óptima. Este énfasis en la velocidad es vital para que el algoritmo sea práctico en las enormes bases de datos genómicas disponibles actualmente, aunque los algoritmos posteriores pueden ser incluso más rápidos.

El programa BLAST fue diseñado por Eugene Myers, Stephen Altschul, Warren Gish, David J. Lipman y Webb Miller en el NIH y fue publicado en J. Mol. Biol. en 1990. BLAST extendió el trabajo de alineamiento de un programa previamente desarrollado para búsquedas de similitud de secuencias de proteínas y ADN, FASTA , al agregar un nuevo modelo estocástico desarrollado por Samuel Karlin y Stephen Altschul . [5] Propusieron "un método para estimar similitudes entre la secuencia de ADN conocida de un organismo con la de otro", [3] y su trabajo ha sido descrito como "la base estadística para BLAST". [6] Posteriormente, Altschul, Gish, Miller, Myers y Lipman diseñaron e implementaron el programa BLAST, que fue publicado en el Journal of Molecular Biology en 1990 y ha sido citado más de 100.000 veces desde entonces. [7]

Si bien BLAST es más rápido que cualquier implementación de Smith-Waterman en la mayoría de los casos, no puede "garantizar las alineaciones óptimas de las secuencias de consulta y base de datos" como lo hace el algoritmo Smith-Waterman. El algoritmo Smith-Waterman fue una extensión de un método óptimo anterior, el algoritmo Needleman-Wunsch , que fue el primer algoritmo de alineamiento de secuencias que garantizaba encontrar la mejor alineación posible. Sin embargo, los requisitos de tiempo y espacio de estos algoritmos óptimos superan con creces los requisitos de BLAST.

BLAST es más eficiente en términos de tiempo que FASTA, ya que busca solo los patrones más significativos en las secuencias, pero con una sensibilidad comparativa. Esto se puede lograr con mayor precisión si se comprende el algoritmo de BLAST que se presenta a continuación.

Ejemplos de otras preguntas que los investigadores utilizan BLAST para responder son:

BLAST también se utiliza a menudo como parte de otros algoritmos que requieren una coincidencia de secuencia aproximada .

BLAST está disponible en la web en el sitio web del NCBI. Hay distintos tipos de BLAST disponibles según las secuencias de consulta y las bases de datos de destino. Las implementaciones alternativas incluyen AB-BLAST (antes conocido como WU-BLAST), FSA-BLAST (última actualización en 2006) y ScalaBLAST. [8] [9]

El artículo original de Altschul et al. [7] fue el artículo más citado publicado en la década de 1990. [10]

Aporte

Secuencias de entrada (en formato FASTA o Genbank ), base de datos para buscar y otros parámetros opcionales como matriz de puntuación. [ aclaración necesaria ]

Producción

Los resultados de BLAST se pueden entregar en una variedad de formatos. Estos formatos incluyen HTML , texto simple y formato XML . Para la página web de NCBI, el formato predeterminado para los resultados es HTML. Al realizar un BLAST en NCBI, los resultados se dan en un formato gráfico que muestra los resultados encontrados, una tabla que muestra los identificadores de secuencia para los resultados con datos relacionados con la puntuación, así como alineaciones para la secuencia de interés y los resultados recibidos con las puntuaciones BLAST correspondientes para estos. El más fácil de leer y el más informativo de estos es probablemente la tabla.

Si se intenta buscar una secuencia patentada o simplemente una que no está disponible en bases de datos disponibles para el público en general a través de fuentes como NCBI, existe un programa BLAST disponible para descargar en cualquier computadora, sin costo alguno. Este programa se puede encontrar en BLAST+ executables. También hay programas comerciales disponibles para comprar. Las bases de datos se pueden encontrar en el sitio de NCBI, así como en el Índice de bases de datos BLAST (FTP).

Proceso

Utilizando un método heurístico , BLAST encuentra secuencias similares, localizando coincidencias cortas entre las dos secuencias. Este proceso de búsqueda de secuencias similares se llama siembra. Es después de esta primera coincidencia que BLAST comienza a hacer alineaciones locales. Al intentar encontrar similitudes en secuencias, los conjuntos de letras comunes, conocidos como palabras, son muy importantes. Por ejemplo, supongamos que la secuencia contiene el siguiente tramo de letras, GLKFA. Si se estuviera realizando un BLAST en condiciones normales, el tamaño de la palabra sería de 3 letras. En este caso, utilizando el tramo de letras dado, las palabras buscadas serían GLK, LKF y KFA. El algoritmo heurístico de BLAST ubica todas las palabras comunes de tres letras entre la secuencia de interés y la secuencia o secuencias de coincidencia de la base de datos. Este resultado se utilizará luego para construir una alineación. Después de formar palabras para la secuencia de interés, también se ensamblan el resto de las palabras. Estas palabras deben satisfacer el requisito de tener una puntuación de al menos el umbral T , cuando se comparan mediante el uso de una matriz de puntuación.

Una matriz de puntuación comúnmente utilizada para las búsquedas BLAST es BLOSUM62 , [11] aunque la matriz de puntuación óptima depende de la similitud de secuencia. Una vez que se ensamblan y compilan las palabras y las palabras vecinas, se comparan con las secuencias en la base de datos para encontrar coincidencias. La puntuación umbral T determina si una palabra en particular se incluirá o no en la alineación. Una vez que se ha realizado la siembra, la alineación que tiene solo 3 residuos de longitud se extiende en ambas direcciones mediante el algoritmo utilizado por BLAST. Cada extensión afecta la puntuación de la alineación ya sea aumentándola o disminuyéndola. Si esta puntuación es mayor que una T predeterminada, la alineación se incluirá en los resultados proporcionados por BLAST. Sin embargo, si esta puntuación es menor que esta T predeterminada , la alineación dejará de extenderse, lo que evitará que las áreas de mala alineación se incluyan en los resultados de BLAST. Tenga en cuenta que aumentar la puntuación T limita la cantidad de espacio disponible para la búsqueda, lo que disminuye la cantidad de palabras vecinas y, al mismo tiempo, acelera el proceso de BLAST.

Algoritmo

Para ejecutar el software, BLAST requiere una secuencia de consulta para buscar y una secuencia contra la cual buscar (también llamada secuencia objetivo) o una base de datos de secuencias que contenga múltiples secuencias de este tipo. BLAST encontrará subsecuencias en la base de datos que sean similares a las subsecuencias en la consulta. En el uso típico, la secuencia de consulta es mucho más pequeña que la base de datos, por ejemplo, la consulta puede ser de mil nucleótidos mientras que la base de datos puede ser de varios miles de millones de nucleótidos.

La idea principal de BLAST es que a menudo hay pares de segmentos de alta puntuación (HSP) contenidos en una alineación estadísticamente significativa. BLAST busca alineaciones de secuencias de alta puntuación entre la secuencia de consulta y las secuencias existentes en la base de datos utilizando un enfoque heurístico que se aproxima al algoritmo Smith-Waterman . Sin embargo, el exhaustivo enfoque Smith-Waterman es demasiado lento para buscar grandes bases de datos genómicas como GenBank . Por lo tanto, el algoritmo BLAST utiliza un enfoque heurístico que es menos preciso que el algoritmo Smith-Waterman pero más de 50 veces más rápido. [12] La velocidad y la precisión relativamente buena de BLAST se encuentran entre las innovaciones técnicas clave de los programas BLAST.

A continuación se presenta una descripción general del algoritmo BLAST (una búsqueda de proteína a proteína): [12]

  1. Eliminar regiones de baja complejidad o repeticiones de secuencias en la secuencia de consulta.
    "Región de baja complejidad" significa una región de una secuencia compuesta por unos pocos tipos de elementos. Estas regiones pueden dar puntuaciones altas que confunden al programa a la hora de encontrar las secuencias significativas reales en la base de datos, por lo que deben filtrarse. Las regiones se marcarán con una X (secuencias de proteínas) o una N (secuencias de ácidos nucleicos) y luego serán ignoradas por el programa BLAST. Para filtrar las regiones de baja complejidad, se utiliza el programa SEG para las secuencias de proteínas y el programa DUST para las secuencias de ADN. Por otro lado, el programa XNU se utiliza para enmascarar las repeticiones en tándem en las secuencias de proteínas.
  2. Haz una lista de palabras de k letras de la secuencia de consulta.
    Si tomamos k = 3 como ejemplo, enumeramos las palabras de longitud 3 en la secuencia de la proteína de consulta ( k suele ser 11 para una secuencia de ADN) "secuencialmente", hasta que se incluya la última letra de la secuencia de consulta. El método se ilustra en la figura 1.
    Fig. 1 El método para establecer la lista de palabras de consulta de k letras. [13]
  3. Enumere las posibles palabras coincidentes.
    Este paso es una de las principales diferencias entre BLAST y FASTA. FASTA se ocupa de todas las palabras comunes en la base de datos y las secuencias de consulta que se enumeran en el paso 2; sin embargo, BLAST solo se ocupa de las palabras con puntaje alto. Los puntajes se crean comparando la palabra en la lista en el paso 2 con todas las palabras de 3 letras. Al usar la matriz de puntuación ( matriz de sustitución ) para puntuar la comparación de cada par de residuos, hay 20^3 posibles puntajes de coincidencia para una palabra de 3 letras. Por ejemplo, el puntaje obtenido al comparar PQG con PEG y PQA es respectivamente 15 y 12 con el esquema de ponderación BLOSUM62 . Para las palabras de ADN, una coincidencia se puntúa como +5 y una falta de coincidencia como -4, o como +2 y -3. Después de eso, se utiliza un umbral de puntuación de palabra vecina T para reducir el número de posibles palabras coincidentes. Las palabras cuyas puntuaciones sean mayores que el umbral T permanecerán en la lista de posibles palabras coincidentes, mientras que aquellas con puntuaciones más bajas se descartarán. Por ejemplo, se mantiene PEG, pero se abandona PQA cuando T es 13.
  4. Organice las palabras restantes con alto puntaje en un árbol de búsqueda eficiente.
    Esto permite que el programa compare rápidamente las palabras de alto puntaje con las secuencias de la base de datos.
  5. Repita los pasos 3 y 4 para cada palabra de k letras en la secuencia de consulta.
  6. Escanee las secuencias de la base de datos en busca de coincidencias exactas con las palabras restantes de alto puntaje.
    El programa BLAST escanea las secuencias de la base de datos en busca de la palabra restante con mayor puntuación, como PEG, en cada posición. Si se encuentra una coincidencia exacta, esta se utiliza para generar una posible alineación sin espacios entre la consulta y las secuencias de la base de datos.
  7. Amplíe las coincidencias exactas a pares de segmentos de alta puntuación (HSP).
    • La versión original de BLAST extiende una alineación más larga entre la consulta y la secuencia de la base de datos en las direcciones izquierda y derecha, desde la posición en la que se produjo la coincidencia exacta. La extensión no se detiene hasta que la puntuación total acumulada del HSP comienza a disminuir. En la figura 2 se presenta un ejemplo simplificado.
      Fig. 2 Proceso para ampliar la coincidencia exacta. Adaptado de Biological Sequence Analysis I, Current Topics in Genome Analysis [2].
      Fig. 3 Las posiciones de las cerillas exactas.
    • Para ahorrar más tiempo, se ha desarrollado una versión más nueva de BLAST, llamada BLAST2 o gapped BLAST. BLAST2 adopta un umbral de puntuación de palabras vecinas más bajo para mantener el mismo nivel de sensibilidad para detectar la similitud de secuencias. Por lo tanto, la lista de posibles palabras coincidentes en el paso 3 se hace más larga. A continuación, las regiones coincidentes exactas, dentro de una distancia A entre sí en la misma diagonal en la figura 3, se unirán como una nueva región más larga. Finalmente, las nuevas regiones se extienden con el mismo método que en la versión original de BLAST, y las puntuaciones de los HSP (pares de segmentos de alta puntuación) de las regiones extendidas se crean luego utilizando una matriz de sustitución como antes.
  8. Enumere todas las PAS en la base de datos cuyo puntaje sea lo suficientemente alto como para ser considerado.
    Enumeramos las HSP cuyas puntuaciones son mayores que la puntuación de corte S determinada empíricamente . Al examinar la distribución de las puntuaciones de alineación modeladas mediante la comparación de secuencias aleatorias, se puede determinar una puntuación de corte S tal que su valor sea lo suficientemente grande para garantizar la significancia de las HSP restantes.
  9. Evaluar la importancia de la puntuación HSP.
    A continuación, BLAST evalúa la significancia estadística de cada puntuación HSP explotando la distribución de valores extremos de Gumbel (EVD). (Se ha demostrado que la distribución de las puntuaciones de alineamiento local de Smith-Waterman entre dos secuencias aleatorias sigue la EVD de Gumbel. Para alineamientos locales que contienen espacios no se ha demostrado). De acuerdo con la EVD de Gumbel, la probabilidad p de observar una puntuación S igual o mayor que x viene dada por la ecuación
    dónde
    Los parámetros estadísticos y se estiman ajustando la distribución de las puntuaciones de alineación local sin espacios, de la secuencia de consulta y muchas versiones mezcladas (mezcla global o local) de una secuencia de base de datos, a la distribución de valores extremos de Gumbel. Tenga en cuenta que y dependen de la matriz de sustitución, las penalizaciones por espacios y la composición de la secuencia (las frecuencias de las letras). y son las longitudes efectivas de las secuencias de consulta y base de datos, respectivamente. La longitud de la secuencia original se acorta a la longitud efectiva para compensar el efecto de borde (es probable que un inicio de alineación cerca del final de una de las secuencias de consulta o base de datos no tenga suficiente secuencia para generar una alineación óptima). Se pueden calcular como
    donde es la puntuación esperada promedio por par de residuos alineados en una alineación de dos secuencias aleatorias. Altschul y Gish dieron los valores típicos, , , y , para la alineación local sin brechas utilizando BLOSUM62 como la matriz de sustitución. El uso de los valores típicos para evaluar la significancia se denomina método de tabla de búsqueda; no es preciso. La puntuación esperada E de una coincidencia de base de datos es el número de veces que una secuencia de base de datos no relacionada obtendría una puntuación S mayor que x por casualidad. La expectativa E obtenida en una búsqueda de una base de datos de D secuencias está dada por
    Además, cuando , E podría aproximarse mediante la distribución de Poisson como
    Esta expectativa o valor esperado "E" (a menudo llamado puntaje E o valor E ) que evalúa la importancia del puntaje HSP para la alineación local sin espacios se informa en los resultados de BLAST. El cálculo que se muestra aquí se modifica si se combinan HSP individuales, como cuando se producen alineaciones con espacios (descritas a continuación), debido a la variación de los parámetros estadísticos.
  10. Convertir dos o más regiones HSP en una alineación más larga.
    A veces, encontramos dos o más regiones HSP en una secuencia de base de datos que pueden convertirse en una alineación más larga. Esto proporciona evidencia adicional de la relación entre la consulta y la secuencia de la base de datos. Hay dos métodos, el método de Poisson y el método de suma de puntuaciones, para comparar la significancia de las regiones HSP recién combinadas. Supongamos que hay dos regiones HSP combinadas con los pares de puntuaciones (65, 40) y (52, 45), respectivamente. El método de Poisson otorga más significancia al conjunto con la puntuación más baja máxima (45>40). Sin embargo, el método de suma de puntuaciones prefiere el primer conjunto, porque 65+40 (105) es mayor que 52+45 (97). El BLAST original utiliza el método de Poisson; el BLAST con espacios y el WU-BLAST utilizan el método de suma de puntuaciones.
  11. Muestra las alineaciones locales de Smith-Waterman con espacios de la consulta y cada una de las secuencias de base de datos coincidentes.
    • El BLAST original solo genera alineaciones sin espacios que incluyen las HSP encontradas inicialmente de forma individual, incluso cuando se encuentra más de una HSP en una secuencia de base de datos.
    • BLAST2 produce una única alineación con espacios que pueden incluir todas las regiones HSP encontradas inicialmente. Tenga en cuenta que el cálculo de la puntuación y su valor E correspondiente implica el uso de penalizaciones por espacios adecuadas.
  12. Informar de todos los partidos cuyo puntaje esperado sea inferior a un parámetro umbral E.

Tipos de BLAST

BLASTn (BLAST de nucleótidos)

BLASTn compara una o más secuencias de nucleótidos con una base de datos u otra secuencia. Esto resulta útil cuando se intenta identificar relaciones evolutivas entre organismos. [14]

tBLASTn

tBLASTn se utiliza para buscar proteínas en secuencias que aún no se han traducido a proteínas. Toma una secuencia de proteína y la compara con todas las traducciones posibles de una secuencia de ADN. Esto es útil cuando se buscan regiones codificantes de proteínas similares en secuencias de ADN que no se han anotado por completo, como las EST (secuencias cortas de ADNc de una sola lectura) y las HTG (secuencias de borrador del genoma). Dado que estas secuencias no tienen traducciones de proteínas conocidas, solo podemos buscarlas utilizando tBLASTn. [15]

Explosión

BLASTx compara una secuencia de consulta de nucleótidos, que puede traducirse en seis secuencias de proteínas diferentes, con una base de datos de secuencias de proteínas conocidas. Esta herramienta es útil cuando el marco de lectura de la secuencia de ADN es incierto o contiene errores que podrían causar errores en la codificación de proteínas. BLASTx proporciona estadísticas combinadas de coincidencias en todos los marcos, lo que lo hace útil para el análisis inicial de nuevas secuencias de ADN. [16]

Explosión
Secuencia de proteína que se compara con la base de datos nr utilizando BLASTp.

BLASTp, o Protein BLAST, se utiliza para comparar secuencias de proteínas. Puede introducir una o más secuencias de proteínas que desee comparar con una única secuencia de proteínas o con una base de datos de secuencias de proteínas. Esto resulta útil cuando intenta identificar una proteína buscando secuencias similares en bases de datos de proteínas existentes. [17]

Explosión paralela

Las versiones paralelas de BLAST de bases de datos divididas se implementan utilizando MPI y Pthreads , y se han portado a varias plataformas, incluidas Windows , Linux , Solaris , Mac OS X y AIX . Los enfoques populares para paralelizar BLAST incluyen la distribución de consultas, la segmentación de tablas hash, la paralelización de cálculos y la segmentación de bases de datos (partición). Las bases de datos se dividen en partes de igual tamaño y se almacenan localmente en cada nodo. Cada consulta se ejecuta en todos los nodos en paralelo y los archivos de salida BLAST resultantes de todos los nodos se fusionan para producir la salida final. Las implementaciones específicas incluyen MPIblast, ScalaBLAST, DCBLAST, etc. [18]

MPIblast utiliza una técnica de segmentación de bases de datos para paralelizar el proceso computacional. [19] Esto permite mejoras significativas en el rendimiento al realizar búsquedas BLAST en un conjunto de nodos en un clúster. En algunos escenarios, se puede lograr una aceleración superlineal. Esto hace que MPIblast sea adecuado para los amplios conjuntos de datos genómicos que se utilizan normalmente en bioinformática.

BLAST generalmente se ejecuta a una velocidad de O(n) , donde n es el tamaño de la base de datos. [20] El tiempo para completar la búsqueda aumenta linealmente a medida que aumenta el tamaño de la base de datos. MPIblast utiliza procesamiento paralelo para acelerar la búsqueda. La velocidad ideal para cualquier cálculo paralelo es una complejidad de O(n/p), donde n es el tamaño de la base de datos y p es el número de procesadores. Esto indicaría que el trabajo se distribuye uniformemente entre el número p de procesadores. Esto se visualiza en el gráfico incluido. La aceleración superlineal que a veces puede ocurrir con MPIblast puede tener una complejidad mejor que O(n/p). Esto ocurre porque la memoria caché se puede utilizar para disminuir el tiempo de ejecución. [21]

Alternativas a BLAST

El predecesor de BLAST, FASTA , también se puede utilizar para la búsqueda de similitudes entre proteínas y ADN. FASTA proporciona un conjunto similar de programas para comparar proteínas con bases de datos de proteínas y ADN, bases de datos de ADN con ADN y proteínas, e incluye programas adicionales para trabajar con péptidos cortos desordenados y secuencias de ADN. Además, el paquete FASTA proporciona SSEARCH, una implementación vectorizada del riguroso algoritmo Smith-Waterman . FASTA es más lento que BLAST, pero proporciona una gama mucho más amplia de matrices de puntuación, lo que facilita la adaptación de una búsqueda a una distancia evolutiva específica.

Una alternativa extremadamente rápida pero considerablemente menos sensible a BLAST es BLAT ( B last Like A lignment Tool ). Mientras que BLAST realiza una búsqueda lineal, BLAT se basa en la indexación k-mer de la base de datos y, por lo tanto, a menudo puede encontrar semillas más rápido. [22] Otra alternativa de software similar a BLAT es PatternHunter .

Los avances en la tecnología de secuenciación a finales de la década de 2000 han convertido la búsqueda de coincidencias de nucleótidos muy similares en un problema importante. Los nuevos programas de alineamiento diseñados para este uso suelen utilizar la indexación BWT de la base de datos de destino (normalmente un genoma). Las secuencias de entrada se pueden mapear muy rápidamente y el resultado suele tener la forma de un archivo BAM. Algunos ejemplos de programas de alineamiento son BWA , SOAP y Bowtie .

Para la identificación de proteínas, la búsqueda de dominios conocidos (por ejemplo, de Pfam ) mediante la coincidencia con modelos ocultos de Markov es una alternativa popular, como HMMER .

Una alternativa a BLAST para comparar dos bancos de secuencias es PLAST. PLAST proporciona una herramienta de búsqueda de similitud de secuencias entre bancos de propósito general y alto rendimiento que se basa en los algoritmos PLAST [23] y ORIS [24] . Los resultados de PLAST son muy similares a los de BLAST, pero PLAST es significativamente más rápido y capaz de comparar grandes conjuntos de secuencias con una pequeña huella de memoria (es decir, RAM).

Para aplicaciones en metagenómica, donde la tarea es comparar miles de millones de lecturas cortas de ADN con decenas de millones de referencias de proteínas, DIAMOND [25] funciona hasta 20.000 veces más rápido que BLASTX, manteniendo al mismo tiempo un alto nivel de sensibilidad.

El software de código abierto MMseqs es una alternativa a BLAST/PSI-BLAST, que mejora las herramientas de búsqueda actuales en todo el rango de equilibrio entre velocidad y sensibilidad, logrando sensibilidades mejores que PSI-BLAST a más de 400 veces su velocidad. [26]

Se han sugerido métodos de computación óptica como alternativas prometedoras a las implementaciones eléctricas actuales. OptCAM es un ejemplo de dichos métodos y se ha demostrado que es más rápido que BLAST. [27]

Comparación entre BLAST y el proceso Smith-Waterman

Si bien tanto Smith-Waterman como BLAST se utilizan para encontrar secuencias homólogas mediante la búsqueda y comparación de una secuencia de consulta con aquellas en las bases de datos, tienen sus diferencias.

Debido a que BLAST se basa en un algoritmo heurístico, los resultados obtenidos a través de BLAST no incluirán todos los resultados posibles dentro de la base de datos. BLAST omite coincidencias difíciles de encontrar.

Una alternativa para encontrar todos los resultados posibles sería utilizar el algoritmo Smith-Waterman. Este método se diferencia del método BLAST en dos aspectos: precisión y velocidad. La opción Smith-Waterman proporciona una mayor precisión, ya que encuentra coincidencias que BLAST no puede encontrar, porque no excluye ninguna información. Por lo tanto, es necesaria para la homología remota. Sin embargo, en comparación con BLAST, requiere más tiempo y grandes cantidades de potencia de procesamiento y memoria. Sin embargo, se han realizado avances para acelerar drásticamente el proceso de búsqueda Smith-Waterman. Estos avances incluyen chips FPGA y tecnología SIMD .

Para obtener resultados más completos de BLAST, se pueden cambiar los ajustes predeterminados. Sin embargo, los ajustes óptimos para una secuencia determinada pueden variar. Los ajustes que se pueden cambiar son el valor E, los costos de los espacios vacíos, los filtros, el tamaño de las palabras y la matriz de sustitución.

Cabe señalar que el algoritmo utilizado para BLAST se desarrolló a partir del algoritmo utilizado para Smith-Waterman. BLAST emplea un alineamiento que encuentra "alineamientos locales entre secuencias mediante la búsqueda de coincidencias cortas y a partir de estas coincidencias iniciales se crean alineamientos (locales)". [28]

Visualización de salida de BLAST

Existen distintos programas informáticos disponibles para ayudar a los usuarios a interpretar los resultados de BLAST. Según la instalación y el uso, las características de análisis y la tecnología, a continuación se indican algunas herramientas disponibles: [29]

En las figuras 4 y 5 se muestran ejemplos de visualizaciones de los resultados de BLAST.

Fig. 4 Visualización estilo Circos de los resultados BLAST generados utilizando el software SequenceServer.
Fig. 5 Distribución de la longitud de los resultados BLAST generados con el software SequenceServer que muestra que la consulta (un producto genético previsto) es más larga en comparación con secuencias de bases de datos similares.

Usos de BLAST

BLAST se puede utilizar para diversos fines, entre ellos, la identificación de especies, la localización de dominios, el establecimiento de filogenia, el mapeo de ADN y la comparación.

Identificación de especies
Con el uso de BLAST, es posible identificar correctamente una especie o encontrar especies homólogas. Esto puede resultar útil, por ejemplo, cuando se trabaja con una secuencia de ADN de una especie desconocida.
Localización de dominios
Al trabajar con una secuencia de proteínas, puede ingresarla en BLAST para localizar dominios conocidos dentro de la secuencia de interés.
Establecimiento de la filogenia
Con los resultados obtenidos a través de BLAST, puede crear un árbol filogenético utilizando la página web de BLAST. Las filogenias basadas únicamente en BLAST son menos fiables que otros métodos filogenéticos computacionales diseñados específicamente , por lo que solo se deben utilizar para análisis filogenéticos de "primer paso".
Mapeo de ADN
Cuando se trabaja con una especie conocida y se busca secuenciar un gen en una ubicación desconocida, BLAST puede comparar la posición cromosómica de la secuencia de interés con las secuencias relevantes en las bases de datos. El NCBI tiene una herramienta "Magic-BLAST" creada en torno a BLAST para este propósito. [30]
Comparación
Al trabajar con genes, BLAST puede localizar genes comunes en dos especies relacionadas y puede utilizarse para mapear anotaciones de un organismo a otro.
Clasificación de la taxonomía
BLAST puede utilizar secuencias genéticas para comparar múltiples taxones con datos taxonómicos conocidos. De esta manera, puede proporcionar una imagen de las relaciones evolutivas entre varias especies (Fig. 6). Esta es una forma útil de identificar genes huérfanos , ya que si el gen aparece en un organismo fuera del linaje ancestral, no se clasificaría como un gen huérfano.
Fig. 6 Resultado de una búsqueda BLASTP que muestra que un gen encontrado en Bufo japonicus también se encuentra en muchas otras especies del linaje de la rana ( Anura ).
Aunque este método es útil, algunas opciones más precisas para encontrar homólogos serían mediante la alineación de secuencias por pares y la alineación de secuencias múltiples .

Véase también

Referencias

  1. ^ Notas de la versión de BLAST. Centro Nacional de Información Biotecnológica (EE. UU.). 24 de junio de 2024.
  2. ^ "Información para desarrolladores de BLAST". blast.ncbi.nlm.nih.gov .
  3. ^ ab Douglas Martin (21 de febrero de 2008). "Samuel Karlin, matemático versátil, muere a los 83 años". The New York Times .
  4. ^ RM Casey (2005). "Las secuencias BLAST ayudan en la genómica y la proteómica". Business Intelligence Network.
  5. ^ "Temas de BLAST".
  6. ^ Dan Stober (16 de enero de 2008). «Sam Karlin, matemático que mejoró el análisis de ADN, murió a los 83 años». Stanford.edu . Archivado desde el original el 12 de junio de 2016. Consultado el 16 de julio de 2019 .
  7. ^ por Stephen Altschul ; Warren Gish ; Webb Miller ; Eugene Myers ; David J. Lipman (1990). "Herramienta básica de búsqueda de alineamiento local". Revista de biología molecular . 215 (3): 403–410. doi :10.1016/S0022-2836(05)80360-2. PMID  2231712. S2CID  14441902.
  8. ^ Oehmen, C.; Nieplocha, J. (2006). "ScalaBLAST: una implementación escalable de BLAST para análisis bioinformáticos intensivos en datos de alto rendimiento". IEEE Transactions on Parallel and Distributed Systems . 17 (8): 740. doi :10.1109/TPDS.2006.112. S2CID  11122366.
  9. ^ Oehmen, CS; Baxter, DJ (2013). "ScalaBLAST 2.0: cálculos BLAST rápidos y robustos en sistemas multiprocesador". Bioinformática . 29 (6): 797–798. doi :10.1093/bioinformatics/btt013. PMC 3597145 . PMID  23361326. 
  10. ^ "Sense from Sequences: Stephen F. Altschul sobre cómo mejorar BLAST". ScienceWatch. Julio-agosto de 2000. Archivado desde el original el 7 de octubre de 2007.
  11. ^ Steven Henikoff ; Jorja Henikoff (1992). "Matrices de sustitución de aminoácidos a partir de bloques de proteínas". PNAS . 89 (22): 10915–10919. Bibcode :1992PNAS...8910915H. doi : 10.1073/pnas.89.22.10915 . PMC 50453 . PMID  1438297. 
  12. ^ ab Mount, DW (2004). Bioinformática: análisis de secuencias y genomas (2.ª ed.). Cold Spring Harbor Press. ISBN 978-0-87969-712-9.
  13. ^ Adaptado de Análisis de secuencias biológicas I, Temas actuales en análisis del genoma [1].
  14. ^ "Guías de la biblioteca: Recursos de bioinformática del NCBI: Una introducción: BLAST: Comparar e identificar secuencias".
  15. ^ "Guías de la biblioteca: Recursos de bioinformática del NCBI: Una introducción: BLAST: Comparar e identificar secuencias".
  16. ^ "Guías de la biblioteca: Recursos de bioinformática del NCBI: Una introducción: BLAST: Comparar e identificar secuencias".
  17. ^ "Guías de la biblioteca: Recursos de bioinformática del NCBI: Una introducción: BLAST: Comparar e identificar secuencias".
  18. ^ Yim, WC; Cushman, JC (2017). "Divide and Conquer (DC) BLAST: ejecución rápida y sencilla de BLAST en entornos HPC". PeerJ . 5 : e3486. doi : 10.7717/peerj.3486 . PMC 5483034 . PMID  28652936. 
  19. ^ Darling, Ace; Carey, Lewis; Feng, Wei-Chun (2003). "El diseño, la implementación y la evaluación de mpiBLAST" (PDF) . Universidad de Wisconsin-Madison . Consultado el 17 de abril de 2023 .
  20. ^ Kellis, Manolis (5 de octubre de 2020). "El algoritmo Blast (herramienta básica de búsqueda de alineamientos)". LibreTexts . Consultado el 17 de abril de 2023 .
  21. ^ Darling, Ace; Carey, Lewis; Feng, Wei-Chun (2003). "El diseño, la implementación y la evaluación de mpiBLAST" (PDF) . Universidad de Wisconsin-Madison . Consultado el 17 de abril de 2023 .
  22. ^ Kent, W. James (1 de abril de 2002). "BLAT: la herramienta de alineación similar a BLAST". Genome Research . 12 (4): 656–664. doi :10.1101/gr.229202. ISSN  1088-9051. PMC 187518 . PMID  11932250. 
  23. ^ Lavenier, D.; Lavenier, Dominique (2009). "PLAST: herramienta de búsqueda de alineamiento local paralelo para comparación de bases de datos". BMC Bioinformatics . 10 : 329. doi : 10.1186/1471-2105-10-329 . PMC 2770072 . PMID  19821978. 
  24. ^ Lavenier, D. (2009). "Algoritmo de semilla de índice ordenado para comparación intensiva de secuencias de ADN" (PDF) . Simposio internacional IEEE de 2008 sobre procesamiento paralelo y distribuido (PDF) . pp. 1–8. CiteSeerX 10.1.1.155.3633 . doi :10.1109/IPDPS.2008.4536172. ISBN.  978-1-4244-1693-6.S2CID10804289  .​
  25. ^ Buchfink, Xie y Huson (2015). "Alineamiento de proteínas rápido y sensible usando DIAMOND". Nature Methods . 12 (1): 59–60. doi :10.1038/nmeth.3176. PMID  25402007. S2CID  5346781.
  26. ^ Steinegger, Martin; Soeding, Johannes (16 de octubre de 2017). "MMseqs2 permite la búsqueda sensible de secuencias de proteínas para el análisis de conjuntos de datos masivos". Nature Biotechnology . 35 (11): 1026–1028. doi :10.1038/nbt.3988. hdl : 11858/00-001M-0000-002E-1967-3 . PMID  29035372. S2CID  402352.
  27. ^ Maleki, Ehsan; Koohi, Somayyeh; Kavehvash, Zahra; Mashaghi, Alireza (2020). "OptCAM: una arquitectura totalmente óptica ultrarrápida para el descubrimiento de variantes de ADN". Revista de Biofotónica . 13 (1): e201900227. doi : 10.1002/jbio.201900227 . PMID  31397961.
  28. ^ "Bioinformática explicada: BLAST versus Smith-Waterman" (PDF) . 4 de julio de 2007.
  29. ^ Neumann, Kumar y Shalchian-Tabrizi (2014). "Visualización de resultados de BLAST en la nueva era de la secuenciación". Briefings in Bioinformatics . 15 (4): 484–503. doi : 10.1093/bib/bbt009 . PMID  23603091.
  30. ^ "NCBI Magic-BLAST". ncbi.github.io . Consultado el 16 de mayo de 2019 .

Enlaces externos