Programa informático

Phred es un programa informático para la identificación de bases , es decir, la identificación de una secuencia de nucleobases a partir de datos de "trazas" de fluorescencia generados por un secuenciador de ADN automatizado que utiliza electroforesis y el método de 4 tintes fluorescentes. ^[1]^[2] Cuando se desarrolló originalmente, Phred produjo significativamente menos errores en los conjuntos de datos examinados que otros métodos, con un promedio de 40-50% menos de errores. Los puntajes de calidad de Phred se han aceptado ampliamente para caracterizar la calidad de las secuencias de ADN y se pueden usar para comparar la eficacia de diferentes métodos de secuenciación.

Fondo

La secuenciación de ADN con colorante fluorescente es una técnica de biología molecular que implica marcar secuencias de ADN monocatenario de longitud variada con 4 colorantes fluorescentes (que corresponden a 4 bases diferentes utilizadas en el ADN) y posteriormente separar las secuencias de ADN mediante el método de electroforesis capilar o en gel de placa (consulte Secuenciación de ADN ). La ejecución de la electroforesis se controla mediante un CCD en el secuenciador de ADN y esto produce datos de "traza" de tiempo (o " cromatograma ") de los "picos" fluorescentes que pasaron por el punto del CCD. Al examinar los picos de fluorescencia en los datos de traza, podemos determinar el orden de las bases individuales ( nucleobase ) en el ADN . Sin embargo, dado que la intensidad, la forma y la ubicación de un pico de fluorescencia no siempre son consistentes o inequívocas, a veces es difícil o lleva mucho tiempo determinar (o "llamar") las bases correctas para los picos con precisión si se hace manualmente.

Las técnicas de secuenciación automatizada de ADN han revolucionado el campo de la biología molecular , generando enormes cantidades de datos de secuencias de ADN. Sin embargo, los datos de secuencia se producen a un ritmo significativamente mayor que el que se puede procesar manualmente (es decir, interpretar los datos de trazas para producir los datos de secuencia), lo que crea un cuello de botella. Para eliminar el cuello de botella, se necesitan tanto software automatizado que pueda acelerar el procesamiento con mayor precisión como una medida confiable de la precisión. Para satisfacer esta necesidad, se han desarrollado muchos programas de software . Uno de ellos es Phred.

Historia

Phred fue concebido originalmente a principios de la década de 1990 por Phil Green , entonces profesor de la Universidad de Washington en St. Louis . LaDeana Hillier , Michael Wendl , David Ficenec, Tim Gleeson, Alan Blanchard y Richard Mott también contribuyeron al código base y al algoritmo. Green se trasladó a la Universidad de Washington a mediados de la década de 1990, tras lo cual el desarrollo fue gestionado principalmente por él mismo y Brent Ewing. Phred desempeñó un papel destacado en el Proyecto Genoma Humano , donde se procesaron grandes cantidades de datos de secuencias mediante scripts automatizados. En su momento fue el programa de software de llamada de bases más utilizado tanto por los laboratorios de secuenciación de ADN académicos como comerciales debido a su alta precisión de llamada de bases . ^[3] Phred es distribuido comercialmente por CodonCode Corporation y se utiliza para realizar la función "Llamar bases" en el programa CodonCode Aligner . También lo utiliza el complemento MacVector Assembler.

Métodos

Phred utiliza un procedimiento de cuatro fases según lo descrito por Ewing et al. para determinar una secuencia de llamadas de bases a partir del rastreo de secuencia de ADN procesado:

Las ubicaciones de los picos previstos se determinan basándose en el supuesto de que los fragmentos están espaciados de manera relativamente uniforme, en promedio, en la mayoría de las regiones del gel, para determinar la cantidad correcta de bases y sus ubicaciones idealizadas espaciadas de manera uniforme en regiones donde los picos no están bien resueltos, son ruidosos o están desplazados (como en las compresiones).
Los picos observados se identifican en el rastro.
Los picos observados se corresponden con las ubicaciones de los picos previstos, omitiendo algunos picos y dividiendo otros; como cada pico observado proviene de una matriz específica y, por lo tanto, está asociado con 1 de las 4 bases (A, G, T o C), la lista ordenada de picos observados coincidentes determina una secuencia de bases para el rastro.
Se verifican los picos observados no coincidentes para detectar cualquier pico que parezca representar una base pero que no se pudo asignar a un pico previsto en la tercera fase y, si se encuentra, la base correspondiente se inserta en la secuencia de lectura.

Todo el procedimiento es rápido y suele tardar menos de medio segundo por traza. Los resultados se pueden generar como un archivo PHD, que contiene datos de base en forma de tripletas que consisten en la llamada de base, la calidad y la posición. ^[4]

Aplicaciones

Phred se utiliza a menudo junto con otro programa de software llamado Phrap , que es un programa para el ensamblaje de secuencias de ADN. Phrap se utilizó de forma rutinaria en algunos de los proyectos de secuenciación más importantes del Proyecto de Secuenciación del Genoma Humano y actualmente es uno de los programas de ensamblaje de secuencias de ADN más utilizados en la industria biotecnológica. Phrap utiliza las puntuaciones de calidad de Phred para determinar secuencias de consenso de alta precisión y para estimar la calidad de las secuencias de consenso. Phrap también utiliza las puntuaciones de calidad de Phred para estimar si es más probable que las discrepancias entre dos secuencias superpuestas surjan de errores aleatorios o de diferentes copias de una secuencia repetida.

Referencias

^ Ewing B, Hillier L , Wendl MC , Green P. (1998): Identificación de bases de trazas de secuenciadores automatizados utilizando phred. I. Evaluación de precisión. Genome Res. 8(3):175–185. PMID 9521921 artículo completo
^ Ewing, Brent; Green, Phil (1998-03-01). "Llamada de bases de trazas de secuenciadores automáticos utilizando Phred. II. Probabilidades de error". Genome Research . 8 (3). Cold Spring Harbor Laboratory: 186–194. doi : 10.1101/gr.8.3.186 . ISSN 1088-9051. PMID 9521922.
^ Richterich P. (1998): Estimación de errores en secuencias de ADN "en bruto": un estudio de validación. Genome Res. 8(3):251–259. PMID 9521928
^ Green, Phil; Ewing, Brent. "Documentación PHRED". Laboratorio de Phil Green . Universidad de Washington . Consultado el 30 de septiembre de 2021 .

Enlaces externos

La página de inicio del Laboratorio de Phil Green Phrap.