Phred es un programa informático para la identificación de bases , es decir, la identificación de una secuencia de nucleobases a partir de datos de "trazas" de fluorescencia generados por un secuenciador de ADN automatizado que utiliza electroforesis y el método de 4 tintes fluorescentes. [1] [2] Cuando se desarrolló originalmente, Phred produjo significativamente menos errores en los conjuntos de datos examinados que otros métodos, con un promedio de 40-50% menos de errores. Los puntajes de calidad de Phred se han aceptado ampliamente para caracterizar la calidad de las secuencias de ADN y se pueden usar para comparar la eficacia de diferentes métodos de secuenciación.
La secuenciación de ADN con colorante fluorescente es una técnica de biología molecular que implica marcar secuencias de ADN monocatenario de longitud variada con 4 colorantes fluorescentes (que corresponden a 4 bases diferentes utilizadas en el ADN) y posteriormente separar las secuencias de ADN mediante el método de electroforesis capilar o en gel de placa (consulte Secuenciación de ADN ). La ejecución de la electroforesis se controla mediante un CCD en el secuenciador de ADN y esto produce datos de "traza" de tiempo (o " cromatograma ") de los "picos" fluorescentes que pasaron por el punto del CCD. Al examinar los picos de fluorescencia en los datos de traza, podemos determinar el orden de las bases individuales ( nucleobase ) en el ADN . Sin embargo, dado que la intensidad, la forma y la ubicación de un pico de fluorescencia no siempre son consistentes o inequívocas, a veces es difícil o lleva mucho tiempo determinar (o "llamar") las bases correctas para los picos con precisión si se hace manualmente.
Las técnicas de secuenciación automatizada de ADN han revolucionado el campo de la biología molecular , generando enormes cantidades de datos de secuencias de ADN. Sin embargo, los datos de secuencia se producen a un ritmo significativamente mayor que el que se puede procesar manualmente (es decir, interpretar los datos de trazas para producir los datos de secuencia), lo que crea un cuello de botella. Para eliminar el cuello de botella, se necesitan tanto software automatizado que pueda acelerar el procesamiento con mayor precisión como una medida confiable de la precisión. Para satisfacer esta necesidad, se han desarrollado muchos programas de software . Uno de ellos es Phred.
Phred fue concebido originalmente a principios de la década de 1990 por Phil Green , entonces profesor de la Universidad de Washington en St. Louis . LaDeana Hillier , Michael Wendl , David Ficenec, Tim Gleeson, Alan Blanchard y Richard Mott también contribuyeron al código base y al algoritmo. Green se trasladó a la Universidad de Washington a mediados de la década de 1990, tras lo cual el desarrollo fue gestionado principalmente por él mismo y Brent Ewing. Phred desempeñó un papel destacado en el Proyecto Genoma Humano , donde se procesaron grandes cantidades de datos de secuencias mediante scripts automatizados. En su momento fue el programa de software de llamada de bases más utilizado tanto por los laboratorios de secuenciación de ADN académicos como comerciales debido a su alta precisión de llamada de bases . [3] Phred es distribuido comercialmente por CodonCode Corporation y se utiliza para realizar la función "Llamar bases" en el programa CodonCode Aligner . También lo utiliza el complemento MacVector Assembler.
Phred utiliza un procedimiento de cuatro fases según lo descrito por Ewing et al. para determinar una secuencia de llamadas de bases a partir del rastreo de secuencia de ADN procesado:
Todo el procedimiento es rápido y suele tardar menos de medio segundo por traza. Los resultados se pueden generar como un archivo PHD, que contiene datos de base en forma de tripletas que consisten en la llamada de base, la calidad y la posición. [4]
Phred se utiliza a menudo junto con otro programa de software llamado Phrap , que es un programa para el ensamblaje de secuencias de ADN. Phrap se utilizó de forma rutinaria en algunos de los proyectos de secuenciación más importantes del Proyecto de Secuenciación del Genoma Humano y actualmente es uno de los programas de ensamblaje de secuencias de ADN más utilizados en la industria biotecnológica. Phrap utiliza las puntuaciones de calidad de Phred para determinar secuencias de consenso de alta precisión y para estimar la calidad de las secuencias de consenso. Phrap también utiliza las puntuaciones de calidad de Phred para estimar si es más probable que las discrepancias entre dos secuencias superpuestas surjan de errores aleatorios o de diferentes copias de una secuencia repetida.