Una puntuación de calidad de Phred es una medida de la calidad de la identificación de las nucleobases generadas por la secuenciación automatizada de ADN . [1] [2] Se desarrolló originalmente para el programa informático Phred para ayudar en la automatización de la secuenciación de ADN en el Proyecto Genoma Humano . Las puntuaciones de calidad de Phred se asignan a cada llamada de base de nucleótido en trazas del secuenciador automatizado. [1] [2] El formato FASTQ codifica las puntuaciones de phred como caracteres ASCII junto con las secuencias leídas. Las puntuaciones de calidad de Phred se han aceptado ampliamente para caracterizar la calidad de las secuencias de ADN y se pueden utilizar para comparar la eficacia de diferentes métodos de secuenciación. Quizás el uso más importante de las puntuaciones de calidad de Phred es la determinación automática de secuencias de consenso precisas y basadas en la calidad .
Los puntajes de calidad de Phred están relacionados logarítmicamente con las probabilidades de error de llamada de base y se definen como [2]
.
Esta relación también se puede escribir como
.
Por ejemplo, si Phred asigna una puntuación de calidad de 30 a una base, las probabilidades de que esta base se llame incorrectamente son de 1 en 1000.
La puntuación de calidad phred es la relación negativa entre la probabilidad de error y el nivel de referencia expresado en decibelios (dB) .
La idea de los puntajes de calidad de secuencia se remonta a la descripción original del formato de archivo SCF por el grupo de Rodger Staden en 1992. [3] En 1995, Bonfield y Staden propusieron un método para utilizar puntajes de calidad específicos de cada base para mejorar la precisión de las secuencias de consenso en proyectos de secuenciación de ADN. [4]
Sin embargo, los primeros intentos de desarrollar puntuaciones de calidad específicas para cada base [5] [6] tuvieron un éxito limitado.
El primer programa que desarrolló puntuaciones de calidad específicas para cada base de datos fue el programa Phred . Phred fue capaz de calcular puntuaciones de calidad muy precisas que estaban vinculadas logarítmicamente a las probabilidades de error. Phred fue rápidamente adoptado por todos los principales centros de secuenciación del genoma, así como por muchos otros laboratorios; la gran mayoría de las secuencias de ADN producidas durante el Proyecto Genoma Humano se procesaron con Phred.
Después de que los puntajes de calidad de Phred se convirtieron en el estándar requerido en la secuenciación de ADN, otros fabricantes de instrumentos de secuenciación de ADN, incluidos Li-Cor y ABI , desarrollaron métricas de puntaje de calidad similares para su software de llamada de bases. [7]
El enfoque de Phred para la determinación de bases y el cálculo de puntuaciones de calidad fue descrito por Ewing et al. Para determinar las puntuaciones de calidad, Phred primero calcula varios parámetros relacionados con la forma y la resolución de picos en cada base. Luego, Phred utiliza estos parámetros para buscar una puntuación de calidad correspondiente en enormes tablas de búsqueda. Estas tablas de búsqueda se generaron a partir de trazas de secuencias donde se conocía la secuencia correcta y están codificadas en Phred; se utilizan diferentes tablas de búsqueda para diferentes químicas y máquinas de secuenciación. Una evaluación de la precisión de las puntuaciones de calidad de Phred para una serie de variaciones en la química y la instrumentación de secuenciación mostró que las puntuaciones de calidad de Phred son altamente precisas. [8]
Phred se desarrolló originalmente para máquinas de secuenciación de "gel en losa" como la ABI373. Cuando se desarrolló originalmente, Phred tenía una tasa de error de llamada de bases más baja que el software de llamada de bases del fabricante, que tampoco proporcionaba puntuaciones de calidad. Sin embargo, Phred solo se adaptó parcialmente a los secuenciadores de ADN capilares que se hicieron populares más tarde. En contraste, los fabricantes de instrumentos como ABI continuaron adaptando sus cambios de software de llamada de bases en la química de secuenciación y han incluido la capacidad de crear puntuaciones de calidad similares a Phred. Por lo tanto, la necesidad de usar Phred para la llamada de bases de trazas de secuenciación de ADN ha disminuido y el uso de las versiones de software actuales del fabricante a menudo puede brindar resultados más precisos.
Los puntajes de calidad de Phred se utilizan para evaluar la calidad de la secuencia, reconocer y eliminar secuencias de baja calidad (recorte final) y determinar secuencias de consenso precisas.
Originalmente, los puntajes de calidad de Phred se utilizaban principalmente en el programa de ensamblaje de secuencias Phrap . Phrap se utilizaba de forma rutinaria en algunos de los proyectos de secuenciación más importantes del Proyecto de secuenciación del genoma humano y actualmente es uno de los programas de ensamblaje de secuencias de ADN más utilizados en la industria biotecnológica. Phrap utiliza los puntajes de calidad de Phred para determinar secuencias de consenso de alta precisión y para estimar la calidad de las secuencias de consenso. Phrap también utiliza los puntajes de calidad de Phred para estimar si es más probable que las discrepancias entre dos secuencias superpuestas surjan de errores aleatorios o de diferentes copias de una secuencia repetida.
En el marco del Proyecto Genoma Humano , el uso más importante de los puntajes de calidad de Phred fue la determinación automática de secuencias de consenso. Antes de Phred y Phrap, los científicos tenían que observar cuidadosamente las discrepancias entre fragmentos de ADN superpuestos; a menudo, esto implicaba la determinación manual de la secuencia de mayor calidad y la edición manual de cualquier error. El uso de los puntajes de calidad de Phred por parte de Phrap automatizó de manera efectiva la búsqueda de la secuencia de consenso de mayor calidad; en la mayoría de los casos, esto evita por completo la necesidad de cualquier edición manual. Como resultado, la tasa de error estimada en los ensamblajes que se crearon automáticamente con Phred y Phrap es, por lo general, sustancialmente menor que la tasa de error de la secuencia editada manualmente.
En 2009, muchos paquetes de software de uso común utilizan puntuaciones de calidad de Phred, aunque en distinta medida. Programas como Sequencher utilizan puntuaciones de calidad para visualización, recorte de extremos y determinación de consenso; otros programas como CodonCode Aligner también implementan métodos de consenso basados en la calidad.
Los puntajes de calidad normalmente se almacenan junto con la secuencia de nucleótidos en el formato FASTQ ampliamente aceptado . Representan aproximadamente la mitad del espacio de disco requerido en el formato FASTQ (antes de la compresión) y, por lo tanto, la compresión de los valores de calidad puede reducir significativamente los requisitos de almacenamiento y acelerar el análisis y la transmisión de datos de secuenciación. Recientemente, se están considerando en la literatura la compresión sin pérdida y con pérdida . Por ejemplo, el algoritmo QualComp [9] realiza una compresión con pérdida con una tasa (número de bits por valor de calidad) especificada por el usuario. Basándose en los resultados de la teoría de la tasa-distorsión, asigna el número de bits para minimizar el MSE (error cuadrático medio) entre los valores de calidad originales (sin comprimir) y los reconstruidos (después de la compresión). Otros algoritmos para la compresión de valores de calidad incluyen SCALCE, [10] Fastqz [11] y más recientemente QVZ, [12] AQUa [13] y el estándar MPEG-G, que actualmente está en desarrollo por el grupo de trabajo de estandarización MPEG . Ambos son algoritmos de compresión sin pérdida que proporcionan un enfoque de transformación con pérdida controlada opcional. Por ejemplo, SCALCE reduce el tamaño del alfabeto basándose en la observación de que los valores de calidad "vecinos" son similares en general.