Puntuación de calidad de Phred

Una puntuación de calidad de Phred es una medida de la calidad de la identificación de las nucleobases generadas por la secuenciación automatizada de ADN . ^[1]^[2] Se desarrolló originalmente para el programa informático Phred para ayudar en la automatización de la secuenciación de ADN en el Proyecto Genoma Humano . Las puntuaciones de calidad de Phred se asignan a cada llamada de base de nucleótido en trazas del secuenciador automatizado. ^[1]^[2] El formato FASTQ codifica las puntuaciones de phred como caracteres ASCII junto con las secuencias leídas. Las puntuaciones de calidad de Phred se han aceptado ampliamente para caracterizar la calidad de las secuencias de ADN y se pueden utilizar para comparar la eficacia de diferentes métodos de secuenciación. Quizás el uso más importante de las puntuaciones de calidad de Phred es la determinación automática de secuencias de consenso precisas y basadas en la calidad .

Definición

Los puntajes de calidad de Phred están relacionados logarítmicamente con las probabilidades de error de llamada de base y se definen como ^[2] ${\estilo de visualización Q}$ ${\estilo de visualización P}$

$Q=-10\ \log _{10}P$ .

Esta relación también se puede escribir como

$P=10^{\frac {-Q}{10}}$ .

Por ejemplo, si Phred asigna una puntuación de calidad de 30 a una base, las probabilidades de que esta base se llame incorrectamente son de 1 en 1000.

La puntuación de calidad phred es la relación negativa entre la probabilidad de error y el nivel de referencia expresado en decibelios (dB) . ${\estilo de visualización P=1}$

Historia

La idea de los puntajes de calidad de secuencia se remonta a la descripción original del formato de archivo SCF por el grupo de Rodger Staden en 1992. ^[3] En 1995, Bonfield y Staden propusieron un método para utilizar puntajes de calidad específicos de cada base para mejorar la precisión de las secuencias de consenso en proyectos de secuenciación de ADN. ^[4]

Sin embargo, los primeros intentos de desarrollar puntuaciones de calidad específicas para cada base ^[5]^[6] tuvieron un éxito limitado.

El primer programa que desarrolló puntuaciones de calidad específicas para cada base de datos fue el programa Phred . Phred fue capaz de calcular puntuaciones de calidad muy precisas que estaban vinculadas logarítmicamente a las probabilidades de error. Phred fue rápidamente adoptado por todos los principales centros de secuenciación del genoma, así como por muchos otros laboratorios; la gran mayoría de las secuencias de ADN producidas durante el Proyecto Genoma Humano se procesaron con Phred.

Después de que los puntajes de calidad de Phred se convirtieron en el estándar requerido en la secuenciación de ADN, otros fabricantes de instrumentos de secuenciación de ADN, incluidos Li-Cor y ABI , desarrollaron métricas de puntaje de calidad similares para su software de llamada de bases. ^[7]

Métodos

El enfoque de Phred para la determinación de bases y el cálculo de puntuaciones de calidad fue descrito por Ewing et al. Para determinar las puntuaciones de calidad, Phred primero calcula varios parámetros relacionados con la forma y la resolución de picos en cada base. Luego, Phred utiliza estos parámetros para buscar una puntuación de calidad correspondiente en enormes tablas de búsqueda. Estas tablas de búsqueda se generaron a partir de trazas de secuencias donde se conocía la secuencia correcta y están codificadas en Phred; se utilizan diferentes tablas de búsqueda para diferentes químicas y máquinas de secuenciación. Una evaluación de la precisión de las puntuaciones de calidad de Phred para una serie de variaciones en la química y la instrumentación de secuenciación mostró que las puntuaciones de calidad de Phred son altamente precisas. ^[8]

Phred se desarrolló originalmente para máquinas de secuenciación de "gel en losa" como la ABI373. Cuando se desarrolló originalmente, Phred tenía una tasa de error de llamada de bases más baja que el software de llamada de bases del fabricante, que tampoco proporcionaba puntuaciones de calidad. Sin embargo, Phred solo se adaptó parcialmente a los secuenciadores de ADN capilares que se hicieron populares más tarde. En contraste, los fabricantes de instrumentos como ABI continuaron adaptando sus cambios de software de llamada de bases en la química de secuenciación y han incluido la capacidad de crear puntuaciones de calidad similares a Phred. Por lo tanto, la necesidad de usar Phred para la llamada de bases de trazas de secuenciación de ADN ha disminuido y el uso de las versiones de software actuales del fabricante a menudo puede brindar resultados más precisos.

Aplicaciones

Los puntajes de calidad de Phred se utilizan para evaluar la calidad de la secuencia, reconocer y eliminar secuencias de baja calidad (recorte final) y determinar secuencias de consenso precisas.

Originalmente, los puntajes de calidad de Phred se utilizaban principalmente en el programa de ensamblaje de secuencias Phrap . Phrap se utilizaba de forma rutinaria en algunos de los proyectos de secuenciación más importantes del Proyecto de secuenciación del genoma humano y actualmente es uno de los programas de ensamblaje de secuencias de ADN más utilizados en la industria biotecnológica. Phrap utiliza los puntajes de calidad de Phred para determinar secuencias de consenso de alta precisión y para estimar la calidad de las secuencias de consenso. Phrap también utiliza los puntajes de calidad de Phred para estimar si es más probable que las discrepancias entre dos secuencias superpuestas surjan de errores aleatorios o de diferentes copias de una secuencia repetida.

En el marco del Proyecto Genoma Humano , el uso más importante de los puntajes de calidad de Phred fue la determinación automática de secuencias de consenso. Antes de Phred y Phrap, los científicos tenían que observar cuidadosamente las discrepancias entre fragmentos de ADN superpuestos; a menudo, esto implicaba la determinación manual de la secuencia de mayor calidad y la edición manual de cualquier error. El uso de los puntajes de calidad de Phred por parte de Phrap automatizó de manera efectiva la búsqueda de la secuencia de consenso de mayor calidad; en la mayoría de los casos, esto evita por completo la necesidad de cualquier edición manual. Como resultado, la tasa de error estimada en los ensamblajes que se crearon automáticamente con Phred y Phrap es, por lo general, sustancialmente menor que la tasa de error de la secuencia editada manualmente.

En 2009, muchos paquetes de software de uso común utilizan puntuaciones de calidad de Phred, aunque en distinta medida. Programas como Sequencher utilizan puntuaciones de calidad para visualización, recorte de extremos y determinación de consenso; otros programas como CodonCode Aligner también implementan métodos de consenso basados en la calidad.

Compresión

Los puntajes de calidad normalmente se almacenan junto con la secuencia de nucleótidos en el formato FASTQ ampliamente aceptado . Representan aproximadamente la mitad del espacio de disco requerido en el formato FASTQ (antes de la compresión) y, por lo tanto, la compresión de los valores de calidad puede reducir significativamente los requisitos de almacenamiento y acelerar el análisis y la transmisión de datos de secuenciación. Recientemente, se están considerando en la literatura la compresión sin pérdida y con pérdida . Por ejemplo, el algoritmo QualComp ^[9] realiza una compresión con pérdida con una tasa (número de bits por valor de calidad) especificada por el usuario. Basándose en los resultados de la teoría de la tasa-distorsión, asigna el número de bits para minimizar el MSE (error cuadrático medio) entre los valores de calidad originales (sin comprimir) y los reconstruidos (después de la compresión). Otros algoritmos para la compresión de valores de calidad incluyen SCALCE, ^[10] Fastqz ^[11] y más recientemente QVZ, ^[12] AQUa ^[13] y el estándar MPEG-G, que actualmente está en desarrollo por el grupo de trabajo de estandarización MPEG . Ambos son algoritmos de compresión sin pérdida que proporcionan un enfoque de transformación con pérdida controlada opcional. Por ejemplo, SCALCE reduce el tamaño del alfabeto basándose en la observación de que los valores de calidad "vecinos" son similares en general.

Símbolos

Referencias

^ ab Ewing B; Hillier L ; Wendl MC ; Green P. (1998). "Llamado de bases de trazas de secuenciadores automatizados utilizando phred. I. Evaluación de precisión". Genome Research . 8 (3): 175–185. doi : 10.1101/gr.8.3.175 . PMID 9521921.
^ abc Ewing B, Green P (1998). "Llamada de bases de trazas de secuenciadores automatizados utilizando phred. II. Probabilidades de error". Genome Research . 8 (3): 186–194. doi : 10.1101/gr.8.3.186 . PMID 9521922.
^ Dear S, Staden R (1992). "Un formato de archivo estándar para datos de instrumentos de secuenciación de ADN". DNA Sequence . 3 (2): 107–110. doi :10.3109/10425179209034003. PMID 1457811.
^ Bonfield JK, Staden R (25 de abril de 1995). "La aplicación de estimaciones numéricas de precisión de determinación de bases a proyectos de secuenciación de ADN". Nucleic Acids Research . 23 (8): 1406–1410. doi :10.1093/nar/23.8.1406. PMC 306869 . PMID 7753633.
^ Churchill GA, Waterman MS (septiembre de 1992). "La precisión de las secuencias de ADN: estimación de la calidad de la secuencia". Genomics . 14 (1): 89–98. doi :10.1016/S0888-7543(05)80288-5. hdl : 1813/31678 . PMID 1358801.
^ Lawrence CB, Solovyev VV (1994). "Asignación de probabilidad de error específica de posición a datos de secuencias de ADN primarias". Nucleic Acids Research . 22 (7): 1272–1280. doi :10.1093/nar/22.7.1272. PMC 523653 . PMID 8165143.
^ "Tecnologías de vida - Estados Unidos" (PDF) .
^ Richterich P (1998). "Estimación de errores en secuencias de ADN "en bruto": un estudio de validación". Genome Research . 8 (3): 251–259. doi :10.1101/gr.8.3.251. PMC 310698 . PMID 9521928.
^ Ochoa, Idoia; Asnani, Himanshu; Bharadia, Dinesh; Chowdhury, Mainak; Weissman, Tsachy; Yona, Golan (2013). "Qual Comp: Un nuevo compresor con pérdida para puntuaciones de calidad basado en la teoría de distorsión de la tasa". BMC Bioinformatics . 14 : 187. doi : 10.1186/1471-2105-14-187 . PMC 3698011 . PMID 23758828.
^ Hach, F; Numanagic, I; Alkan, C; Sahinalp, SC (2012). "SCALCE: Impulsando algoritmos de compresión de secuencias usando codificación localmente consistente". Bioinformática . 28 (23): 3051–3057. doi :10.1093/bioinformatics/bts593. PMC 3509486 . PMID 23047557.
^ "fastqz - Compresor FASTQ".
^ Malysa, Greg; Hernaez, Mikel; Ochoa, Idoia; Rao, Milind; Ganesan, Karthik; Weissman, Tsachy (1 de octubre de 2015). "QVZ: compresión con pérdida de valores de calidad". Bioinformática . 31 (19): 3122–3129. doi :10.1093/bioinformatics/btv330. ISSN 1367-4803. PMC 5856090 . PMID 26026138.
^ Paridaens, Tom; Van Wallendael, Glenn; De Neve, Wesley; Lambert, Peter (2018). "AQUa: un marco adaptativo para la compresión de puntuaciones de calidad de secuenciación con funcionalidad de acceso aleatorio". Bioinformática . 34 (3): 425–433. doi : 10.1093/bioinformatics/btx607 . PMID 29028894.

Enlaces externos

Lecturas largas con KB Basecaller Comparación de la precisión de Phred con un programa de la competencia, KB Basecaller de ABI
La página de inicio del Laboratorio de Phil Green Phrap.