stringtranslate.com

Parabricks de Nvidia

Nvidia Parabricks es un paquete de software libre para el análisis del genoma desarrollado por Nvidia , diseñado para ofrecer un alto rendimiento recurriendo a la aceleración de la unidad de procesamiento gráfico (GPU). [1]

Parabricks ofrece flujos de trabajo para análisis de ADN y ARN y la detección de mutaciones de línea germinal y somáticas , utilizando herramientas de código abierto . [1] Está diseñado para mejorar el tiempo de cálculo del análisis de datos genómicos manteniendo al mismo tiempo la flexibilidad requerida para varios experimentos bioinformáticos . [1] Junto con la velocidad del procesamiento basado en GPU, Parabricks garantiza una alta precisión , el cumplimiento de los formatos genómicos estándar y la capacidad de escalar para manejar conjuntos de datos muy grandes. [1]

Los usuarios pueden descargar y ejecutar pipelines de Parabricks localmente o implementarlos directamente en proveedores de nube, como Amazon Web Services , Google Cloud , Oracle Cloud Infrastructure y Microsoft Azure . [1]

Fundamentos del análisis acelerado del genoma

Proceso estándar para extraer variantes del genoma de un individuo
Máquinas secuenciadoras capaces de identificar la secuencia de bases que constituyen el ADN

La reducción masiva de los costos de secuenciación [2] resultó en un aumento significativo en el tamaño y la disponibilidad de datos genómicos [3] con el potencial de revolucionar muchos campos, desde la medicina hasta el diseño de fármacos . [4]

A partir de una muestra biológica (p. ej., saliva o sangre ), es posible extraer el ADN del individuo y secuenciarlo con maquinaria de secuenciación para traducir la información biológica en una secuencia textual de bases . [5] Luego, una vez obtenido el genoma completo a través del proceso de ensamblaje del genoma , el ADN puede analizarse para extraer información que es clave en varios dominios, incluida la medicina personalizada y los diagnósticos médicos . [6]

Por lo general, el análisis de datos genómicos se realiza con herramientas basadas en Unidades Centrales de Procesamiento (CPU) para su procesamiento. [7] Recientemente, varios investigadores en este campo han subrayado los desafíos en términos de potencia de cálculo que ofrecen estas herramientas y han centrado sus esfuerzos en encontrar formas de impulsar el rendimiento de las aplicaciones. [7] La ​​cuestión se ha abordado de dos formas: desarrollando algoritmos más eficientes o acelerando la parte de cálculo intensivo utilizando aceleradores de hardware . Algunos ejemplos de aceleradores utilizados en este dominio son las GPU, los FPGA y los ASIC [8]

En este contexto, las GPU han revolucionado la genómica al explotar su poder de procesamiento paralelo para acelerar tareas computacionalmente intensivas. [9] [10] Las GPU ofrecen resultados prometedores en estos escenarios gracias a su arquitectura, compuesta por miles de pequeños núcleos capaces de realizar cálculos en paralelo. [11] Este paralelismo permite a las GPU procesar múltiples tareas simultáneamente, acelerando significativamente los cálculos que se pueden dividir en unidades independientes. [11] Por ejemplo, alinear millones de lecturas de secuenciación con un genoma de referencia o realizar análisis estadísticos en grandes conjuntos de datos genómicos se puede completar mucho más rápido en GPU que cuando se utilizan CPU. [10] Esto facilita el análisis rápido de datos genómicos de diversas fuentes, que van desde genomas individuales hasta estudios de población a gran escala , [12] acelerando la comprensión de enfermedades genéticas , diversidad genética y sistemas biológicos más complejos . [10]

Tuberías destacadas

Parabricks ofrece a los usuarios finales varias colecciones de herramientas organizadas secuencialmente para analizar los datos sin procesar según los requisitos del usuario, llamadas pipelines . [1] Sin embargo, los usuarios pueden decidir ejecutar las herramientas proporcionadas por Parabricks de forma independiente, aprovechando la aceleración de la GPU para superar posibles cuellos de botella computacionales. Solo algunas de las herramientas proporcionadas en la suite están basadas en GPU. [13]

Descripción general de los pasos principales de los pipelines de NVIDIA Parabricks

En general, todos los pipelines comparten una estructura estándar. La mayoría de los pipelines están diseñados para analizar datos FASTQ resultantes de varias tecnologías de secuenciación (por ejemplo, lectura corta o larga ). Las secuencias genómicas de entrada se alinean primero y luego se someten a un proceso de control de calidad. Estos dos procesos proporcionan un archivo BAM o CRAM como resultado intermedio. Con base en estos datos, la tarea de llamada de variantes que sigue emplea herramientas de alta precisión que ya se utilizan ampliamente. Como salida, estos pipelines proporcionan las mutaciones identificadas en un VCF (o un gVCF). [13]

Tubería de la línea germinal

El pipeline de línea germinal ofrecido por Parabricks sigue las mejores prácticas [14] propuestas por el Broad Institute en su Genome Analysis ToolKit (GATK). [15] El pipeline de línea germinal opera sobre los archivos FASTQ proporcionados como entrada por el usuario para llamar a las variantes que, pertenecientes a la línea germinal , pueden heredarse. [13]

Esta secuencia de comandos analiza los datos calculando la alineación de lectura con BWA-MEM [16] [17] y llamando variantes utilizando GATK HaplotypeCaller, [18] una de las herramientas más relevantes en el dominio para la llamada de variantes de la línea germinal. [13]

Proceso de línea germinal de DeepVariant

Además del pipeline que recurre a HaplotypeCaller para llamar variantes, Parabricks también ofrece un pipeline alternativo que todavía llama variantes de línea germinal pero que se basa en DeepVariant. [19] [20] DeepVariant es un llamador de variantes, desarrollado y mantenido por Google , capaz de identificar mutaciones utilizando un enfoque basado en aprendizaje profundo . El núcleo de DeepVariant [19] es una red neuronal convolucional (CNN) que identifica variantes transformando esta tarea en una operación de clasificación de imágenes . En Parabricks, el proceso de inferencia se acelera en hardware. Para este pipeline, solo se admiten las GPU T4, V100 y A100 . [13]

Los análisis realizados según este proceso son compatibles con el uso de BWA-MEM [16] para la alineación mediante CNN de Google para la llamada de variantes. [13]

Canalización Human_par

Aún en cumplimiento con las mejores prácticas de GATK, [14] el pipeline human_par permite a los usuarios identificar mutaciones en todo el genoma humano, incluidos los cromosomas sexuales X e Y , y, por lo tanto, es compatible con su ploidía . Para las muestras masculinas, en primer lugar, el pipeline ejecuta HaplotypeCaller [18] en todas las regiones que no pertenecen a los cromosomas X e Y y en la región pseudoautosómica con ploidía igual a 1. Luego, HaplotypeCaller analiza las regiones X e Y sin la región pseudoautosómica con ploidía 2. En cambio, con respecto a las muestras femeninas, el pipeline ejecuta HaplotypeCaller en todo el genoma, con ploidía 2. [13]

El sexo de la muestra se puede determinar de dos maneras principales:

  1. Configurado manualmente con la --sample-sexopción;
  2. Especifique la relación X vs. Y con opciones de rango --range-maley --range-femaledeje que la herramienta infiera automáticamente el sexo de las muestras en función del recuento de lecturas X e Y.

La canalización requiere que el usuario especifique al menos una de estas tres opciones. [13]

En cuanto al caso de la línea germinal, dado que este pipeline se dirige a las variantes de la línea germinal, el pipeline recurre a BWA-MEM [16] para la alineación, seguido de HaplotypeCaller [18] para la llamada de variantes. [13]

Tubería somática

El pipeline somático de Parabricks está diseñado para identificar variantes somáticas , es decir, aquellas mutaciones que afectan a células no reproductivas (somáticas). Este pipeline puede analizar genomas tanto tumorales como no tumorales, ofreciendo análisis tumorales únicamente o análisis tumorales/normales para exámenes integrales. [13]

Al igual que en el proceso de alineación de la línea germinal, la tarea de alineación se lleva a cabo utilizando BWA-MEM [16] seguido de GATK Mutect [21] para identificar las posibles mutaciones. Mutect se utiliza en lugar de HaplotypeCaller debido a que se centra en las mutaciones somáticas, a diferencia de las mutaciones de la línea germinal a las que apunta HaplotypeCaller. [21]

Tubería de ARN

Este proceso está optimizado para el descubrimiento de variantes cortas (es decir, polimorfismos de un solo nucleótido (SNP) e indels ) en datos de ARN secuenciado . Sigue las mejores prácticas del Broad Institute para este tipo de análisis. [13]

Se basa en el alineador STAR, [22] un alineador de lectura especializado en secuencias de ARN para alinear las lecturas, y HaplotypeCaller [18] para llamar variantes. [13]

Herramientas parabricks

Parabricks proporciona una colección de herramientas para realizar análisis genómicos, clasificadas en seis categorías principales relacionadas con su tarea. [13] Estas herramientas combinadas constituyen los pipelines de Parabricks y también se pueden utilizar tal como están.

Para el procesamiento de archivos FASTQ y BAM, las herramientas propuestas son: [13]

Para llamar variantes, las herramientas propuestas son: [13]

Para el procesamiento del ARN, las herramientas propuestas son: [13]

Para el control de calidad de los resultados las herramientas propuestas son: [13]

Para el procesamiento de variantes, las herramientas propuestas son: [13]

Para procesar archivos gVCF, las herramientas propuestas son: [13]

No todas las herramientas enumeradas están aceleradas en la GPU. [13]

Soporte de hardware

Los usuarios pueden descargar y ejecutar pipelines de Parabricks en sus servidores locales, lo que permite el procesamiento y análisis de datos en forma privada y en el sitio. También pueden implementar pipelines de Parabricks en plataformas en la nube, con una escalabilidad mejorada para conjuntos de datos más grandes. Los proveedores de nube compatibles incluyen AWS , GCP , OCI y Azure . [1]

En la última versión (v4.3.1-1), Parabricks incluye soporte para el superchip NVIDIA Grace Hopper . [23] El superchip NVIDIA GH200 Grace Hopper es una plataforma heterogénea diseñada para computación de alto rendimiento e inteligencia artificial , que combina un NVIDIA Grace y un Hopper en un solo chip . [24] Esta plataforma mejora el rendimiento de las aplicaciones utilizando tanto GPU como CPU, ofreciendo un modelo de programación destinado a mejorar el rendimiento, la portabilidad y la productividad . [23]

Aplicaciones

Debido a la potencia computacional requerida por las cargas de trabajo genómicas, Parabricks ha encontrado aplicación en varios estudios de investigación con diferentes dominios aplicativos, especialmente en la investigación del cáncer . [25] [26] [27]

Los científicos de la Universidad de Washington utilizaron el proceso Parabricks DeepVariant para identificar variantes (por ejemplo, SNP y pequeños indels) en datos de secuenciación de genoma completo (WGS) de alta fidelidad de lectura larga generados con la tecnología Revio SMRT Cell de PacBio . [28]

Además de los pipelines, los componentes individuales de Parabricks se han utilizado como herramientas independientes en entornos académicos. Por ejemplo, el DeepVariant acelerado se ha empleado en un proceso novedoso para reducir aún más el tiempo de procesamiento de los datos de WGS Nanopore . [29]

En 2022, Nvidia anunció una colaboración con el Broad Institute para brindarles a los investigadores los beneficios de la computación acelerada. Esta asociación incluye todo el paquete de software acelerado por hardware biomédico de Nvidia llamado Clara, que incluye Parabricks y MONAI . [30] De manera similar, el Regeneron Genetics Center usa Parabricks para acelerar el análisis secundario de los exomas que secuencian en su centro de secuenciación de alto rendimiento y aprovechar el pipeline de línea germinal DeepVariant dentro de sus flujos de trabajo. [31]

Véase también

Referencias

  1. ^ abcdefg «Clara for Genomics». NVIDIA . Consultado el 8 de julio de 2024 .
  2. ^ "Costos de secuenciación de ADN: datos". www.genome.gov . Consultado el 10 de julio de 2024 .
  3. ^ Langmead B, Nellore A (abril de 2018). "Computación en la nube para el análisis y la colaboración de datos genómicos". Nature Reviews. Genética . 19 (4): 208–219. doi :10.1038/nrg.2017.113. PMC 6452449 . PMID  29379135. 
  4. ^ Ombrello MJ, Sikora KA, Kastner DL (abril de 2014). "Genética, genómica y su relevancia para la patología y la terapia". Mejores prácticas e investigación. Reumatología clínica . Avances en reumatología pediátrica y traducción de la investigación a terapias dirigidas. 28 (2): 175–189. doi :10.1016/j.berh.2014.05.001. PMC 4149217. PMID  24974057 . 
  5. ^ Alser M, Lindegger J, Firtina C, Almadhoun N, Mao H, Singh G, et al. (2022). "De las moléculas a las variaciones genómicas: aceleración del análisis del genoma mediante algoritmos y arquitecturas inteligentes". Revista de biotecnología estructural y computacional . 20 : 4579–4599. doi :10.1016/j.csbj.2022.08.019. PMC 9436709 . PMID  36090814. 
  6. ^ Jain KK (2009). "Fundamentos de la medicina personalizada". En Jain KK (ed.). Libro de texto de medicina personalizada . Nueva York, NY: Springer. págs. 1–27. doi :10.1007/978-1-4419-0769-1_1. ISBN 978-1-4419-0769-1.
  7. ^ ab Alser M, Bingol Z, Cali DS, Kim J, Ghose S, Alkan C, et al. (septiembre de 2020). "Aceleración del análisis del genoma: una introducción a un viaje en curso". IEEE Micro . 40 (5): 65–75. arXiv : 2008.00961 . doi :10.1109/MM.2020.3013728. ISSN  0272-1732.
  8. ^ Alser M, Rotman J, Deshpande D, Taraszka K, Shi H, Baykal PI, et al. (agosto de 2021). "La tecnología dicta algoritmos: desarrollos recientes en la alineación de lecturas". Genome Biology . 22 (1): 249. doi : 10.1186/s13059-021-02443-7 . PMC 8390189 . PMID  34446078. 
  9. ^ Taylor-Weiner A, Aguet F, Haradhvala NJ, Gosai S, Anand S, Kim J, et al. (noviembre de 2019). "Escalado de la genómica computacional a millones de individuos con GPU". Genome Biology . 20 (1): 228. doi : 10.1186/s13059-019-1836-7 . PMC 6823959 . PMID  31675989. 
  10. ^ abc Nobile MS, Cazzaniga P, Tangherloni A, Besozzi D (septiembre de 2017). "Unidades de procesamiento gráfico en bioinformática, biología computacional y biología de sistemas". Briefings in Bioinformatics . 18 (5): 870–885. doi :10.1093/bib/bbw058. PMC 5862309 . PMID  27402792. 
  11. ^ ab Cheng J, Grossman M, McKercher T (9 de septiembre de 2014). Programación profesional en CUDA C. John Wiley & Sons. ISBN 978-1-118-73932-7.
  12. ^ Zhou C, Lang X, Wang Y, Zhu C (6 de agosto de 2015). "gPGA: análisis genético de poblaciones acelerado por GPU". PLOS ONE . ​​10 (8): e0135028. Código Bibliográfico :2015PLoSO..1035028Z. doi : 10.1371/journal.pone.0135028 . PMC 4527771 . PMID  26248314. 
  13. ^ abcdefghijklmnopqrst "Bienvenido a NVIDIA Parabricks v4.3.1". Documentación de NVIDIA . Consultado el 10 de julio de 2024 .
  14. ^ ab "Mejores prácticas para la llamada de variantes con GATK". @broadinstitute . 19 de marzo de 2015 . Consultado el 9 de julio de 2024 .
  15. ^ "Kit de herramientas de análisis del genoma (GATK)". @broadinstitute . 8 de junio de 2010 . Consultado el 9 de julio de 2024 .
  16. ^ abcd Li H (26 de mayo de 2013), Alineación de lecturas de secuencias, secuencias de clones y contigs de ensamblaje con BWA-MEM , arXiv : 1303.3997
  17. ^ "Alineador Burrows-Wheeler". bio-bwa.sourceforge.net . Consultado el 9 de julio de 2024 .
  18. ^ abcd Poplin R, Ruano-Rubio V, DePristo MA, Fennell TJ, Carneiro MO, Van der Auwera GA, et al. (24 de julio de 2018), Escalado del descubrimiento preciso de variantes genéticas a decenas de miles de muestras, doi :10.1101/201178 , consultado el 9 de julio de 2024
  19. ^ ab Poplin R, Chang PC, Alexander D, Schwartz S, Colthurst T, Ku A, et al. (noviembre de 2018). "Un llamador de variantes de SNP universal y de indel pequeño utilizando redes neuronales profundas". Nature Biotechnology . 36 (10): 983–987. doi :10.1038/nbt.4235. PMID  30247488.
  20. ^ google/deepvariant, Google, 4 de julio de 2024 , consultado el 9 de julio de 2024
  21. ^ ab Cibulskis K, Lawrence MS, Carter SL, Sivachenko A, Jaffe D, Sougnez C, et al. (marzo de 2013). "Detección sensible de mutaciones puntuales somáticas en muestras de cáncer impuras y heterogéneas". Nature Biotechnology . 31 (3): 213–219. doi :10.1038/nbt.2514. PMC 3833702 . PMID  23396013. 
  22. ^ Dobin A, Davis CA, Schlesinger F, Drenkow J, Zaleski C, Jha S, et al. (enero de 2013). "STAR: alineador universal ultrarrápido de secuenciación de ARN". Bioinformática . 29 (1): 15–21. doi :10.1093/bioinformatics/bts635. PMC 3530905 . PMID  23104886. 
  23. ^ ab "Superchip Grace Hopper". Documentación de NVIDIA . Consultado el 10 de julio de 2024 .
  24. ^ Simakov NA, Jones MD, Furlani TR, Siegmann E, Harrison RJ (11 de enero de 2024). "Primeras impresiones del superchip de CPU NVIDIA Grace y el superchip de la tolva NVIDIA Grace para cargas de trabajo científicas". Actas de los talleres de la Conferencia internacional sobre informática de alto rendimiento en la región de Asia y el Pacífico . Talleres HPCAsia '24. Nueva York, NY, EE. UU.: Association for Computing Machinery. págs. 36–44. doi :10.1145/3636480.3637097. ISBN 979-8-4007-1652-2.
  25. ^ Crowgey EL, Vats P, Franke K, Burnett G, Sethia A, Harkins T, et al. (julio de 2021). "Resumen 165: Procesamiento mejorado de datos de secuenciación genómica para cánceres pediátricos: GPU y técnicas de aprendizaje automático para la detección de variantes". Cancer Research . 81 (13_Suplemento): 165. doi :10.1158/1538-7445.AM2021-165. ISSN  0008-5472.
  26. ^ Ng JK, Vats P, Fritz-Waters E, Sarkar S, Sams EI, Padhi EM, et al. (diciembre de 2022). "La llamada de variantes de novo identifica firmas de mutación del cáncer en el Proyecto 1000 Genomas". Human Mutation . 43 (12): 1979–1993. doi :10.1002/humu.24455. PMC 9771978 . PMID  36054329. 
  27. ^ Lee TH, Jang BS, Chang JH, Kim E, Park JH, Chie EK (julio de 2023). "Panorama genómico del adenocarcinoma rectal localmente avanzado: comparación entre la quimiorradiación neoadyuvante antes y después y los efectos de los biomarcadores genéticos en los resultados clínicos y la respuesta tumoral". Cancer Medicine . 12 (14): 15664–15675. doi :10.1002/cam4.6169. PMC 10417181 . PMID  37260182. 
  28. ^ Manuel JG, Heins HB, Crocker S, Neidich JA, Sadzewicz L, Tallon L, et al. (junio de 2023). "Secuenciación de lectura larga de alta precisión y alta cobertura de una línea celular neuronal de ratón utilizando el secuenciador PacBio Revio". bioRxiv . doi :10.1101/2023.06.06.543940. PMC 10274723 . PMID  37333171. 
  29. ^ Goenka SD, Gorzynski JE, Shafin K, Fisk DG, Pesout T, Jensen TD, et al. (julio de 2022). "Identificación acelerada de variantes causantes de enfermedades con secuenciación genómica ultrarrápida por nanoporos". Nature Biotechnology . 40 (7): 1035–1041. doi :10.1038/s41587-022-01221-5. PMC 9287171 . PMID  35347328. 
  30. ^ "El Broad Institute y NVIDIA llevan NVIDIA Clara a la plataforma Terra Cloud para que 25 000 investigadores avancen en el descubrimiento biomédico". Sala de prensa de NVIDIA . Consultado el 9 de julio de 2024 .
  31. ^ "UK Biobank avanza en la investigación genómica con NVIDIA Clara Parabricks". NVIDIA . Consultado el 9 de julio de 2024 .

Lectura adicional

Enlaces externos