Nvidia Parabricks es un paquete de software libre para el análisis del genoma desarrollado por Nvidia , diseñado para ofrecer un alto rendimiento recurriendo a la aceleración de la unidad de procesamiento gráfico (GPU). [1]
Parabricks ofrece flujos de trabajo para análisis de ADN y ARN y la detección de mutaciones de línea germinal y somáticas , utilizando herramientas de código abierto . [1] Está diseñado para mejorar el tiempo de cálculo del análisis de datos genómicos manteniendo al mismo tiempo la flexibilidad requerida para varios experimentos bioinformáticos . [1] Junto con la velocidad del procesamiento basado en GPU, Parabricks garantiza una alta precisión , el cumplimiento de los formatos genómicos estándar y la capacidad de escalar para manejar conjuntos de datos muy grandes. [1]
Los usuarios pueden descargar y ejecutar pipelines de Parabricks localmente o implementarlos directamente en proveedores de nube, como Amazon Web Services , Google Cloud , Oracle Cloud Infrastructure y Microsoft Azure . [1]
La reducción masiva de los costos de secuenciación [2] resultó en un aumento significativo en el tamaño y la disponibilidad de datos genómicos [3] con el potencial de revolucionar muchos campos, desde la medicina hasta el diseño de fármacos . [4]
A partir de una muestra biológica (p. ej., saliva o sangre ), es posible extraer el ADN del individuo y secuenciarlo con maquinaria de secuenciación para traducir la información biológica en una secuencia textual de bases . [5] Luego, una vez obtenido el genoma completo a través del proceso de ensamblaje del genoma , el ADN puede analizarse para extraer información que es clave en varios dominios, incluida la medicina personalizada y los diagnósticos médicos . [6]
Por lo general, el análisis de datos genómicos se realiza con herramientas basadas en Unidades Centrales de Procesamiento (CPU) para su procesamiento. [7] Recientemente, varios investigadores en este campo han subrayado los desafíos en términos de potencia de cálculo que ofrecen estas herramientas y han centrado sus esfuerzos en encontrar formas de impulsar el rendimiento de las aplicaciones. [7] La cuestión se ha abordado de dos formas: desarrollando algoritmos más eficientes o acelerando la parte de cálculo intensivo utilizando aceleradores de hardware . Algunos ejemplos de aceleradores utilizados en este dominio son las GPU, los FPGA y los ASIC [8]
En este contexto, las GPU han revolucionado la genómica al explotar su poder de procesamiento paralelo para acelerar tareas computacionalmente intensivas. [9] [10] Las GPU ofrecen resultados prometedores en estos escenarios gracias a su arquitectura, compuesta por miles de pequeños núcleos capaces de realizar cálculos en paralelo. [11] Este paralelismo permite a las GPU procesar múltiples tareas simultáneamente, acelerando significativamente los cálculos que se pueden dividir en unidades independientes. [11] Por ejemplo, alinear millones de lecturas de secuenciación con un genoma de referencia o realizar análisis estadísticos en grandes conjuntos de datos genómicos se puede completar mucho más rápido en GPU que cuando se utilizan CPU. [10] Esto facilita el análisis rápido de datos genómicos de diversas fuentes, que van desde genomas individuales hasta estudios de población a gran escala , [12] acelerando la comprensión de enfermedades genéticas , diversidad genética y sistemas biológicos más complejos . [10]
Parabricks ofrece a los usuarios finales varias colecciones de herramientas organizadas secuencialmente para analizar los datos sin procesar según los requisitos del usuario, llamadas pipelines . [1] Sin embargo, los usuarios pueden decidir ejecutar las herramientas proporcionadas por Parabricks de forma independiente, aprovechando la aceleración de la GPU para superar posibles cuellos de botella computacionales. Solo algunas de las herramientas proporcionadas en la suite están basadas en GPU. [13]
En general, todos los pipelines comparten una estructura estándar. La mayoría de los pipelines están diseñados para analizar datos FASTQ resultantes de varias tecnologías de secuenciación (por ejemplo, lectura corta o larga ). Las secuencias genómicas de entrada se alinean primero y luego se someten a un proceso de control de calidad. Estos dos procesos proporcionan un archivo BAM o CRAM como resultado intermedio. Con base en estos datos, la tarea de llamada de variantes que sigue emplea herramientas de alta precisión que ya se utilizan ampliamente. Como salida, estos pipelines proporcionan las mutaciones identificadas en un VCF (o un gVCF). [13]
El pipeline de línea germinal ofrecido por Parabricks sigue las mejores prácticas [14] propuestas por el Broad Institute en su Genome Analysis ToolKit (GATK). [15] El pipeline de línea germinal opera sobre los archivos FASTQ proporcionados como entrada por el usuario para llamar a las variantes que, pertenecientes a la línea germinal , pueden heredarse. [13]
Esta secuencia de comandos analiza los datos calculando la alineación de lectura con BWA-MEM [16] [17] y llamando variantes utilizando GATK HaplotypeCaller, [18] una de las herramientas más relevantes en el dominio para la llamada de variantes de la línea germinal. [13]
Además del pipeline que recurre a HaplotypeCaller para llamar variantes, Parabricks también ofrece un pipeline alternativo que todavía llama variantes de línea germinal pero que se basa en DeepVariant. [19] [20] DeepVariant es un llamador de variantes, desarrollado y mantenido por Google , capaz de identificar mutaciones utilizando un enfoque basado en aprendizaje profundo . El núcleo de DeepVariant [19] es una red neuronal convolucional (CNN) que identifica variantes transformando esta tarea en una operación de clasificación de imágenes . En Parabricks, el proceso de inferencia se acelera en hardware. Para este pipeline, solo se admiten las GPU T4, V100 y A100 . [13]
Los análisis realizados según este proceso son compatibles con el uso de BWA-MEM [16] para la alineación mediante CNN de Google para la llamada de variantes. [13]
Aún en cumplimiento con las mejores prácticas de GATK, [14] el pipeline human_par permite a los usuarios identificar mutaciones en todo el genoma humano, incluidos los cromosomas sexuales X e Y , y, por lo tanto, es compatible con su ploidía . Para las muestras masculinas, en primer lugar, el pipeline ejecuta HaplotypeCaller [18] en todas las regiones que no pertenecen a los cromosomas X e Y y en la región pseudoautosómica con ploidía igual a 1. Luego, HaplotypeCaller analiza las regiones X e Y sin la región pseudoautosómica con ploidía 2. En cambio, con respecto a las muestras femeninas, el pipeline ejecuta HaplotypeCaller en todo el genoma, con ploidía 2. [13]
El sexo de la muestra se puede determinar de dos maneras principales:
--sample-sex
opción;--range-male
y --range-female
deje que la herramienta infiera automáticamente el sexo de las muestras en función del recuento de lecturas X e Y.La canalización requiere que el usuario especifique al menos una de estas tres opciones. [13]
En cuanto al caso de la línea germinal, dado que este pipeline se dirige a las variantes de la línea germinal, el pipeline recurre a BWA-MEM [16] para la alineación, seguido de HaplotypeCaller [18] para la llamada de variantes. [13]
El pipeline somático de Parabricks está diseñado para identificar variantes somáticas , es decir, aquellas mutaciones que afectan a células no reproductivas (somáticas). Este pipeline puede analizar genomas tanto tumorales como no tumorales, ofreciendo análisis tumorales únicamente o análisis tumorales/normales para exámenes integrales. [13]
Al igual que en el proceso de alineación de la línea germinal, la tarea de alineación se lleva a cabo utilizando BWA-MEM [16] seguido de GATK Mutect [21] para identificar las posibles mutaciones. Mutect se utiliza en lugar de HaplotypeCaller debido a que se centra en las mutaciones somáticas, a diferencia de las mutaciones de la línea germinal a las que apunta HaplotypeCaller. [21]
Este proceso está optimizado para el descubrimiento de variantes cortas (es decir, polimorfismos de un solo nucleótido (SNP) e indels ) en datos de ARN secuenciado . Sigue las mejores prácticas del Broad Institute para este tipo de análisis. [13]
Se basa en el alineador STAR, [22] un alineador de lectura especializado en secuencias de ARN para alinear las lecturas, y HaplotypeCaller [18] para llamar variantes. [13]
Parabricks proporciona una colección de herramientas para realizar análisis genómicos, clasificadas en seis categorías principales relacionadas con su tarea. [13] Estas herramientas combinadas constituyen los pipelines de Parabricks y también se pueden utilizar tal como están.
Para el procesamiento de archivos FASTQ y BAM, las herramientas propuestas son: [13]
Para llamar variantes, las herramientas propuestas son: [13]
Para el procesamiento del ARN, las herramientas propuestas son: [13]
Para el control de calidad de los resultados las herramientas propuestas son: [13]
Para el procesamiento de variantes, las herramientas propuestas son: [13]
Para procesar archivos gVCF, las herramientas propuestas son: [13]
No todas las herramientas enumeradas están aceleradas en la GPU. [13]
Los usuarios pueden descargar y ejecutar pipelines de Parabricks en sus servidores locales, lo que permite el procesamiento y análisis de datos en forma privada y en el sitio. También pueden implementar pipelines de Parabricks en plataformas en la nube, con una escalabilidad mejorada para conjuntos de datos más grandes. Los proveedores de nube compatibles incluyen AWS , GCP , OCI y Azure . [1]
En la última versión (v4.3.1-1), Parabricks incluye soporte para el superchip NVIDIA Grace Hopper . [23] El superchip NVIDIA GH200 Grace Hopper es una plataforma heterogénea diseñada para computación de alto rendimiento e inteligencia artificial , que combina un NVIDIA Grace y un Hopper en un solo chip . [24] Esta plataforma mejora el rendimiento de las aplicaciones utilizando tanto GPU como CPU, ofreciendo un modelo de programación destinado a mejorar el rendimiento, la portabilidad y la productividad . [23]
Debido a la potencia computacional requerida por las cargas de trabajo genómicas, Parabricks ha encontrado aplicación en varios estudios de investigación con diferentes dominios aplicativos, especialmente en la investigación del cáncer . [25] [26] [27]
Los científicos de la Universidad de Washington utilizaron el proceso Parabricks DeepVariant para identificar variantes (por ejemplo, SNP y pequeños indels) en datos de secuenciación de genoma completo (WGS) de alta fidelidad de lectura larga generados con la tecnología Revio SMRT Cell de PacBio . [28]
Además de los pipelines, los componentes individuales de Parabricks se han utilizado como herramientas independientes en entornos académicos. Por ejemplo, el DeepVariant acelerado se ha empleado en un proceso novedoso para reducir aún más el tiempo de procesamiento de los datos de WGS Nanopore . [29]
En 2022, Nvidia anunció una colaboración con el Broad Institute para brindarles a los investigadores los beneficios de la computación acelerada. Esta asociación incluye todo el paquete de software acelerado por hardware biomédico de Nvidia llamado Clara, que incluye Parabricks y MONAI . [30] De manera similar, el Regeneron Genetics Center usa Parabricks para acelerar el análisis secundario de los exomas que secuencian en su centro de secuenciación de alto rendimiento y aprovechar el pipeline de línea germinal DeepVariant dentro de sus flujos de trabajo. [31]