DESeq2 es un paquete de software en el campo de la bioinformática y la biología computacional para el lenguaje de programación estadística R. Se emplea principalmente para el análisis de datos de secuenciación de ARN de alto rendimiento (RNA-seq) para identificar genes expresados de manera diferencial entre diferentes condiciones experimentales. DESeq2 emplea métodos estadísticos para normalizar y analizar datos de RNA-seq, lo que lo convierte en una herramienta valiosa para los investigadores que estudian los patrones de expresión y regulación de genes . Está disponible a través del repositorio Bioconductor .
Se presentó por primera vez en 2014. [1] A septiembre de 2023, su uso ha sido citado más de 30.000 veces. [2]
Uno de los pasos clave en el análisis de datos de RNA-seq es la normalización de datos . [3] DESeq2 emplea el método de normalización de "factor de tamaño", que ajusta las diferencias en la profundidad de secuenciación entre muestras. [1] Esta normalización asegura que los valores de expresión de los genes sean comparables en todas las muestras, lo que permite una identificación precisa de los genes expresados de manera diferencial. Además de la normalización del factor de tamaño, DESeq2 también emplea una transformación de estabilización de la varianza, que mejora aún más la calidad de los datos al estabilizar la varianza en diferentes niveles de expresión. [4] Esta combinación de técnicas de normalización minimiza el sesgo y mejora la precisión del análisis de expresión diferencial.
DESeq2 ofrece modelos de distribución binomial negativa para tener en cuenta la sobredispersión que se observa habitualmente en los datos de secuenciación de ARN. [5] Este enfoque de modelado tiene en cuenta la variabilidad que no se explica adecuadamente mediante una distribución de Poisson simple . Al incorporar la distribución binomial negativa, DESeq2 modela con precisión la dispersión de los recuentos de expresión génica y proporciona estimaciones más fiables de la expresión diferencial.
DESeq2 también ofrece un procedimiento de reducción adaptativa, conocido como el método "apeglm", que es particularmente útil cuando se trabaja con tamaños de muestra pequeños. [6] Esta técnica reduce eficazmente los cambios logarítmicos de las estimaciones de expresión génica, lo que reduce el impacto de los valores extremos y mejora la estabilidad de los resultados. Esto es especialmente valioso para los investigadores que trabajan con réplicas biológicas limitadas, ya que ayuda a mitigar el problema del bajo poder estadístico .
Además, DESeq2 permite a los usuarios incorporar covariables relevantes en sus análisis. [1] Esta característica permite a los investigadores tener en cuenta posibles factores de confusión, como efectos de lote o condiciones experimentales, que pueden influir en la expresión genética. Al incluir covariables en el análisis, DESeq2 ofrece una evaluación más precisa de los verdaderos patrones de expresión diferencial en los datos.
DESeq2 se interconecta a través de R, mediante el repositorio de bioconductores. [7] El repositorio proporciona documentación y tutoriales completos, lo que lo hace accesible a una amplia gama de investigadores.