Variación no biológica en los resultados de experimentos biológicos.
En biología molecular , un efecto por lotes ocurre cuando factores no biológicos en un experimento causan cambios en los datos producidos por el experimento. Dichos efectos pueden llevar a conclusiones inexactas cuando sus causas se correlacionan con uno o más resultados de interés en un experimento. Son comunes en muchos tipos de experimentos de secuenciación de alto rendimiento , incluidos aquellos que utilizan micromatrices , espectrómetros de masas , [1] y datos de secuenciación de ARN unicelular . [2] Se discuten más comúnmente en el contexto de la genómica y la investigación de secuenciación de alto rendimiento, pero también existen en otros campos de la ciencia. [1]
Definiciones
En la literatura se han propuesto múltiples definiciones del término "efecto discontinuo". Lazar et al. (2013) señalaron: "Proporcionar una definición completa e inequívoca del llamado efecto por lotes es una tarea desafiante, especialmente porque sus orígenes y la forma en que se manifiesta en los datos no se conocen completamente o no se registran". Centrándose en los experimentos de microarrays, proponen una nueva definición basada en varias definiciones anteriores: "[E]l efecto de lote representa las diferencias técnicas sistemáticas cuando las muestras se procesan y miden en diferentes lotes y que no están relacionadas con ninguna variación biológica registrada durante el MAGE [ experimento de expresión genética de microarrays". [3]
Causas
Se han identificado muchos factores potencialmente variables como causas potenciales de efectos de lote, incluidos los siguientes:
- Condiciones de laboratorio [1]
- Elección del lote o lote de reactivos [1] [4]
- Diferencias de personal [1]
- Hora del día en que se realizó el experimento [4]
- Niveles de ozono atmosférico [4]
- Instrumentos utilizados para realizar el experimento.
Corrección
Se han desarrollado varias técnicas estadísticas para intentar corregir los efectos de los lotes en experimentos de alto rendimiento. Estas técnicas están destinadas a ser utilizadas durante las etapas de diseño experimental y análisis de datos. Históricamente se han centrado principalmente en experimentos genómicos y sólo recientemente han comenzado a expandirse a otros campos científicos como la proteómica . [5] Un problema asociado con tales técnicas es que pueden eliminar involuntariamente la variación biológica real. [6] Algunas técnicas que se han utilizado para detectar y/o corregir efectos por lotes incluyen las siguientes:
- Para los datos de microarrays, se han utilizado modelos lineales mixtos , con factores de confusión incluidos como intersecciones aleatorias. [7]
- En 2007, Johnson et al. propuso una técnica bayesiana empírica para corregir los efectos por lotes. Este enfoque representó una mejora con respecto a los métodos anteriores en el sentido de que podría usarse de manera efectiva con lotes pequeños. [4]
- En 2012, se introdujo el paquete de software sva. Incluye múltiples funciones para ajustar los efectos de los lotes, incluido el uso de estimación de variables sustitutas , que previamente se había demostrado que mejora la reproducibilidad y reduce la dependencia en experimentos de alto rendimiento.
- Haghverdi et al. (2018) propusieron una técnica diseñada para datos de RNA-seq unicelulares, basada en la detección de vecinos más cercanos entre sí en los datos. [2]
- Papiez et al. (2019) propusieron un algoritmo de programación dinámica para identificar efectos por lotes de valor desconocido en datos de alto rendimiento. [8]
- Voß et al. (2022) propusieron un algoritmo llamado HarmonizR que permite la armonización de datos entre conjuntos de datos proteómicos independientes con un manejo adecuado de los valores faltantes. [9]
Referencias
- ^ abcde Puerro, Jeffrey T .; Scharpf, Robert B.; Bravo, Héctor Corrada; Simjá, David; Langmead, Benjamín ; Johnson, W. Evan; Alemán, Donald; Baggerly, Keith; Irizarry, Rafael A. (octubre de 2010). "Abordar el impacto crítico y generalizado de los efectos por lotes en datos de alto rendimiento". Naturaleza Reseñas Genética . 11 (10): 733–739. doi :10.1038/nrg2825. ISSN 1471-0056. PMC 3880143 . PMID 20838408.
- ^ ab Haghverdi, Laleh; Lun, Aaron TL; Morgan, Michael D; Marioni, John C (mayo de 2018). "Los efectos por lotes en los datos de secuenciación de ARN unicelular se corrigen haciendo coincidir los vecinos más cercanos entre sí". Biotecnología de la Naturaleza . 36 (5): 421–427. doi :10.1038/nbt.4091. ISSN 1087-0156. PMC 6152897 . PMID 29608177.
- ^ Puerro, Jeffrey T.; Johnson, W. Evan; Parker, Hilary S.; Jaffe, Andrew E.; Piso, John D. (15 de marzo de 2012). "El paquete sva para eliminar efectos por lotes y otras variaciones no deseadas en experimentos de alto rendimiento". Bioinformática . 28 (6): 882–883. doi : 10.1093/bioinformática/bts034. ISSN 1460-2059. PMC 3307112 . PMID 22257669.
- ^ abcd Johnson, W. Evan; Li, Cheng; Rabinovic, Ariel (1 de enero de 2007). "Ajuste de los efectos por lotes en datos de expresión de microarrays utilizando métodos empíricos de Bayes". Bioestadística . 8 (1): 118-127. doi : 10.1093/bioestadística/kxj037 . ISSN 1468-4357. PMID 16632515.
- ^ Čuklina, Jelena; Pedrioli, Patrick GA; Aebersold, Ruedi (2020). Revisión de los enfoques de prevención, diagnóstico y corrección de efectos por lotes . Métodos en biología molecular. vol. 2051, págs. 373–387. doi :10.1007/978-1-4939-9744-2_16. ISBN 978-1-4939-9743-5. ISSN 1940-6029. PMID 31552638. S2CID 202760910.
- ^ Vaya, Wilson Wen Bin; Wang, Wei; Wong, Limsoon (junio de 2017). "Por qué son importantes los efectos por lotes en los datos ómicos y cómo evitarlos". Tendencias en Biotecnología . 35 (6): 498–507. doi :10.1016/j.tibtech.2017.02.012. PMID 28351613.
- ^ Espín-Pérez, Almudena; Portier, Chris; Chadeau-Hyam, Marc; van Veldhoven, Karin; Kleinjans, Jos CS; de Kok, Theo MCM (30 de agosto de 2018). Krishnan, Viswanathan V. (ed.). "Comparación de métodos estadísticos y uso de muestras de control de calidad para la corrección del efecto por lotes en datos del transcriptoma humano". MÁS UNO . 13 (8): e0202947. Código Bib : 2018PLoSO..1302947E. doi : 10.1371/journal.pone.0202947 . ISSN 1932-6203. PMC 6117018 . PMID 30161168.
- ^ Papiez, Anna; Marczyk, Michal; Polanska, Joanna; Polanski, Andrzej (1 de junio de 2019). Berger, Bonnie (ed.). "BatchI: identificación del efecto por lotes en datos de detección de alto rendimiento mediante un algoritmo de programación dinámica". Bioinformática . 35 (11): 1885–1892. doi : 10.1093/bioinformática/bty900. ISSN 1367-4803. PMC 6546123 . PMID 30357412.
- ^ Voß, Hannah; Schlumbohm, Simón; Barwikowski, Philip; Wurlitzer, Marcos; Dottermusch, Matías; Neumann, Philipp; Schlüter, Hartmut; Neumann, Julia E.; Krisp, Christoph (20 de junio de 2022). "HarmonizR permite la armonización de datos entre conjuntos de datos proteómicos independientes con un manejo adecuado de los valores faltantes". Comunicaciones de la naturaleza . 13 (1): 3523. doi :10.1038/s41467-022-31007-x. ISSN 2041-1723. PMC 9209422 . PMID 35725563.