El dragado de datos (también conocido como espionaje de datos o p -hacking ) [1] [a] es el uso indebido del análisis de datos para encontrar patrones en los datos que se pueden presentar como estadísticamente significativos , aumentando y subestimando drásticamente el riesgo de falsos positivos . Esto se hace realizando muchas pruebas estadísticas sobre los datos y solo informando aquellas que arrojan resultados significativos. [2]
El proceso de dragado de datos implica probar múltiples hipótesis usando un único conjunto de datos mediante una búsqueda exhaustiva , tal vez de combinaciones de variables que puedan mostrar una correlación , y tal vez de grupos de casos u observaciones que muestren diferencias en su media o en su desglose por alguna otra variable.
Las pruebas convencionales de significación estadística se basan en la probabilidad de que se produzca un resultado particular si solo interviniera el azar, y necesariamente aceptan cierto riesgo de conclusiones erróneas de cierto tipo (rechazos erróneos de la hipótesis nula ). Este nivel de riesgo se denomina significación . Cuando se realizan grandes cantidades de pruebas, algunas producen resultados falsos de este tipo; por lo tanto, el 5% de las hipótesis elegidas al azar podrían informarse (erróneamente) como estadísticamente significativas al nivel de significación del 5%, el 1% podría informarse (erróneamente) como estadísticamente significativas al nivel de significación del 1%, y así sucesivamente, solo por casualidad. Cuando se prueban suficientes hipótesis, es prácticamente seguro que algunas se informarán como estadísticamente significativas (aunque esto sea engañoso), ya que es probable que casi todos los conjuntos de datos con cualquier grado de aleatoriedad contengan (por ejemplo) algunas correlaciones espurias . Si no son cautelosos, los investigadores que utilizan técnicas de minería de datos pueden verse fácilmente engañados por estos resultados. El término p-hacking (en referencia a los valores p ) fue acuñado en un artículo de 2014 por los tres investigadores detrás del blog Data Colada , que se ha centrado en descubrir dichos problemas en la investigación de las ciencias sociales. [3] [4] [5]
La extracción de datos es un ejemplo de cómo no tener en cuenta el problema de las comparaciones múltiples . Una forma de hacerlo es cuando se comparan subgrupos sin advertir al lector sobre el número total de comparaciones de subgrupos examinadas. [6]
El procedimiento convencional de prueba de hipótesis estadísticas que utiliza la probabilidad frecuentista consiste en formular una hipótesis de investigación, como "las personas de clases sociales más altas viven más", y luego recopilar datos relevantes. Por último, se lleva a cabo una prueba de significación estadística para ver qué tan probables son los resultados por pura casualidad (también llamada prueba contra la hipótesis nula).
Un punto clave en un análisis estadístico adecuado es probar una hipótesis con evidencia (datos) que no se utilizaron para construir la hipótesis. Esto es fundamental porque cada conjunto de datos contiene algunos patrones que se deben enteramente al azar. Si la hipótesis no se prueba en un conjunto de datos diferente de la misma población estadística , es imposible evaluar la probabilidad de que el azar por sí solo produzca tales patrones.
Por ejemplo, si se lanza una moneda cinco veces y el resultado es 2 caras y 3 cruces, se podría plantear la hipótesis de que la moneda favorece a la cruz en una proporción de 3/5 frente a 2/5. Si se prueba esta hipótesis con el conjunto de datos existente, se confirma, pero la confirmación no tiene sentido. El procedimiento adecuado habría sido formular de antemano una hipótesis sobre cuál es la probabilidad de cruz y luego lanzar la moneda varias veces para ver si la hipótesis se rechaza o no. Si se observan tres cruces y dos caras, se podría formular otra hipótesis, que la probabilidad de cruz es 3/5, pero solo se podría probar con una nueva serie de lanzamientos de moneda. La significación estadística con el procedimiento incorrecto es completamente espuria: las pruebas de significación no protegen contra la manipulación de datos.
La detención opcional es una práctica en la que se recopilan datos hasta que se alcanza un criterio de detención. Si bien es un procedimiento válido, se usa mal con facilidad. El problema es que el valor p de una prueba estadística detenida opcionalmente es mayor de lo que parece. Intuitivamente, esto se debe a que se supone que el valor p es la suma de todos los eventos al menos tan raros como lo observado. Con la detención opcional, hay eventos incluso más raros que son difíciles de tener en cuenta, es decir, no desencadenar la regla de detención opcional y recopilar incluso más datos antes de detenerse. Descuidar estos eventos conduce a un valor p demasiado bajo. De hecho, si la hipótesis nula es verdadera, entonces se puede alcanzar cualquier nivel de significancia si se permite seguir recopilando datos y detenerse cuando se obtiene el valor p deseado (calculado como si siempre se hubiera planeado recopilar exactamente esta cantidad de datos). [7] Para un ejemplo concreto de prueba de una moneda justa, consulte p -value § Option stop .
O, dicho de forma más sucinta, el cálculo adecuado del valor p requiere tener en cuenta los contrafácticos, es decir, lo que el experimentador podría haber hecho en reacción a los datos que podrían haber sido. Tener en cuenta lo que podría haber sido es difícil, incluso para los investigadores honestos. [7] Una ventaja del registro previo es tener en cuenta todos los contrafácticos, lo que permite calcular correctamente el valor p. [8]
El problema de la interrupción temprana no se limita a la mala conducta de los investigadores. A menudo existe presión para detener el estudio antes de tiempo si el costo de la recolección de datos es alto. Algunas juntas de ética animal incluso exigen la interrupción temprana si el estudio obtiene un resultado significativo a mitad de camino. [9]
Si se eliminan los datos después de que ya se haya realizado algún análisis de los mismos, por ejemplo con el pretexto de "eliminar valores atípicos", entonces se incrementaría la tasa de falsos positivos. Reemplazar los "valores atípicos" por datos de reemplazo aumenta aún más la tasa de falsos positivos. [10]
Si un conjunto de datos contiene múltiples características, una o más de ellas pueden utilizarse como agrupación y, potencialmente, crear un resultado estadísticamente significativo. Por ejemplo, si un conjunto de datos de pacientes registra su edad y sexo, un investigador puede considerar agruparlos por edad y verificar si la tasa de recuperación de la enfermedad está correlacionada con la edad. Si no funciona, el investigador puede verificar si se correlaciona con el sexo. Si no, tal vez se correlacione con la edad después de controlar el sexo, etc. La cantidad de agrupaciones posibles crece exponencialmente con la cantidad de características. [10]
Supongamos que un estudio de una muestra aleatoria de personas incluye exactamente a dos personas que nacieron el 7 de agosto: Mary y John. Alguien que se dedique a la extracción de datos podría intentar encontrar similitudes adicionales entre Mary y John. Al examinar cientos o miles de posibles similitudes entre los dos, cada una con una baja probabilidad de ser verdadera, es casi seguro que se puede encontrar una similitud inusual. Tal vez John y Mary sean las únicas dos personas del estudio que cambiaron de especialidad tres veces en la universidad. Una hipótesis, sesgada por la extracción de datos, podría ser entonces "las personas nacidas el 7 de agosto tienen una probabilidad mucho mayor de cambiar de especialidad más de dos veces en la universidad".
Los datos sacados de contexto podrían considerarse como un fuerte apoyo a esa correlación, ya que nadie que cumpliera años el 7 de agosto había cambiado de especialidad tres veces en la universidad. Sin embargo, si (como es probable) se trata de una hipótesis espuria, es muy probable que este resultado no sea reproducible ; cualquier intento de comprobar si otras personas que cumplen años el 7 de agosto tienen una tasa similar de cambio de especialidad probablemente obtenga resultados contradictorios casi de inmediato.
El sesgo es un error sistemático en el análisis. Por ejemplo, los médicos dirigieron a los pacientes con VIH de alto riesgo cardiovascular a un tratamiento particular contra el VIH, abacavir , y a los pacientes con menor riesgo a otros medicamentos, lo que impidió una evaluación simple del abacavir en comparación con otros tratamientos. Un análisis que no corrigió este sesgo penalizó injustamente al abacavir, ya que sus pacientes tenían un riesgo más alto, por lo que más de ellos sufrieron ataques cardíacos. [6] Este problema puede ser muy grave, por ejemplo, en el estudio observacional . [6] [2]
Los factores faltantes, los factores de confusión no medidos y la pérdida de seguimiento también pueden generar sesgo. [6] Al seleccionar artículos con valores p significativos , se descartan los estudios negativos, lo que se conoce como sesgo de publicación . Esto también se conoce como sesgo de archivador , porque los resultados con valores p menos significativos se dejan en el archivador y nunca se publican.
Otro aspecto del condicionamiento de las pruebas estadísticas por el conocimiento de los datos se puede ver al usar el análisis de sistemas o máquinas y la regresión lineal para observar la frecuencia de los datos. [ aclarar ] Un paso crucial en el proceso es decidir qué covariables incluir en una relación que explica una o más variables. Hay consideraciones tanto estadísticas (ver regresión por pasos ) como sustantivas que llevan a los autores a favorecer algunos de sus modelos sobre otros, y hay un uso liberal de pruebas estadísticas. Sin embargo, descartar una o más variables de una relación explicativa sobre la base de los datos significa que no se pueden aplicar de manera válida los procedimientos estadísticos estándar a las variables retenidas en la relación como si nada hubiera sucedido. En la naturaleza del caso, las variables retenidas han tenido que pasar algún tipo de prueba preliminar (posiblemente una intuitiva imprecisa) que las variables descartadas fallaron. En 1966, Selvin y Stuart compararon las variables retenidas en el modelo con los peces que no caen a través de la red, en el sentido de que sus efectos están destinados a ser mayores que los de los que caen a través de la red. Esto no sólo altera el desempeño de todas las pruebas subsiguientes sobre el modelo explicativo retenido, sino que también puede introducir sesgo y alterar el error cuadrático medio en la estimación. [11] [12]
En meteorología , las hipótesis se formulan a menudo utilizando datos meteorológicos hasta el momento y se prueban con datos meteorológicos futuros, lo que garantiza que, incluso de manera subconsciente, los datos futuros no puedan influir en la formulación de la hipótesis. Por supuesto, esta disciplina requiere esperar a que lleguen nuevos datos para demostrar el poder predictivo de la teoría formulada frente a la hipótesis nula . Este proceso garantiza que nadie pueda acusar al investigador de adaptar manualmente el modelo predictivo a los datos disponibles, ya que el clima futuro aún no está disponible.
Como otro ejemplo, supongamos que los observadores notan que una ciudad en particular parece tener un clúster de cáncer , pero carecen de una hipótesis firme de por qué es así. Sin embargo, tienen acceso a una gran cantidad de datos demográficos sobre la ciudad y el área circundante, que contienen mediciones para el área de cientos o miles de variables diferentes, en su mayoría no correlacionadas. Incluso si todas estas variables son independientes de la tasa de incidencia de cáncer, es muy probable que al menos una variable se correlacione significativamente con la tasa de cáncer en el área. Si bien esto puede sugerir una hipótesis, se necesitan pruebas adicionales utilizando las mismas variables pero con datos de una ubicación diferente para confirmar. Tenga en cuenta que un valor p de 0,01 sugiere que el 1% de las veces un resultado al menos tan extremo se obtendría por casualidad; si se prueban cientos o miles de hipótesis (con variables independientes relativamente no correlacionadas entre sí), entonces es probable que se obtenga un valor p menor que 0,01 para muchas hipótesis nulas.
Un ejemplo es el estudio sobre la falsa pérdida de peso a partir del chocolate realizado por el periodista John Bohannon , quien explicó públicamente en un artículo de Gizmodo que el estudio se llevó a cabo deliberadamente de manera fraudulenta como un experimento social . [13] Este estudio se difundió en muchos medios de comunicación alrededor de 2015, y muchas personas creyeron en la afirmación de que comer una barra de chocolate todos los días les haría perder peso, en contra de su mejor juicio. Este estudio fue publicado en el Instituto de Dieta y Salud. Según Bohannon, para reducir el valor p por debajo de 0,05, fue crucial tener en cuenta 18 variables diferentes al realizar la prueba.
Aunque buscar patrones en los datos es legítimo, aplicar una prueba estadística de significancia o una prueba de hipótesis a los mismos datos hasta que surja un patrón es propenso a ser abusado. Una forma de construir hipótesis evitando la extracción de datos es realizar pruebas aleatorias fuera de la muestra . El investigador recopila un conjunto de datos y luego lo divide aleatoriamente en dos subconjuntos, A y B. Solo se examina un subconjunto (por ejemplo, el subconjunto A) para crear hipótesis. Una vez que se formula una hipótesis, debe probarse en el subconjunto B, que no se utilizó para construir la hipótesis. Solo cuando B también respalda dicha hipótesis es razonable creer que la hipótesis podría ser válida. (Este es un tipo simple de validación cruzada y a menudo se denomina prueba de entrenamiento o validación de división por la mitad).
Otro remedio para el dragado de datos es registrar el número de todas las pruebas de significancia realizadas durante el estudio y simplemente dividir el criterio de significancia (alfa) por este número; esta es la corrección de Bonferroni . Sin embargo, esta es una métrica muy conservadora. Un alfa de 0,05 por familia, dividido de esta manera por 1000 para tener en cuenta 1000 pruebas de significancia, produce un alfa por hipótesis muy estricto de 0,00005. Los métodos particularmente útiles en el análisis de varianza y en la construcción de bandas de confianza simultáneas para regresiones que involucran funciones base son el método de Scheffé y, si el investigador solo tiene en mente comparaciones por pares , el método de Tukey . Para evitar el conservadurismo extremo de la corrección de Bonferroni, existen métodos de inferencia selectiva más sofisticados. [14] El método de inferencia selectiva más común es el uso del procedimiento de control de tasa de descubrimiento falso de Benjamini y Hochberg : es un enfoque menos conservador que se ha convertido en un método popular para el control de múltiples pruebas de hipótesis.
Cuando ninguno de los dos enfoques es práctico, se puede hacer una distinción clara entre los análisis de datos que son confirmatorios y los análisis que son exploratorios . La inferencia estadística es apropiada sólo para los primeros. [12]
En definitiva, la significación estadística de una prueba y la confianza estadística de un resultado son propiedades conjuntas de los datos y del método utilizado para examinarlos. Por tanto, si alguien dice que un determinado acontecimiento tiene una probabilidad del 20% ± 2% 19 veces de cada 20, esto significa que si la probabilidad del acontecimiento se estima con el mismo método utilizado para obtener la estimación del 20%, el resultado está entre el 18% y el 22% con una probabilidad de 0,95. No se puede afirmar que exista significación estadística con sólo observar, sin tener debidamente en cuenta el método utilizado para evaluar los datos.
Las revistas académicas adoptan cada vez más el formato de informe registrado , que pretende contrarrestar problemas muy graves como la extracción de datos y el HARKing , que han hecho que la investigación para comprobar teorías sea muy poco fiable. Por ejemplo, Nature Human Behaviour ha adoptado el formato de informe registrado, ya que "desplaza el énfasis de los resultados de la investigación a las preguntas que guían la investigación y los métodos utilizados para responderlas". [15] El European Journal of Personality define este formato de la siguiente manera: "En un informe registrado, los autores crean una propuesta de estudio que incluye antecedentes teóricos y empíricos, preguntas/hipótesis de investigación y datos piloto (si están disponibles). Una vez presentada, esta propuesta se revisará antes de la recopilación de datos y, si se acepta, el artículo resultante de este procedimiento de revisión por pares se publicará, independientemente de los resultados del estudio". [16]
Los métodos y resultados también pueden ponerse a disposición del público, como en el enfoque de ciencia abierta , lo que dificulta aún más la extracción de datos. [17]