Esto se hace realizando muchas pruebas estadísticas sobre los datos y solo informando aquellas que arrojan resultados significativos.
Cuando se prueban suficientes hipótesis, es prácticamente seguro que algunas serán estadísticamente significativas (aunque esto sea engañoso), ya que casi todos los conjuntos de datos con algún grado de aleatoriedad probablemente contengan (por ejemplo) algunas correlaciones espurias.
Por último, se lleva a cabo una prueba de significación estadística para ver qué tan probable es que los resultados sean solo por casualidad (también llamada prueba contra la hipótesis nula).
Esto es fundamental porque cada conjunto de datos contiene algunos patrones que se deben enteramente al azar.
El procedimiento adecuado habría sido formar de antemano una hipótesis sobre cuál es la probabilidad de cruz y luego lanzar la moneda varias veces para ver si la hipótesis se rechaza o no.
Alguien involucrado en la extracción de datos podría intentar encontrar similitudes adicionales entre María y Juan.
Quizás John y Mary sean las únicas dos personas del estudio que cambiaron de menor tres veces en la universidad.
Hay consideraciones tanto estadísticas (por ejemplo regresión por pasos) [9]como sustantivas que llevan a los autores a favorecer algunos de sus modelos sobre otros, y hay un uso liberal de pruebas estadísticas.
Sin embargo, descartar una o más variables de una relación explicativa sobre la base de los datos significa que no se pueden aplicar válidamente procedimientos estadísticos estándar a las variables retenidas en la relación como si nada hubiera sucedido.
Si bien esto puede sugerir una hipótesis, se necesitan pruebas adicionales utilizando las mismas variables pero con datos de una ubicación diferente para confirmarla.
Tenga en cuenta que un valor p de 0,01 sugiere que el 1% de las veces un resultado al menos tan extremo se obtendría por casualidad; Si se prueban cientos o miles de hipótesis (con variables independientes relativamente no correlacionadas entre sí), es probable que se obtenga un valor p inferior a 0,01 para muchas hipótesis nulas.
Al controlar por género, se puede inflar artificialmente el valor t, desinflando así artificialmente también el valor p. Un ejemplo es el estudio engañoso sobre la pérdida de peso con chocolate realizado por el periodista John Bohannon, quien explicó públicamente en un artículo de Gizmodo que el estudio se llevó a cabo deliberadamente de manera fraudulenta como un experimento social.
Según Bohannon, para reducir el valor p por debajo de 0,05, era crucial tener en cuenta 18 variables diferentes al realizar las pruebas.
Si bien buscar patrones en los datos es legítimo, aplicar una prueba estadística de significancia o una prueba de hipótesis a los mismos datos hasta que surja un patrón es propenso a abuso.
No se puede hacer ninguna afirmación de significación estadística con solo mirar, sin tener en cuenta el método utilizado para evaluar los datos.
[11]Las revistas académicas están adoptando cada vez más el formato de informe registrado, cuyo objetivo es contrarrestar problemas muy graves como el dragado de datos y el HARKing, que han hecho que la investigación basada en pruebas teóricas sea muy poco fiable..