Prueba de hipótesis sugeridas por los datos

En estadística , las hipótesis sugeridas por un conjunto de datos dado , cuando se prueban con el mismo conjunto de datos que las sugirió, es probable que se acepten incluso cuando no sean verdaderas. Esto se debe a que estaría involucrado un razonamiento circular (double dipping): algo parece verdadero en el conjunto de datos limitado; por lo tanto, planteamos la hipótesis de que es verdadero en general; por lo tanto, lo probamos erróneamente en el mismo conjunto de datos limitado, que parece confirmar que es verdadero. La generación de hipótesis basadas en datos ya observados, en ausencia de probarlas en nuevos datos, se conoce como teorización post hoc (del latín post hoc , "después de esto").

El procedimiento correcto es probar cualquier hipótesis en un conjunto de datos que no se utilizó para generar la hipótesis.

El problema general

Poner a prueba una hipótesis sugerida por los datos puede dar lugar fácilmente a falsos positivos ( errores de tipo I ). Si se busca durante suficiente tiempo y en suficientes lugares diferentes, con el tiempo se pueden encontrar datos que respalden cualquier hipótesis. Sin embargo, estos datos positivos no constituyen por sí mismos una prueba de que la hipótesis sea correcta. Los datos negativos de la prueba que se descartaron son igual de importantes, porque dan una idea de lo comunes que son los resultados positivos en comparación con el azar. Realizar un experimento, ver un patrón en los datos, proponer una hipótesis a partir de ese patrón y luego utilizar los mismos datos experimentales como prueba de la nueva hipótesis es extremadamente sospechoso, porque los datos de todos los demás experimentos, completados o potenciales, han sido esencialmente "descartados" al elegir mirar solo los experimentos que sugirieron la nueva hipótesis en primer lugar.

Un conjunto grande de pruebas como el descrito anteriormente infla en gran medida la probabilidad de error de tipo I , ya que se descartan todos los datos, excepto los más favorables a la hipótesis . Esto es un riesgo, no solo en las pruebas de hipótesis , sino en toda inferencia estadística , ya que a menudo es problemático describir con precisión el proceso que se ha seguido al buscar y descartar datos . En otras palabras, uno quiere mantener todos los datos (independientemente de si tienden a apoyar o refutar la hipótesis) de "buenas pruebas", pero a veces es difícil determinar qué es una "buena prueba". Es un problema particular en el modelado estadístico , donde muchos modelos diferentes se rechazan por ensayo y error antes de publicar un resultado (ver también sobreajuste , sesgo de publicación ).

El error es particularmente frecuente en la minería de datos y el aprendizaje automático . También ocurre con frecuencia en las publicaciones académicas, donde solo se suelen aceptar los informes de resultados positivos, en lugar de los negativos, lo que da lugar al efecto conocido como sesgo de publicación .

Procedimientos correctos

Todas las estrategias para comprobar la validez de las hipótesis sugeridas por los datos implican la inclusión de una gama más amplia de pruebas en un intento de validar o refutar la nueva hipótesis. Entre ellas se incluyen:

Recolección de muestras de confirmación
Validación cruzada
Métodos de compensación por comparaciones múltiples
Estudios de simulación que incluyan una representación adecuada de las múltiples pruebas realmente implicadas

La prueba simultánea de todos los contrastes de Henry Scheffé en problemas de comparación múltiple es el remedio más ^{[ cita requerida ]} conocido en el caso del análisis de varianza . ^[1] Es un método diseñado para probar hipótesis sugeridas por los datos mientras se evita la falacia descrita anteriormente.

Véase también

Notas y referencias

^ Henry Scheffé , "Un método para juzgar todos los contrastes en el análisis de varianza", Biometrika , 40, páginas 87-104 (1953). doi :10.1093/biomet/40.1-2.87