Mal uso de las estadísticas

Las estadísticas , cuando se utilizan de forma engañosa, pueden hacer creer al observador casual algo distinto de lo que muestran los datos . Es decir, se produce un uso indebido de las estadísticas cuando un argumento estadístico afirma una falsedad . En algunos casos, el uso indebido puede ser accidental. En otros, es intencionado y en beneficio del perpetrador. Cuando la razón estadística en cuestión es falsa o se aplica incorrectamente, esto constituye una falacia estadística .

Las consecuencias de tales interpretaciones erróneas pueden ser muy graves. Por ejemplo, en la ciencia médica, corregir una falsedad puede llevar décadas y costar vidas.

Es fácil caer en errores. Los científicos profesionales, los matemáticos e incluso los estadísticos profesionales pueden ser engañados incluso con algunos métodos simples, incluso si tienen cuidado de comprobar todo. Se sabe que los científicos se engañan a sí mismos con las estadísticas debido a la falta de conocimiento de la teoría de la probabilidad y la falta de estandarización de sus pruebas .

Definición, limitaciones y contexto

Una definición útil es: “Uso indebido de las estadísticas: utilizar números de tal manera que –ya sea intencionalmente o por ignorancia o descuido– las conclusiones sean injustificadas o incorrectas”. ^[1] Los “números” incluyen gráficos engañosos que se analizan en otras fuentes. El término no se encuentra comúnmente en los textos de estadística y no existe una única definición autorizada. Es una generalización de la mentira con las estadísticas que fue descrita profusamente con ejemplos de los estadísticos hace 60 años.

La definición enfrenta algunos problemas (algunos de ellos abordados por la fuente): ^[2]

Las estadísticas generalmente producen probabilidades; las conclusiones son provisionales.
Las conclusiones provisionales tienen errores y tasas de error. Por lo general, el 5 % de las conclusiones provisionales de las pruebas de significación son erróneas.
Los estadísticos no están completamente de acuerdo sobre los métodos ideales
Los métodos estadísticos se basan en supuestos que rara vez se cumplen plenamente.
La recopilación de datos suele estar limitada por restricciones éticas, prácticas y financieras.

How to Lie with Statistics reconoce que las estadísticas pueden adoptar muchas formas legítimas . Se puede debatir si las estadísticas muestran que un producto es "liviano y económico" o "endeble y barato", independientemente de las cifras. Algunos se oponen a la sustitución de la corrección estadística por el liderazgo moral (por ejemplo) como objetivo. Asignar culpas por los usos incorrectos suele ser difícil porque los científicos, encuestadores, estadísticos y periodistas suelen ser empleados o consultores.

El oyente, el observador, el público o el jurado cometen un uso insidioso de las estadísticas. El proveedor proporciona las "estadísticas" en forma de números o gráficos (o fotografías de antes y después), lo que permite al consumidor sacar conclusiones que pueden ser injustificadas o incorrectas. El escaso nivel de alfabetización estadística del público y la naturaleza no estadística de la intuición humana permiten engañar sin llegar a conclusiones erróneas de forma explícita. La definición es débil en lo que respecta a la responsabilidad del consumidor de las estadísticas.

Un historiador enumeró más de 100 falacias en una docena de categorías, incluidas las de generalización y las de causalidad. ^[3] Algunas de las falacias son explícitamente o potencialmente estadísticas, como el muestreo, el sinsentido estadístico, la probabilidad estadística, la extrapolación falsa, la interpolación falsa y la generalización insidiosa. Todos los problemas técnicos y matemáticos de la probabilidad aplicada encajarían en la única falacia enumerada de la probabilidad estadística. Muchas de las falacias podrían acoplarse al análisis estadístico, lo que permitiría la posibilidad de una conclusión falsa que se derive de un análisis estadísticamente sólido.

Un ejemplo de uso de las estadísticas es el análisis de la investigación médica. El proceso incluye ^[4]^[5] la planificación experimental, la realización del experimento, el análisis de los datos, la extracción de conclusiones lógicas y la presentación/informe. El informe es resumido por la prensa popular y por los anunciantes. Los usos incorrectos de las estadísticas pueden ser resultado de problemas en cualquier paso del proceso. Los estándares estadísticos que idealmente se imponen en el informe científico son muy diferentes de los que se imponen a la prensa popular y a los anunciantes; sin embargo, existen casos de publicidad disfrazada de ciencia, como el Australasian Journal of Bone & Joint Medicine . La definición del uso incorrecto de las estadísticas es débil en cuanto a la integridad requerida de los informes estadísticos. Se expresa la opinión de que los periódicos deben proporcionar al menos la fuente de las estadísticas informadas.

Causas simples

Muchos usos incorrectos de las estadísticas ocurren porque

La fuente es un experto en la materia, no un experto en estadística. ^[6] La fuente puede utilizar un método o interpretar un resultado de forma incorrecta.
La fuente es un estadístico, no un experto en la materia. ^[7] Un experto debe saber cuándo los números que se comparan describen cosas diferentes. Los números cambian, pero la realidad no, cuando cambian las definiciones legales o los límites políticos.
El tema en estudio no está bien definido, ^[8] o algunos de sus aspectos son fáciles de cuantificar mientras que otros son difíciles de cuantificar o no se conoce ningún método de cuantificación (ver falacia de McNamara ). Por ejemplo:
- Si bien las pruebas de CI están disponibles y son numéricas, es difícil definir qué miden, ya que la inteligencia es un concepto difícil de alcanzar.
- El "impacto" de las publicaciones tiene el mismo problema. ^[9] Los artículos científicos y las revistas académicas suelen clasificarse por su "impacto", cuantificado como el número de citas de publicaciones posteriores. Los matemáticos y estadísticos concluyen que el impacto (aunque relativamente objetivo) no es una medida muy significativa. "La mera confianza en los datos de citas proporciona, en el mejor de los casos, una comprensión incompleta y a menudo superficial de la investigación , una comprensión que sólo es válida cuando se ve reforzada por otros juicios. Los números no son inherentemente superiores a los juicios sólidos".
- Una pregunta aparentemente simple sobre el número de palabras en el idioma inglés inmediatamente genera preguntas sobre formas arcaicas, contabilidad de prefijos y sufijos, definiciones múltiples de una palabra, ortografías variantes, dialectos, creaciones fantasiosas (como ectoplastística a partir de ectoplasma y estadísticas), ^[10] vocabulario técnico, etc.
La calidad de los datos es deficiente. ^[11] La indumentaria es un ejemplo. Las personas tienen una amplia gama de tallas y formas corporales. Es obvio que la determinación de las tallas de las prendas debe ser multidimensional. En cambio, es compleja de maneras inesperadas. Algunas prendas se venden solo por talla (sin tener en cuenta explícitamente la forma del cuerpo), las tallas varían según el país y el fabricante y algunas tallas son deliberadamente engañosas. Si bien las tallas son numéricas, solo es posible realizar los análisis estadísticos más rudimentarios si se utilizan las cifras de las tallas con cuidado.
La prensa popular tiene una experiencia limitada y motivos contradictorios. ^[12] Si los hechos no son "de interés periodístico" (lo que puede exigir exageración), es posible que no se publiquen. Los motivos de los anunciantes son aún más contradictorios.
"Los políticos utilizan las estadísticas de la misma manera que un borracho utiliza los postes de luz: para apoyarse en lugar de iluminarse" – Andrew Lang (WikiQuote) "¿Qué aprendemos de estas dos formas de mirar los mismos números? Aprendemos que un propagandista astuto, de derecha o de izquierda, casi siempre puede encontrar una forma de presentar los datos sobre el crecimiento económico que parecen apoyar su postura. Y, por lo tanto, también aprendemos a tomar con cautela cualquier análisis estadístico de una fuente fuertemente política". ^[13] El término estadística se origina a partir de números generados para el estado y utilizados por él. Un buen gobierno puede requerir números precisos, pero un gobierno popular puede requerir números que lo respalden (no necesariamente los mismos). "El uso y mal uso de las estadísticas por parte de los gobiernos es un arte antiguo". ^[14]

Tipos de mal uso

Descartar observaciones desfavorables

Para promocionar un producto neutro (inútil), una empresa debe encontrar o realizar, por ejemplo, 40 estudios con un nivel de confianza del 95 %. Si el producto es inútil, esto produciría un estudio que demostrara que el producto era beneficioso, un estudio que demostrara que era perjudicial y treinta y ocho estudios no concluyentes (38 es el 95 % de 40). Esta táctica se vuelve más eficaz cuando hay más estudios disponibles. Las organizaciones que no publican todos los estudios que realizan, como las tabacaleras que niegan la relación entre el tabaquismo y el cáncer, los grupos de defensa contra el tabaquismo y los medios de comunicación que intentan demostrar la relación entre el tabaquismo y diversas enfermedades, o los vendedores de píldoras milagrosas, es probable que utilicen esta táctica.

Ronald Fisher consideró esta cuestión en su famoso experimento de la dama que cataba té (de su libro de 1935, El diseño de experimentos ). Con respecto a los experimentos repetidos, dijo: "Sería ilegítimo y privaría a nuestro cálculo de su base si no se tuvieran en cuenta todos los resultados fallidos".

Otro término relacionado con este concepto es “cherry picking” .

Ignorar características importantes

Los conjuntos de datos multivariables tienen dos o más características/dimensiones . Si se eligen muy pocas de estas características para el análisis (por ejemplo, si se elige solo una característica y se realiza una regresión lineal simple en lugar de una regresión lineal múltiple ), los resultados pueden ser engañosos. Esto deja al analista vulnerable a varias paradojas estadísticas o, en algunos casos (no en todos), a una causalidad falsa, como la que se muestra a continuación.

Preguntas cargadas

Las respuestas a las encuestas pueden manipularse a menudo formulando la pregunta de tal manera que se induzca una preferencia por una determinada respuesta por parte del encuestado. Por ejemplo, en las encuestas de apoyo a una guerra, las preguntas:

¿Apoya usted el intento de Estados Unidos de llevar la libertad y la democracia a otros lugares del mundo?
¿Apoya usted la acción militar no provocada por parte de EE.UU.?

Probablemente, los datos se verán sesgados en direcciones diferentes, aunque ambos sondeos sobre el apoyo a la guerra. Una mejor manera de formular la pregunta podría ser: "¿Apoya usted la actual acción militar estadounidense en el extranjero?". Una forma aún más neutral de plantear la pregunta sería: "¿Cuál es su opinión sobre la actual acción militar estadounidense en el extranjero?". El punto debería ser que la persona a la que se le pregunta no tenga forma de adivinar a partir de la redacción lo que el que pregunta podría querer oír.

Otra forma de hacerlo es anteponer a la pregunta información que respalde la respuesta "deseada". Por ejemplo, es más probable que la gente responda "sí" a la pregunta "Dada la creciente carga impositiva sobre las familias de clase media, ¿apoya usted recortes en el impuesto sobre la renta?" que a la pregunta "Considerando el creciente déficit presupuestario federal y la necesidad desesperada de más ingresos, ¿apoya usted recortes en el impuesto sobre la renta?".

La formulación adecuada de las preguntas puede ser muy sutil. Las respuestas a dos preguntas pueden variar drásticamente según el orden en que se formulen. ^[15] "Una encuesta que preguntaba sobre la 'propiedad de acciones' reveló que la mayoría de los ganaderos de Texas poseían acciones, aunque probablemente no del tipo que se negociaba en la Bolsa de Valores de Nueva York". ^[16]

Generalización excesiva

La sobregeneralización es una falacia que ocurre cuando se afirma que una estadística sobre una población particular es válida entre los miembros de un grupo para el cual la población original no es una muestra representativa.

Por ejemplo, supongamos que se observa que el 100% de las manzanas son rojas en verano. La afirmación "Todas las manzanas son rojas" sería un caso de generalización excesiva porque la estadística original era verdadera solo para un subconjunto específico de manzanas (las del verano), que no se espera que sea representativo de la población de manzanas en su conjunto.

Un ejemplo real de la falacia de la generalización excesiva se puede observar como un artefacto de las técnicas de sondeo modernas, que prohíben llamar a teléfonos móviles para realizar sondeos políticos por teléfono. Como los jóvenes tienen más probabilidades que otros grupos demográficos de carecer de un teléfono fijo convencional, una encuesta telefónica que sólo encuestó a los que responden a llamadas desde teléfonos fijos puede hacer que los resultados de la encuesta no reflejen las opiniones de los jóvenes, si no se toman otras medidas para tener en cuenta esta distorsión del muestreo. Por lo tanto, una encuesta que examine las preferencias de voto de los jóvenes utilizando esta técnica puede no ser una representación perfectamente precisa de las verdaderas preferencias de voto de los jóvenes en su conjunto sin sobregeneralizar, porque la muestra utilizada excluye a los jóvenes que sólo llevan teléfonos móviles, que pueden o no tener preferencias de voto diferentes a las del resto de la población.

La generalización excesiva ocurre a menudo cuando la información pasa a través de fuentes no técnicas, en particular los medios de comunicación masivos.

Muestras sesgadas

Los científicos han aprendido a un alto precio que es difícil reunir buenos datos experimentales para el análisis estadístico. Ejemplo: el efecto placebo (mente sobre cuerpo) es muy poderoso. El 100% de los sujetos desarrolló una erupción cutánea cuando se expuso a una sustancia inerte que se denominó falsamente hiedra venenosa, mientras que pocos desarrollaron una erupción cutánea ante un objeto "inofensivo" que en realidad era hiedra venenosa. ^{[17] Los investigadores combaten este efecto mediante}experimentos comparativos aleatorios de doble ciego . Los estadísticos suelen preocuparse más por la validez de los datos que por el análisis. Esto se refleja en un campo de estudio dentro de la estadística conocido como el diseño de experimentos .

Los encuestadores han aprendido a costa de mucho que es difícil reunir datos de encuestas de calidad para el análisis estadístico. El efecto selectivo de los teléfonos celulares en la recolección de datos (discutido en la sección de Generalización excesiva) es un posible ejemplo: si los jóvenes con teléfonos tradicionales no son representativos, la muestra puede estar sesgada. Las encuestas por muestreo tienen muchos inconvenientes y requieren un gran cuidado en su ejecución. ^[18] En un esfuerzo se necesitaron casi 3000 llamadas telefónicas para obtener 1000 respuestas. La muestra aleatoria simple de la población "no es simple y puede no ser aleatoria". ^[19]

Error en la información o malentendido del error estimado

Si un equipo de investigación quiere saber qué piensan 300 millones de personas sobre un tema determinado, sería poco práctico preguntarles a todos. Sin embargo, si el equipo elige una muestra aleatoria de unas 1000 personas, puede estar bastante seguro de que los resultados que dé este grupo son representativos de lo que habría dicho el grupo más grande si se les hubiera preguntado a todos.

Esta confianza puede cuantificarse mediante el teorema del límite central y otros resultados matemáticos. La confianza se expresa como la probabilidad de que el resultado verdadero (para el grupo más grande) se encuentre dentro de un cierto rango de la estimación (la cifra para el grupo más pequeño). Esta es la cifra de "más o menos" que se cita a menudo para las encuestas estadísticas. La parte de probabilidad del nivel de confianza no suele mencionarse; si lo hace, se supone que es un número estándar como el 95%.

Los dos números están relacionados. Si una encuesta tiene un error estimado de ±5 % con un nivel de confianza del 95 %, también tiene un error estimado de ±6,6 % con un nivel de confianza del 99 %. ± % con un nivel de confianza del 95 % siempre es ± % con un nivel de confianza del 99 % para una población con distribución normal. ${\estilo de visualización x}$ ${\estilo de visualización 1.32x}$

Cuanto menor sea el error estimado, mayor será la muestra requerida, a un nivel de confianza determinado; por ejemplo, a un 95,4% de confianza:

±1% requeriría 10.000 personas.
±2% requeriría 2.500 personas.
±3% requeriría 1.111 personas.
±4% requeriría 625 personas.
±5% requeriría 400 personas.
±10% requeriría 100 personas.
±20% requeriría 25 personas.
±25% requeriría 16 personas.
±50% requeriría 4 personas.

La gente puede suponer que, debido a que se omite la cifra de confianza, existe una certeza del 100% de que el resultado verdadero se encuentra dentro del error estimado. Esto no es matemáticamente correcto.

Muchas personas no se dan cuenta de que la aleatoriedad de la muestra es muy importante. En la práctica, muchas encuestas de opinión se realizan por teléfono, lo que distorsiona la muestra de varias maneras, incluida la exclusión de personas que no tienen teléfonos, la inclusión de personas que tienen más de un teléfono, la inclusión de personas que están dispuestas a participar en una encuesta telefónica en lugar de las que se niegan, etc. El muestreo no aleatorio hace que el error estimado sea poco fiable.

Por otra parte, la gente puede pensar que las estadísticas son inherentemente poco fiables porque no se llama a todo el mundo, o porque nunca se les pregunta a ellos mismos. La gente puede pensar que es imposible obtener datos sobre la opinión de decenas de millones de personas encuestando a unos pocos miles. Esto también es inexacto. ^[a] Una encuesta con un muestreo perfectamente imparcial y respuestas veraces tiene un margen de error determinado matemáticamente , que solo depende del número de personas encuestadas.

Sin embargo, a menudo se informa de un único margen de error para una encuesta. Cuando se informan los resultados para subgrupos de población, se aplicará un margen de error mayor, pero esto puede no quedar claro. Por ejemplo, una encuesta de 1000 personas puede contener 100 personas de un determinado grupo étnico o económico. Los resultados centrados en ese grupo serán mucho menos fiables que los resultados para la población completa. Si el margen de error para la muestra completa fue del 4%, por ejemplo, entonces el margen de error para ese subgrupo podría ser de alrededor del 13%.

Existen también muchos otros problemas de medición en las encuestas de población.

Los problemas mencionados anteriormente se aplican a todos los experimentos estadísticos, no sólo a las encuestas de población.

Causalidad falsa

Cuando una prueba estadística muestra una correlación entre A y B, generalmente hay seis posibilidades:

A causa B.
B causa A.
A y B son en parte causa uno del otro.
Tanto A como B son causados por un tercer factor, C.
B es causada por C que está correlacionada con A.
La correlación observada se debió puramente al azar.

La sexta posibilidad se puede cuantificar mediante pruebas estadísticas que permiten calcular la probabilidad de que la correlación observada sea tan grande como lo es por pura casualidad si, de hecho, no existe relación entre las variables. Sin embargo, incluso si esa posibilidad tiene una probabilidad pequeña, aún quedan las otras cinco.

Si el número de personas que compran helado en la playa está estadísticamente relacionado con el número de personas que se ahogan en la playa, entonces nadie afirmaría que el helado causa ahogamientos porque es obvio que no es así. (En este caso, tanto los ahogamientos como la compra de helado están claramente relacionados por un tercer factor: el número de personas en la playa).

Esta falacia puede utilizarse, por ejemplo, para demostrar que la exposición a una sustancia química causa cáncer. Sustituya "número de personas que compran helado" por "número de personas expuestas a la sustancia química X", y "número de personas que se ahogan" por "número de personas que contraen cáncer", y mucha gente le creerá. En una situación así, puede haber una correlación estadística incluso si no hay un efecto real. Por ejemplo, si existe la percepción de que un sitio químico es "peligroso" (aunque en realidad no lo sea), los valores de las propiedades en la zona disminuirán, lo que incitará a más familias de bajos ingresos a mudarse a esa zona. Si las familias de bajos ingresos tienen más probabilidades de contraer cáncer que las familias de altos ingresos (debido a una dieta más pobre, por ejemplo, o un menor acceso a la atención médica), entonces las tasas de cáncer aumentarán, aunque la sustancia química en sí no sea peligrosa. Se cree ^[22] que esto es exactamente lo que sucedió con algunos de los primeros estudios que mostraban un vínculo entre los campos electromagnéticos (CEM ) de las líneas eléctricas y el cáncer . ^[23]

En estudios bien diseñados, el efecto de la falsa causalidad puede eliminarse asignando a algunas personas a un "grupo de tratamiento" y a otras a un "grupo de control" al azar, y dando el tratamiento al grupo de tratamiento y no al grupo de control. En el ejemplo anterior, un investigador podría exponer a un grupo de personas a la sustancia química X y dejar a un segundo grupo sin exposición. Si el primer grupo tuviera tasas de cáncer más altas, el investigador sabe que no hay un tercer factor que afecte a la exposición de una persona porque controla quién está expuesto o no, y asigna a las personas a los grupos expuestos y no expuestos al azar. Sin embargo, en muchas aplicaciones, hacer un experimento de esta manera es prohibitivamente caro, inviable, poco ético, ilegal o directamente imposible. Por ejemplo, es muy improbable que un comité de revisión institucional acepte un experimento que implique exponer intencionalmente a personas a una sustancia peligrosa para probar su toxicidad. Las obvias implicaciones éticas de este tipo de experimentos limitan la capacidad de los investigadores para probar empíricamente la causalidad.

Prueba de la hipótesis nula

En una prueba estadística, la hipótesis nula ( ) se considera válida hasta que haya suficientes datos que demuestren que es errónea. Luego se rechaza y la hipótesis alternativa ( ) se considera probada como correcta. Por casualidad, esto puede suceder, aunque sea cierto, con una probabilidad denotada (el nivel de significación). Esto se puede comparar con el proceso judicial, donde el acusado se considera inocente ( ) hasta que se demuestre su culpabilidad ( ) más allá de toda duda razonable ( ). $Estilo de visualización H_{0}$ $Estilo de visualización H_{0}$ $Estilo de visualización H_{A}}$ $Estilo de visualización H_{0}$ ${\estilo de visualización \alpha}$ $Estilo de visualización H_{0}$ $Estilo de visualización H_{A}}$ ${\estilo de visualización \alpha}$

Pero si los datos no nos dan pruebas suficientes para rechazar que , esto no prueba automáticamente que sea correcto. Si, por ejemplo, un productor de tabaco desea demostrar que sus productos son seguros, puede realizar fácilmente una prueba con una pequeña muestra de fumadores frente a una pequeña muestra de no fumadores. Es poco probable que alguno de ellos desarrolle cáncer de pulmón (e incluso si lo hiciera, la diferencia entre los grupos tiene que ser muy grande para rechazar ). Por lo tanto, es probable, incluso cuando fumar es peligroso, que nuestra prueba no rechace . Si se acepta , no se sigue automáticamente que se demuestre que fumar es inofensivo. La prueba no tiene suficiente poder para rechazar , por lo que la prueba es inútil y el valor de la "prueba" de también es nulo. $Estilo de visualización H_{0}$ $Estilo de visualización H_{0}$ $Estilo de visualización H_{0}$ $Estilo de visualización H_{0}$ $Estilo de visualización H_{0}$ $Estilo de visualización H_{0}$ $Estilo de visualización H_{0}$

Esto puede compararse, utilizando el análogo judicial antes mencionado, con el acusado verdaderamente culpable que es puesto en libertad simplemente porque las pruebas no son suficientes para un veredicto de culpabilidad. Esto no prueba la inocencia del acusado, sino solo que no hay pruebas suficientes para un veredicto de culpabilidad.

"...la hipótesis nula nunca se prueba ni se establece, pero es posible que se refute en el curso de la experimentación. Se puede decir que cada experimento existe sólo para dar a los hechos una oportunidad de refutar la hipótesis nula". (Fisher en El diseño de experimentos ) Existen muchas razones para la confusión, incluido el uso de la lógica de la doble negación y la terminología resultante de la fusión de la "prueba de significación" de Fisher (donde la hipótesis nula nunca se acepta) con la "prueba de hipótesis" (donde siempre se acepta alguna hipótesis).

Confundir la significación estadística con la significación práctica

La significación estadística es una medida de probabilidad; la significación práctica es una medida de efecto. ^[24] Una cura para la calvicie es estadísticamente significativa si una pelusilla rala cubre habitualmente el cuero cabelludo que antes estaba desnudo. La cura es prácticamente significativa cuando ya no se necesita un sombrero cuando hace frío y el barbero pregunta cuánto hay que quitarse de la parte superior. Los calvos quieren una cura que sea estadística y prácticamente significativa; probablemente funcionará y, si lo hace, tendrá un gran efecto sobre el cabello. Las publicaciones científicas a menudo requieren sólo significación estadística. Esto ha dado lugar a quejas (durante los últimos 50 años) de que las pruebas de significación estadística son un mal uso de las estadísticas. ^[25]

Dragado de datos

El dragado de datos es un abuso de la minería de datos . En el dragado de datos, se examinan grandes compilaciones de datos para encontrar una correlación, sin ninguna elección predefinida de una hipótesis para probar. Dado que el intervalo de confianza requerido para establecer una relación entre dos parámetros generalmente se elige en un 95% (lo que significa que hay una probabilidad del 95% de que la relación observada no se deba al azar), existe entonces una probabilidad del 5% de encontrar una correlación entre dos conjuntos de variables completamente aleatorias. Dado que los esfuerzos de dragado de datos generalmente examinan grandes conjuntos de datos con muchas variables y, por lo tanto, un número aún mayor de pares de variables, es casi seguro que se encontrarán resultados espurios pero aparentemente estadísticamente significativos en cualquier estudio de este tipo.

Cabe señalar que la extracción de datos es una forma válida de encontrar una hipótesis posible, pero esa hipótesis debe probarse con datos que no se utilizaron en la extracción original. El uso indebido se produce cuando esa hipótesis se enuncia como un hecho sin una validación adicional.

"No se puede probar legítimamente una hipótesis con los mismos datos que la sugirieron en un principio. El remedio es claro: una vez que se tiene una hipótesis, se diseña un estudio para buscar específicamente el efecto que ahora se cree que existe. Si el resultado de esta prueba es estadísticamente significativo, por fin se tiene evidencia real". ^[26]

Manipulación de datos

Esta práctica, denominada informalmente "falsificar los datos", incluye la presentación de informes selectivos (véase también sesgo de publicación ) e incluso la simple invención de datos falsos.

Abundan los ejemplos de informes selectivos. Los ejemplos más sencillos y comunes implican la elección de un grupo de resultados que siguen un patrón coherente con la hipótesis preferida , mientras que se ignoran otros resultados o "secuencias de datos" que contradicen la hipótesis.

Los científicos, en general, cuestionan la validez de los resultados de estudios que no pueden ser reproducidos por otros investigadores. Sin embargo, algunos científicos se niegan a publicar sus datos y métodos. ^[27]

La manipulación de datos es un problema/consideración grave en los análisis estadísticos más honestos. Los valores atípicos, los datos faltantes y la no normalidad pueden afectar negativamente la validez del análisis estadístico. Es adecuado estudiar los datos y reparar los problemas reales antes de comenzar el análisis. "En cualquier diagrama de dispersión habrá algunos puntos más o menos separados de la parte principal de la nube: estos puntos deben rechazarse solo por una causa justificada". ^[28]

Otras falacias

La pseudorreplicación es un error técnico asociado con el análisis de varianza . La complejidad oculta el hecho de que se está intentando realizar un análisis estadístico sobre una sola muestra (N=1). Para este caso degenerado, no se puede calcular la varianza (división por cero). Una (N=1) siempre le dará al investigador la correlación estadística más alta entre el sesgo de intención y los hallazgos reales.

La falacia del jugador supone que un acontecimiento cuya probabilidad futura puede medirse tiene la misma probabilidad de ocurrir una vez que ya ha ocurrido. Por tanto, si alguien ya ha lanzado 9 monedas y en todas ellas ha salido cara, la gente tiende a suponer que la probabilidad de que en el décimo lanzamiento también salga cara es de 1023 a 1 (que era antes de que se lanzara la primera moneda), cuando en realidad la probabilidad de que salga cara en el décimo lanzamiento es del 50% (suponiendo que la moneda no esté sesgada).

La falacia del fiscal ^[29] supone que la probabilidad de que un hecho aparentemente criminal sea fruto del azar es igual a la probabilidad de que el sospechoso sea inocente. Un ejemplo destacado en el Reino Unido es la condena injusta de Sally Clark por matar a sus dos hijos que aparentemente habían muerto de síndrome de muerte súbita del lactante (SMSL). En su testimonio pericial, el ahora desacreditado profesor Sir Roy Meadow afirmó que, debido a la rareza del SMSL, la probabilidad de que Clark fuera inocente era de 1 en 73 millones. Esto fue cuestionado posteriormente por la Royal Statistical Society ^[30] ; suponiendo que la cifra de Meadows fuera exacta, hay que sopesar todas las explicaciones posibles entre sí para llegar a una conclusión sobre cuál de ellas causó con mayor probabilidad la muerte inexplicable de los dos niños. Los datos disponibles sugieren que las probabilidades estarían a favor del doble SMSL en comparación con el doble homicidio por un factor de nueve. ^[31] La cifra de 1 en 73 millones también era engañosa, ya que se obtuvo al encontrar la probabilidad de que un bebé de una familia adinerada y no fumadora muriera de SMSL y elevarla al cuadrado : esto trata erróneamente cada muerte como estadísticamente independiente , asumiendo que no hay ningún factor, como la genética, que haría más probable que dos hermanos murieran de SMSL. ^[32]^[33] Este es también un ejemplo de la falacia ecológica , ya que supone que la probabilidad de SMSL en la familia de Clark era la misma que el promedio de todas las familias adineradas y no fumadoras; la clase social es un concepto altamente complejo y multifacético, con numerosas otras variables como la educación, la línea de trabajo y muchas más. Suponer que un individuo tendrá los mismos atributos que el resto de un grupo dado no tiene en cuenta los efectos de otras variables, lo que a su vez puede ser engañoso. ^[33] La condena de Sally Clark fue finalmente revocada y Meadow fue eliminada del registro médico. ^[34]

La falacia lúdica . Las probabilidades se basan en modelos simples que ignoran las posibilidades reales (aunque remotas). Los jugadores de póquer no tienen en cuenta que un oponente puede sacar una pistola en lugar de una carta. Los asegurados (y los gobiernos) suponen que las aseguradoras seguirán siendo solventes, pero véase AIG y el riesgo sistémico .

Otros tipos de mal uso

Otros usos incorrectos incluyen comparar manzanas y naranjas , usar el promedio incorrecto, ^[35] la regresión hacia la media , ^[36] y la frase general basura que entra, basura que sale . ^[37] Algunas estadísticas son simplemente irrelevantes para un tema. ^[38]

Ciertas expresiones publicitarias como “[m]ás de 99 en 100” pueden ser malinterpretadas como 100%. ^[39]

El cuarteto de Anscombe es un conjunto de datos inventado que ejemplifica las deficiencias de las estadísticas descriptivas simples (y el valor de representar gráficamente los datos antes del análisis numérico).

Véase también

Referencias

Notas

^ Hay algunos datos disponibles sobre la precisión de las encuestas. En el caso de una importante encuesta realizada por el gobierno de Estados Unidos, "en términos relativos, tanto el error de muestreo como el error de sesgo no muestral son minúsculos". ^[20] La diferencia entre los votos predichos por una encuesta privada y el recuento real de las elecciones presidenciales estadounidenses está disponible para comparación en "Election Year Presidential Preferences: Gallup Poll Accuracy Record: 1936–2012". Las predicciones se calcularon normalmente sobre la base de menos de 5000 opiniones de posibles votantes. ^[21]

Fuentes

^ Spirer, Spirer y Jaffe 1998, pág. 1.
^ Gardenier, John; Resnik, David (2002). "El mal uso de las estadísticas: conceptos, herramientas y una agenda de investigación". Rendición de cuentas en la investigación: políticas y garantía de calidad . 9 (2): 65–74. doi :10.1080/08989620212968. PMID 12625352. S2CID 24167609.
^ Fischer, David (1979). Falacias de los historiadores: hacia una lógica del pensamiento histórico . Nueva York: Harper & Row. pp. 337–338. ISBN. 978-0060904982.
^ Strasak, Alexander M.; Qamruz Zaman; Karl P. Pfeiffer; Georg Göbel; Hanno Ulmer (2007). "Errores estadísticos en la investigación médica: una revisión de errores comunes". Swiss Medical Weekly . 137 (3–4): 44–49. doi :10.4414/smw.2007.11587. PMID 17299669. En este artículo, cualquier práctica estadística que no sea la mejor se equipara a un posible uso incorrecto de las estadísticas. En unas pocas páginas se analizan 47 posibles errores estadísticos; errores en el diseño del estudio, el análisis de los datos, la documentación, la presentación y la interpretación. "Los estadísticos deberían participar en las primeras fases del diseño del estudio, ya que los errores en este punto pueden tener repercusiones importantes que afecten negativamente a todas las etapas posteriores de la investigación médica".
^ Indrayan, Abhaya (2007). "Falacias estadísticas en la investigación ortopédica". Indian Journal of Orthopaedics . 41 (1): 37–46. doi : 10.4103/0019-5413.30524 (inactivo el 1 de noviembre de 2024). PMC 2981893 . PMID 21124681. {{cite journal}}: CS1 maint: DOI inactivo a partir de noviembre de 2024 ( enlace )Contiene una rica lista de usos médicos indebidos de estadísticas de todo tipo.
^ Spirer, Spirer & Jaffe 1998, capítulos 7 y 8.
^ Spirer, Spirer y Jaffe 1998, capítulo 3.
^ Spirer, Spirer y Jaffe 1998, capítulo 4.
^ Adler, Robert; John Ewing; Peter Taylor (2009). "Estadísticas de citas". Ciencia estadística . 24 (1): 1–14. doi : 10.1214/09-STS285 .
^ Spirer, Spirer & Jaffe 1998, título del capítulo.
^ Spirer, Spirer y Jaffe 1998, capítulo 5.
^ Weatherburn, Don (noviembre de 2011), "Usos y abusos de las estadísticas sobre delincuencia" (PDF) , Crime and Justice Bulletin: Contemporary Issues in Crime and Justice , 153 , Oficina de Estadísticas e Investigación sobre Delincuencia de Nueva Gales del Sur, ISBN 9781921824357, ISSN 1030-1046, archivado desde el original el 21 de junio de 2014{{citation}}: CS1 maint: URL no apta ( enlace )Este informe australiano sobre estadísticas de delincuencia ofrece numerosos ejemplos de interpretación y mala interpretación de los datos. "El aumento del acceso de los medios de comunicación a la información sobre delincuencia no ha ido acompañado de un aumento de la calidad de la información que los medios de comunicación ofrecen sobre el delito. El uso indebido de las estadísticas de delincuencia por parte de los medios de comunicación ha impedido un debate racional sobre la ley y el orden". Entre los supuestos abusos de los medios de comunicación: uso selectivo de los datos, información selectiva de los hechos, comentarios engañosos, tergiversación de los hechos y titulares engañosos. La policía y los políticos también abusaron de las estadísticas.
^ Krugman, Paul (1994). Vendiendo prosperidad: sentido y sinsentido económico en la era de las expectativas reducidas . Nueva York: WW Norton. p. 111. ISBN 0-393-03602-2.
^ Spirer, Spirer y Jaffe 1998.
^ Kahneman 2013, pág. 102.
^ Moore y Notz 2006, pág. 59.
^ Moore y Notz 2006, pág. 97.
^ Moore y McCabe 2003, págs. 252–254.
^ Moore y Notz 2006, pág. 53, Encuestas de muestra en el mundo real.
^ Freedman, Pisani y Purves 1998, capítulo 22: Medición del empleo y el desempleo, pág. 405.
^ Freedman, Pisani y Purves 1998, págs. 389–390.
^ Farley, John W. (2003). Barrett, Stephen (ed.). "Líneas eléctricas y cáncer: nada que temer". Quackwatch.
^ Vince, Gaia (3 de junio de 2005). «Un estudio de gran escala vincula las líneas eléctricas con el cáncer infantil». New Scientist . Archivado desde el original el 16 de agosto de 2014.{{cite news}}: CS1 maint: URL no apta ( enlace )Citas: Draper, G. (2005). "El cáncer infantil en relación con la distancia a las líneas eléctricas de alta tensión en Inglaterra y Gales: un estudio de casos y controles". BMJ . 330 (7503): 1290. doi :10.1136/bmj.330.7503.1290. PMC 558197 . PMID 15933351.
^ Moore y McCabe 2003, págs. 463.
^ Rozeboom, William W. (1960). "La falacia de la prueba de significación de hipótesis nula". Psychological Bulletin . 57 (5): 416–428. doi :10.1037/h0042040. PMID 13744252.
^ Moore y McCabe 2003, pág. 466.
^ Neylon, C (2009). "Los científicos lideran el impulso para compartir datos abiertos". Información de investigación . 41 . Europa Science: 22–23. ISSN 1744-8026. Archivado desde el original el 3 de diciembre de 2013.{{cite journal}}: CS1 maint: URL no apta ( enlace )
^ Freedman, Pisani y Purves 1998, capítulo 9: Más sobre correlaciones, §3: Algunos casos excepcionales
^ Seife, Charles (2011). Proofiness: cómo te engañan los números . Nueva York: Penguin. pp. 203-205 y Apéndice C. ISBN 9780143120070. Se analiza el famoso caso británico.
^ Royal Statistical Society (23 de octubre de 2001). " "La Royal Statistical Society se muestra preocupada por las cuestiones planteadas en el caso de Sally Clark" (PDF) . Archivado desde el original (PDF) el 24 de agosto de 2011. (28,0 KB) "
^ Hill, R. (2004). "Muertes infantiles súbitas múltiples: ¿coincidencia o más allá de la coincidencia?". Epidemiología pediátrica y perinatal . 18 (5): 320–6. doi :10.1111/j.1365-3016.2004.00560.x. PMID 15367318.
^ "Más allá de toda duda razonable". Plus Maths . Consultado el 1 de abril de 2022 .
^ ab Watkins, Stephen J. (1 de enero de 2000). "¿Condena por error matemático?: Los médicos y los abogados deberían entender bien la teoría de la probabilidad". BMJ . 320 (7226): 2–3. doi :10.1136/bmj.320.7226.2. ISSN 0959-8138. PMC 1117305 . PMID 10617504.
^ Dyer, Clare (21 de julio de 2005). "El profesor Roy Meadow ha sido despedido". BMJ . 331 (7510): 177. doi :10.1136/bmj.331.7510.177. ISSN 0959-8138. PMC 1179752 . PMID 16037430.
^ Huff 1954, capítulo 2.
^ Kahneman 2013, capítulo 17.
^ Hooke 1983, §50.
^ Campbell 1974, capítulo 3: Estadísticas sin sentido.
^ Mazer, Robert. "LOS MATERIALES DE MARKETING DEL LABORATORIO PUEDEN EXPONERLO A RECLAMACIONES LEGALES". LinkedIn . Consultado el 10 de abril de 2024 .

Lectura adicional

Wikimedia Commons alberga una categoría multimedia sobre Mal uso de las estadísticas .

Wikiquote tiene citas relacionadas con Mal uso de las estadísticas .

Campbell, Stephen (1974). Fallas y falacias en el pensamiento estadístico. Prentice Hall. ISBN 0-486-43598-9.
Christensen, R.; Reichert, T. (1976). "Violaciones de la unidad de medida en el reconocimiento de patrones, ambigüedad e irrelevancia". Reconocimiento de patrones . 8 (4): 239–245. Bibcode :1976PatRe...8..239C. doi :10.1016/0031-3203(76)90044-3.
Ercan I, Yazici B, Yang Y, Ozkaya G, Cangur S, Ediz B, Kan I (2007). "Uso incorrecto de las estadísticas en las investigaciones médicas" (PDF) . Revista Europea de Medicina General . 4 (3): 127–133. doi : 10.29333/ejgm/82507 . Archivado desde el original el 13 de noviembre de 2014.{{cite journal}}: CS1 maint: URL no apta ( enlace )
Ercan I, Yazici B, Ocakoglu G, Sigirli D, Kan I (2007). "Revisión de la confiabilidad y factores que afectan la confiabilidad" (PDF) . InterStat . Archivado desde el original el 28 de agosto de 2013.{{cite journal}}: CS1 maint: URL no apta ( enlace )
Freedman, David; Pisani, Robert; Purves, Roger (1998). Estadísticas (3.ª ed.). WW Norton. ISBN 978-0-393-97083-8.
Hooke, Robert (1983). Cómo distinguir a los mentirosos de los estadísticos . Nueva York: M. Dekker. ISBN 0-8247-1817-8.
Huff, Darrell (1954). Cómo mentir con estadísticas . WW Norton & Company. LCCN 53013322. OL 6138576M.
Kahneman, Daniel (2013). Pensar rápido, pensar despacio . Nueva York: Farrar, Straus and Giroux. ISBN 9780374533557.
Moore, David; McCabe, George P. (2003). Introducción a la práctica de la estadística (4.ª ed.). Nueva York: WH Freeman and Co. ISBN 0716796570.
Moore, David; Notz, William I. (2006). Estadística: conceptos y controversias (6.ª ed.). Nueva York: WH Freeman. ISBN 9780716786368.
Spirer, Herbert; Spirer, Louise; Jaffe, AJ (1998). Estadísticas mal utilizadas (2.ª edición revisada y ampliada). Nueva York: M. Dekker. ISBN 978-0824702113.El libro se basa en varios cientos de ejemplos de mal uso.
Oldberg, T. y R. Christensen (1995) "Erratic Measure" en NDE for the Energy Industry 1995 , The American Society of Mechanical Engineers. ISBN 0-7918-1298-7 (páginas 1–6) Republicado en la Web por ndt.net
Oldberg, T. (2005) "Un problema ético en las estadísticas de confiabilidad de las pruebas de detección de defectos", discurso pronunciado en el Capítulo Golden Gate de la Sociedad Estadounidense de Pruebas No Destructivas . Publicado en la Web por ndt.net
Stone, M. (2009) No tener en cuenta las cifras: la costosa negligencia de Whitehall en el razonamiento estadístico , Civitas, Londres. ISBN 1-906837-07-4
Galbraith, J.; Stone, M. (2011). "El abuso de la regresión en las fórmulas de asignación del Servicio Nacional de Salud: Respuesta al 'documento de investigación sobre asignación de recursos' del Departamento de Salud de 2007". Journal of the Royal Statistical Society, Serie A . 174 (3): 517–528. doi : 10.1111/j.1467-985X.2010.00700.x . S2CID 118029429.